La Datascience s’est répandue dans les organisations depuis plusieurs années.

Elle est devenue essentielle et offre des perspectives très intéressantes en terme de carrière.

Voici un article rédigé par Bruno, Datascientist (actuaire de formation et ancien consultant Java)  qui intervient auprès de grands groupes dans le cadre de projets de Datascience.

Il nous donne sa vision sur l’évolution de ce métier riche, complexe et passionnant à la fois.

 

Data Science 3.0 ? Et s’il existait une autre version à celle que la presse nous présente ?

Effectivement, la Data Science est une science appliquée assez ancienne, apparue en parallèle avec l’utilisation de plus en plus massive des ordinateurs par les entreprises et institutions. Ainsi on peut dire que le premier outil commercial de data science est SAS lorsque celui-ci a été implémenté sur Mainframe, puis l’apparition des Matlab, Mathematica dans les années 80 avec l’avènement des systèmes Unix.

La touche finale de la démocratisation de ces outils est venue avec l’arrivée des PC sur les bureaux des entreprises et des particuliers. Féru de mathématique qui cherchait le St Graal en se basant sur le « Numerical Recipes » ou le jeune bidouilleur fou qui créait des représentations graphique en assembleur. Des exemples, les plus anciens peuvent en sortir sur cette période de 30 ans qui fut celle du « Data Scientist 1.0 ».

Les années 90 ont été une période de transition important aussi pour la Data Science car nous sommes passés d’un environnement de travail limité à un espace local ou limité à une relation de type client lourd – serveur. La démocratisation progressive d’Internet (création de nodes dans les universités majeures, puis adoption par les entreprises) a amené un changement de paradigme. En effet, il était devenu possible de pouvoir accéder à plus de ressources (stockage & puissance de calcul), ce qui a permis de travailler sur des algorithmes inaccessibles auparavant.

C’est dans ce changement que le « Data Scientist 2.0 » trouve ses origines avec la montée en puissance de ces nouvelles plateformes distribuées, une fois la bulle internet passée. « Cloud », « SaaS », ces termes marketing vous disent quelque chose ? Oui, 10 ans de matraquage marketing par les vendeurs de solutions logiciels ont réussi (enfin) à trouver leurs places, en déployant ces solutions de gestion de données massives que l’on résume sous le terme « Big Data » et de son paradigme 3VC (Volume, Variété, Vélocité, Complexité).

Cette intégration croissante de ces plateformes a demandé à nos proto Data Scientists d’évoluer car :

1 – Les méthodes d’analyse statistiques classiques se basent sur le seuil d’acceptation « p » et avec un tel volume il devient de plus en plus difficile de rejeter les hypothèses.

2 – Les données récupérées demandent de plus en plus de connaissance de type IT pour arriver à y accéder, les manipuler et les raffiner,

3 – Le Business a beaucoup évolué et il ne se contente plus d’avoir des prédictions, il veut avoir des prescriptions pour conquérir de nouveaux clients et tenir ses engagements vis-à-vis des actionnaires

C’est ainsi que le « Data Scientist 2.0 » est apparu au grand jour (NDR : aux yeux des comités de direction…) après la publication en 2012 de l’article de Thomas H. Davenport et D.J. Patil [1]. Cet article a consacré le terme de « Data Scientist », individu à la croisée entre des expertises en Mathématiques, Informatique et Business, souvent décrit à l’aide du diagramme de Venn ci-dessous.

Figure 1 : Diagramme de Venn représentant la superposition des prérequis nécessaires pour faire de la Data Science 2.0

 

Les « Data Scientist 2.0 » ont réussi à faire leurs émergences grâce à plusieurs facteurs :

  • Un environnement technique très mouvant avec une démocratisation d’une offre dématérialisée, tant au niveau de la puissance de calcul (Instances Spark, Fermes GPU…) que de la gestion d’importants volumes de données (Parc Hadoop géré via Ambari, déploiement d’instances packagées…),
  • Le développement de nouvelles méthodes d’analyses, grâce aux nouveaux environnements collaboratifs (Github, Stackoverflow, Kaggle …) et basées nativement sur ces nouveaux environnements techniques,
  • L’émergence d’une offre de formations spécialisées Big Data / Data Science soit par les institutions (Universités, organismes professionnels …), soit par de nouvelles plateformes (Coursera, Udacity …)
  • L’apparition d’un nouveau fleuron industriel avec les GAFAs et diverses licornes, qui ont fait de la Data Science, une des clés de voute de leurs stratégies marketing et communication.

Tous ces éléments ont amené un flot de communication, afin que l’inconscient collectif (des décideurs) intègre l’importance de la Data Science en tant que facteur positif de valeur ajoutée et, donc, de revenus futurs. Pour illustrer ce point, Gartner corroborait l’avènement de la Data Science dans son fameux Hype Cycle en 2014.

 

Figure 2 : Hype Cycle of Emerging Technologies 2014, Gartner Inc.

 

Phase d’expérimentation de la Datascience 2.0

S’il y a quelque chose d’admirable dans la Nation Américaine, c’est sa capacité à s’organiser et d’avancer de front dans ses actions commerciales, basées sur un marketing fort et une communication omniprésente.

Et cela marche car nos Entreprises, après une phase d’attentisme, sont en train de se mettre en marche :

1 – En montant des organisations ad-hoc pour intégrer la Data Science au sein de leurs structures (AXA, BNP …)

2 – En investissant dans leurs structures IT et leurs organisations de leurs données (la fameuse « Urbanisation » des données),

3 – En montant les équipes aptes à créer de nouvelles « opportunités » business,

4 – En démontrant la crédibilité de l’approche via des prototypes (« POC » si l’on veut jargonner),

5 – Et en en définissant les processus pour aboutir à l’industrialisation de ces démonstrations.

Cette approche peut vous être familière car aucune entreprise, de la plus grosse à la  plus petite, n’échappe à la dématérialisation massive qui se produit en ce moment.

Et une telle évolution rapide pour monter une organisation orientée Data Science, par la majeure partie des entreprises, amène forcément des difficultés :

1 – Dans le processus de recrutement (identification et mise en adéquation des candidats par rapport aux besoins, problème de coût sur une denrée rare…)

2 – Dans l’intégration des « Data Scientist 2.0 » au sein d’une entreprise pérenne

3 – Dans la déclinaison opérationnelle de ces nouveaux «vecteurs de valeurs »

 

Le recrutement du Datascientist 2.0

Aujourd’hui, tout le monde veut monter une équipe avec les meilleurs sur le marché pour être les leaders sur leurs segments. C’est un mythe qui circule (trop) au sein des comités de direction car pour un Data Scientist 2.0, vos entreprises sont « has been » et les meilleurs sont chez les GAFAs et autre Licornes.

Donc il reste au niveau de l’offre :

  • Quelques expérimentés qui ont une partie des trois expertises de notre diagramme de Venn, mais qui ne sont pas typés « Data Science» ou bien qui ne communiquent pas
  • Des jeunes diplômés qui ont baigné au cours de leurs études sur la partie Technologie et une vision « disruptive » du Business,
  • Ou bien beaucoup de Proto Data Scientists qui peuvent répondre à votre besoin, à la condition d’être formés.

Au niveau de la demande, on constate que :

1 – il y a un problème dans la prospection des profils car les recruteurs (chasseurs de têtes, direction RH) ont plus l’habitude de chercher les gens qui rentrent dans les cases… Alors que les entreprises ont besoin d’innover et donc de profils atypiques,

2 – Les prix proposés sont généralement en inadéquation car les entreprises ne réalisent pas à quel point ce marché est compétitif,

3 – L’image de l’entreprise peut être désuète par rapport à la communication qui est faite dans le domaine de la Data Science, ce qui peut être répulsif pour un Data Scientist 2.0 car il gère sa carrière.

Donc :

  • En général on constate une inadéquation offre-demande tant dans le prix que dans l’identification des ressources possibles,
  • Les recrutements sont insatisfaisants pour les deux partis,
  • La compétitivité ambiante ne permet pas de stabiliser vos équipes car vos concurrents viennent débaucher chez vous.

Pour éviter une telle situation, il est impératif de bien analyser votre besoin, de le segmenter correctement et d’identifier les ressources critiques pour y apporter un traitement spécifique

 

L’intégration d’un Datascientist 2.0

Si vous vous documentez sur le phénomène de la Data Science 2.0, un mot clé ressort souvent : la disruption. Ce qui signifie « faire la révolution » si l’on fait dans un raccourci du style « café du commerce ». Votre Data Scientist 2.0 baigne dans cette idéologie et cela peut poser un vrai souci d’intégration au sein d’une entreprise pérenne, stable, fortement hiérarchisée et avec un niveau de régulation plus ou moins fort.

De plus, votre Data Scientist 2.0 baigne dans une ambiance de compétition permanente car il faut trouver l’algorithme le plus performant, notamment s’il est féru des compétitions Kaggle. Et pour y arriver, il a besoin de liberté de mouvements et d’actions, il veut être indépendant et ne pas être limité. Ceci va forcément poser un problème dans une structure où il faut l’approbation de ses supérieurs pour faire, obtenir les ressources et changer les processus opérationnels.

Le troisième point est que votre Data Scientist 2.0 communique et beaucoup. Il partage avec ses « pairs » sur Stackoverflow ou Slack, participe à des projets open source pour monter son tracking record et n’hésite pas à se poser en tant que référence ultime lors de débats internes. Il veut bien faire et il le fait savoir. Ceci peut poser un vrai problème d’intégration avec ses clients internes si cela devient excessif. Mais aussi un problème de confidentialité car communiquer à l’extérieur peut amener à faire des confidences sur le fonctionnement de votre entreprise et de ses projets en cours.

Ces trois éléments peuvent produire, dans l’excès, à l’apparition de comportements aberrants qui peuvent déstabiliser votre organisation. Ce sont des traits que l’on peut retrouver dans la psychologie de certains traders au cours de la période 2000-2010 et qui ont amené les banques à consolider des pertes conséquentes, faute d’avoir canalisé correctement ces opérateurs en les contrôlant efficacement.

 

La déclinaison opérationnelle de la Datascience

Aujourd’hui, peu d’entreprises sont opérationnelles au niveau Data Science pour les raisons suivantes :

  • Les environnements techniques ne sont pas à disposition (manque d’investissement, données insuffisantes ou non qualifiées …),
  • L’organisation n’est pas adaptée pour permettre d’introduire efficacement ces nouvelles méthodes,
  • Il faut intégrer l’activité existante car c’est elle qui fournit les résultats actuels de l’entreprise,

Pour faire une telle évolution, il est nécessaire que le management prenne les décisions nécessaire afin d’effectuer les investissements nécessaires, de modifier les organisations et déterminer un plan d’évolution ou de maintien en coexistence de l’activité existante. Beaucoup d’entre vous savent que c’est un processus long, couteux et complexe.

La complexité d’un rôle de Manager pour mettre en ordre de marche une organisation qui soit opérationnelle au niveau Data Science réside :

  • Dans le fait d’obtenir les investissements nécessaires pour une période à moyen terme, ce qui peut représenter un investissement très conséquent. Entre le temps de la discussion interne et la capacité de l’entreprise à allouer une part conséquente de ses marges de manœuvres, le processus de décision peut se faire sur plusieurs années ou pas du tout.
  • Dans l’évolution de l’organisation, où le choc des cultures entre internes qui sont habitués à une hiérarchisation stricte et de nouveaux venus, enthousiastes de tout disrupter. Cela peut créer des frictions importantes, qui peuvent freiner la fameuse « conduite du changement»…
  • Et ensuite, il y a le bloc de l’existant à faire évoluer et ceci est tout sauf une mince affaire. Entre la complexité des processus à transposer / faire évoluer et la peur inhérente du « on sait ce que l’on quitte, pas ce que l’on va avoir », cela peut apporter une forte inertie

En parallèle, nous avons de nouvelles méthodes opérationnelles qui sont définit avec :

  • Une complexité mathématique plus ou moins importante, ce qui va limiter de facto les personnes aptes à les comprendre et donc réduire le niveau de contrôle sur le risque de modélisation. Les banques savent à quel point cela peut être coûteux …
  • Une utilisation de technologies plus ou moins connues en interne
  • Des personnes qui les promeuvent bien sur présentation mais dans la pratique, sont assez inexpérimentées soit au niveau technique, soit au niveau connaissance business

Sur ce dernier point, l’élément critique concerne la méconnaissance des pratiques d’un business, soit à cause de la concurrence, soit à cause de la réglementation à laquelle il est soumis et qui cadre assez fortement. Méconnaissance qui peut amener à des pratiques limites ou erronées et donc source de perte future.

Comme vous pouvez l’imaginer, la juxtaposition de ces éléments peut amener à un cocktail détonant et provoquer des échecs qui arrêteront l’effort d’investissement. Or le risque le plus important à ce stade est de ne plus investir car la Data Science est une exploration où on ne sait pas forcément ce que l’on va trouver.

A titre d’exemple, nous avons Critéo, fleuron français sur le tracking utilisateur, qui traite plusieurs Penta octets de données … par jour. Bref un succès qui vient de sa maitrise technique. A l’origine, cette boite faisait tout sauf de la Data Science et s’y est retrouvé plongé après de multiples pivotements sur son business model … mais sans arrêter l’effort d’investissement. C’est une histoire de conviction qui payera dans tous les cas en évitant de vous déclasser par rapport à vos concurrents.

Après cette phase d’expérimentation, il est impératif d’industrialiser l’utilisation de la Data Science.

 

DataScience 3.0 ou comment éviter la désillusion

Pour arriver à ce que les pratiques de Data Science pénètrent les entreprises, il est impératif que ces praticiens retrouvent leurs plus grandes vertus qui sont :

  • L’Empathie: modéliser demande d’écouter avant tout, pour comprendre le domaine de définition dans lequel s’applique un business. Sans cela, vos modèles seront au mieux tronqués, au pire à côté de la plaque. De plus écouter les gens, c’est leur montrer du respect et une occasion d’apprendre
  • Le travail en équipe : le mythe du « Full Stack Data Scientist» a couru mais il n’est plus car nous sommes dans une période de segmentation. Et la dichotomie est une approche classique en mathématique pour aborder les problèmes complexes. Vous pouvez être bon cependant vous ne pourrez jamais égaler le résultat d’une équipe où la cohésion règne car le challenge permet de construire et d’avancer.
  • Etre humble: ça paye toujours mieux dans les structures hiérarchisées que sont les entreprises et si vous êtes bon, ça se saura assez vite et les gens parleront pour vous.
  • Garder la passion d’apprendre: elle vous permettra d’avancer malgré les lenteurs d’une boite et de garder cet optimisme au lieu d’accumuler de la frustration,
  • Trouver votre valeur ajouté spécifique : la tendance est à la segmentation / automatisation (cf. « Automated Machine Learning»). De plus, de nouveaux entrants arrivent et les arbitrages que vous pouvez mener vont disparaitre demain. Cette tendance, elle se voit dans les hype cycles récents produit par Gartner Inc. Où Data Science à disparu au profit de Machine Learning et Deep Learning… deux segments qui entrent dans la phase de désillusion.

 

Et pour ceux qui ne se reconnaissent pas dans ces vertus, je ne vous conseille qu’une chose : développez votre vision dans votre propre structure pour devenir une Licorne. Car vous ne trouverez pas de quoi vous épanouir au sien d’une entreprise, qui n’a pas le temps de prendre en compte votre unicité et spécificités.

Et du côté des entreprises :

  • Changez vos méthodes d’identification et d’évaluations: ce que vous demandez, c’est de créer votre innovation et cela demande de la matière grise, qui a un regard neuf ou une pensée transversale que la structure en silos ne permet pas. Et de facto, elles ne s’évaluent pas de la même manière qu’une secrétaire, un top manager ou un opérationnel.
  • Affinez la segmentation de vos besoins en Data Science: le mouton à 5 pattes est très rare et souvent pris chez les meilleurs. Et donc Segmenter est la tendance naturelle qui se constate de plus en plus si l’on regarde le diagramme de Venn légèrement modifié

  • Exploitez mieux vos ressources en interne: des proto data scientist, vous en avez plus que vous pensez. Cependant il faut voir les gens avec une autre perspective.
  • Identifiez vos ressources critiques : là est votre risque opérationnel le plus important, tant en dépendance qu’en source d’erreur de modélisation critique. Donnez-lui les moyens de grandir pour éviter les situations conflictuelles et perdante-perdante.
  • Investissez et ayez le courage d’investir à long terme: c’est le défaut majeur que l’on trouve en France, on fait un POC, on n’est pas convaincu et on arrête. Investir à long terme, c’est un plan de financement sur plusieurs années, que l’on ajuste souvent à la hausse…

Intégrer la Data Science est un saut technologique du même niveau que l’intégration d’Internet comme canal de vente. Ceux qui y ont cru font appartiennent au club des GAFAs et Licornes en tout genre, ceux qui n’y ont pas cru sont mort ou exsangue dans cette bataille commerciale implacable. Après tout dépend où vous voulez vous situer…

Je conclurai en rappelant les paroles de Winston Churchill le 13 mai 1945 dans son discours devant la chambre des communes, alors que son pays était isolé et en déroute, inconscient de l’effort de guerre qui allait se présenter à lui et sa nation… Car c’est ce qui vous attend demain dans votre entreprise…

« A la Chambre des communes, je dirai comme je l’ai dit à ceux qui ont rejoint le gouvernement :  » Je n’ai rien d’autre à offrir que du sang, de la peine, des larmes et de la sueur. Nous avons devant nous une épreuve des plus douloureuses. Nous avons devant nous de nombreux et longs mois de combat et de souffrance.

Vous demandez, quelle est notre politique ? Je peux vous dire : c’est d’engager le combat sur terre, sur mer et dans les airs, avec toute la puissance, la force que Dieu peut nous donner ; engager le combat contre une monstrueuse tyrannie, sans égale dans les sombres et désolantes annales du crime. Voilà notre politique.

Vous demandez, quel est notre but ? Je peux répondre en un mot : la victoire, la victoire à tout prix, la victoire en dépit de la terreur, la victoire aussi long et dur que soit le chemin qui nous y mènera ; car sans victoire, il n’y a pas de survie. »

>> Pour aller plus loin vous pouvez contacter Bruno : bruno.sarrant@gmail.com

A lire aussi

Thématique en rapport :