La Data Science s’est répandue dans les organisations depuis plusieurs années. Elle est devenue essentielle et offre des perspectives très intéressantes en terme de carrière. Voici un article rédigé par Bruno Sarrant, Data Scientist (actuaire de formation et ancien consultant Java) qui intervient auprès de grands groupes dans le cadre de projets de Datascience. Il nous donne sa vision sur cette discipline riche, complexe et passionnante à la fois.

 

Histoire courte de la Data Science

Naissance

La Data Science est une science appliquée assez ancienne. Elle est apparue en parallèle de l’utilisation de plus en plus massive des ordinateurs par les entreprises et institutions. Ainsi on peut dire que le premier outil commercial de data science est SAS, implémenté sur Mainframe. Puis sont apparus Matlab et Mathematica dans les années 80 avec l’avènement des systèmes Unix.

Les années 90 ont été une période de transition importante pour la Data Science. Elles ont vu ces outils se démocratiser grâce à l’arrivée des PC sur les bureaux des entreprises et des particuliers.  Nous sommes alors passés d’un environnement de travail limité à un espace local ou à une relation de type client lourd – serveur. La démocratisation progressive d’Internet a amené un changement de paradigme. La création de nodes dans les universités majeures, puis dans les entreprises ont décuplé les ressources (stockage & puissance de calcul). Il a été alors possible de travailler sur des algorithmes inaccessibles auparavant.

 

Émergence

« Cloud », « SaaS », ces termes marketing vous disent quelque chose ? Oui ! Résultat de 10 ans de matraquage marketing par les vendeurs de solutions logicielles. Ces solutions de gestion de données massives, que l’on résume sous le terme « Big Data » et de son paradigme 3VC (Volume, Variété, Vélocité, Complexité), se sont déployées. Une fois la bulle internet passée, c’est dans ce changement que la « Data Science 2.0 » trouve ses origines.

Cette intégration croissante de ces plateformes a fait évoluer la Data Science car :

  • L’augmentation du volume des données rend difficile le rejet des hypothèses.
  • L’accès, la manipulation et l’affinage des données nécessitent des connaissances de type IT.
  • Les enjeux ont évolué. L’entreprise a besoin de recommandations pour conquérir de nouveaux clients et tenir ses engagements vis-à-vis des actionnaires.

L’article de Thomas H. Davenport et D.J. Patil, publié en 2012, a révélé le terme de « Data Scientist », individu à la croisée entre des expertises en Mathématiques, Informatique et Business, souvent décrit à l’aide du diagramme de Venn ci-dessous. Nous y avons dédié un article : Recrutement : comment intégrer un Data Scientist ?

 

Développement

La Data Science se développe grâce à plusieurs facteurs :

  • La démocratisation d’une offre dématérialisée : en puissance de calcul (Instances Spark, Fermes GPU…) et en gestion d’importants volumes de données (Parc Hadoop géré via Ambari, déploiement d’instances packagées…),
  • Le développement de nouvelles méthodes d’analyse : nouveaux environnements collaboratifs (Github, Stackoverflow, Kaggle …)
  • L’émergence de formations spécialisées : formation en Big Data et Data Science auprès des institutions (Universités, organismes professionnels …) ou des nouvelles plateformes (Coursera, Udacity …)
  • L’émergence d’entreprises, dans la lignée des GAFAs et des licornes, qui ont fait de la Data Science, un des piliers de leur stratégie marketing et communication.

Gartner corroborait l’avènement de la Data Science dans son fameux Hype Cycle en 2014.

Cycle de vie des technologies émergentes, 2014, Gartner Inc.

 

Phase d’expérimentation de la Data Science 2.0

Ce qui est admirable dans la Nation Américaine, c’est sa capacité à s’organiser. Elle avance de front dans ses actions commerciales, basées sur un marketing fort et une communication omniprésente.

Et cela marche car nos entreprises, après une phase d’attentisme, sont en train de se mettre en marche :

  • Création d’organisations ad-hoc pour intégrer la Data Science au sein de leurs structures (AXA, BNP …)
  • Investissement dans leurs structures IT et leurs organisations de leurs données (la fameuse « Urbanisation » des données),
  • Constitution d’équipes aptes à créer de nouvelles « opportunités » business,
  • Crédibilité de l’approche via des prototypes (« POC » si l’on veut jargonner),
  • Définition des processus pour aboutir à l’industrialisation de ces démonstrations.

Cette approche peut vous être familière. Aucune entreprise, de la plus grosse à la plus petite, n’échappe à la dématérialisation massive en ce moment.

Devant une évolution si rapide, orienter une organisation vers la Data Science, amène forcément des difficultés :

  • Au niveau du processus de recrutement (identification et mise en adéquation des candidats par rapport aux besoins, problème de coût sur une denrée rare…)
  • Dans l’intégration des « Data Scientist 2.0 » au sein d’une entreprise pérenne
  • Dans la déclinaison opérationnelle de ces nouveaux «vecteurs de valeurs »

 

La déclinaison opérationnelle de la Data Science

Aujourd’hui, peu d’entreprises sont opérationnelles au niveau Data Science pour les raisons suivantes :

  • Les environnements techniques ne sont pas à disposition (manque d’investissement, données insuffisantes ou non qualifiées …),
  • L’organisation n’est pas adaptée pour permettre d’introduire efficacement ces nouvelles méthodes,
  • Il faut intégrer l’activité existante car c’est elle qui fournit les résultats actuels de l’entreprise,

Pour faire une telle évolution, le management doit engager les investissements nécessaires et modifier les organisations. Il doit aussi déterminer un plan d’évolution ou de maintien en coexistence de l’activité existante. Beaucoup d’entre vous savent que c’est un processus long, coûteux et complexe.

Faire évoluer une organisation vers la Data Science est complexe pour le manager.

Voici les difficultés auxquelles il doit faire face :

  • Obtenir les investissements nécessaires pour une période à moyen terme. Comme ils peuvent être conséquents, le processus de décision peut se faire sur plusieurs années… ou pas du tout.
  • Faire coexister les approches. Le choc des cultures peut créer des frictions importantes. Les nouveaux venus, enthousiastes de tout disrupter peuvent destabiliser les internes, habitués à une hiérarchisation stricte. Ils peuvent ainsi freiner la fameuse « conduite du changement».
  • Faire évoluer l’organisation. Ceci est tout sauf une mince affaire. Les processus à transposer, à faire évoluer, et la peur inhérente du « on sait ce que l’on quitte, pas ce que l’on va avoir », peuvent apporter une forte inertie.

En parallèle, nous avons de nouvelles méthodes opérationnelles qui sont définies avec :

  • Une complexité mathématique grandissante. Cela limite, de facto, les personnes aptes à les comprendre et donc augmente le risque de modélisation. Les banques savent à quel point cela peut être coûteux…
  • Une utilisation de technologies plus ou moins connues en interne.
  • Des personnes manquant d’expérience. Elles présentent bien mais dans la pratique, sont assez inexpérimentées soit techniquement, soit en connaissance business. L’élément critique concerne souvent la méconnaissance des pratiques d’un business. Ce dernier peut être cadré par une règlementation astreignante ou par une concurrence accrue. Cette méconnaissance peut amener à des pratiques limites ou erronées et donc source de pertes futures.

Continuer à investir pour réussir

Comme vous pouvez l’imaginer, la juxtaposition de ces éléments peut amener à un cocktail détonant et provoquer des échecs qui arrêteront l’effort d’investissement. Or le risque le plus important à ce stade est de ne plus investir car la Data Science est une exploration où on ne sait pas forcément ce que l’on va trouver.

A titre d’exemple, nous avons Critéo, fleuron français sur le tracking utilisateur, qui traite plusieurs Penta octets de données… par jour. Bref un succès qui vient de sa maîtrise technique. A l’origine, cette boîte faisait tout sauf de la Data Science mais s’y est plongée après de multiples pivotements de son business model … mais sans arrêter l’effort d’investissement. C’est une histoire de conviction qui paiera dans tous les cas en évitant de vous déclasser par rapport à vos concurrents.

Après cette phase d’expérimentation, il est impératif d’industrialiser l’utilisation de la Data Science.

 

DataScience 3.0 ou comment éviter la désillusion ?

Pour que la Data Science pénètre les entreprises, il est impératif que les deux parties arrivent à travailler ensemble :

Côté Data Scientist, ils doivent s’intégrer à l’organisation :

  • En écoutant : comprendre le domaine de définition dans lequel s’applique le business permet de créer des modèles en adéquation avec celui-ci. De plus, écouter les gens, c’est leur montrer du respect et une occasion d’apprendre.
  • En restant humble : ça paye toujours mieux dans les structures hiérarchisées que sont les entreprises et si vous êtes bon, ça se saura assez vite et les gens parleront pour vous.
  • En travaillant en équipe : le mythe du « Full Stack Data Scientist» a couru mais il n’est plus. Nous sommes dans une période de segmentation et la dichotomie est une approche classique en mathématique pour aborder les problèmes complexes. Le Data Scientist seul n’aura jamais le résultat d’une équipe où la cohésion règne car le challenge permet de construire et d’avancer.
  • En gardant la passion d’apprendre : cette passion sera moteur et permettra de palier à la frustration causée par les lenteurs de l’entreprise et de rester optimiste.
  • En se spécialisant : Gartner Inc. a illustré les tendances à la segmentation et l’automatisation (cf. « Automated Machine Learning») en faisant disparaître la Data Science au profit de Machine Learning et Deep Learning… deux segments qui entrent dans la phase de désillusion.

Cycle de vie des technologies émergentes, 2017, Gartner Inc.

 

Côté des entreprises, elles doivent changer leur façon de penser :

  • En changeant de méthodes d’identification et d’évaluation : créer votre innovation demande de la matière grise. Il faut un regard neuf ou une pensée transversale que la structure en silos ne permet pas. Et de facto, on n’évalue pas de la même manière une secrétaire, un top manager ou un opérationnel.
  • En affinant vos besoins en Data Science : Le parfait Data Scientist est très rare et souvent pris chez les meilleurs. Segmenter est donc la tendance naturelle qui se constate de plus en plus. Le diagramme de Venn, légèrement modifié, illustre bien les profils en fonction des axes privilégiés.

Diagramme de Venn décrivant les compétences d'un Data Scientist

  • En exploitant mieux les ressources internes : des proto data scientist, il y en a déjà dans les entreprises. Il faut juste changer le regard sur les gens pour les distinguer.
  • En identifiant vos ressources critiques : là est votre risque opérationnel le plus important, tant en dépendance qu’en source d’erreur de modélisation critique. Le Data Scientist a besoin de moyens de grandir et ainsi éviter les situations conflictuelles et perdante-perdante.
  • En investissant à long terme : c’est le défaut majeur que l’on trouve en France ! Investir à long terme, c’est un plan de financement sur plusieurs années, que l’on ajuste souvent à la hausse…

 

En conclusion

Intégrer la Data Science est un saut technologique, comparable à l’intégration d’Internet comme canal de vente. Ceux qui y ont cru sont les GAFAs ou Licornes en tout genre. Les autres sont morts ou exsangues dans cette bataille commerciale implacable. Où vous voulez ête ?

Je conclurai en citant Winston Churchill (13 mai 1945). Son pays était alors isolé, en déroute. Il était inconscient de l’effort de guerre qu’il faudrait, pour lui et pour sa nation… Car c’est ce qui vous attend demain dans votre entreprise…

« A la Chambre des communes, je dirai comme je l’ai dit à ceux qui ont rejoint le gouvernement.  » Je n’ai rien d’autre à offrir que du sang, de la peine, des larmes et de la sueur. Nous avons devant nous une épreuve des plus douloureuses. Nous avons devant nous de nombreux et longs mois de combat et de souffrance.

Vous demandez, quelle est notre politique ? Je peux vous dire : c’est d’engager le combat sur terre, sur mer et dans les airs, avec toute la puissance, la force que Dieu peut nous donner ; engager le combat contre une monstrueuse tyrannie, sans égale dans les sombres et désolantes annales du crime. Voilà notre politique.

Vous demandez, quel est notre but ? Je peux répondre en un mot : la victoire. La victoire à tout prix, la victoire en dépit de la terreur, la victoire aussi long et dur que soit le chemin qui nous y mènera ; car sans victoire, il n’y a pas de survie. »

 

Envie d’en savoir plus ?

Pour aller plus loin, consultez l’article dédié au métier de Data Scientist.Vous pouvez suivre et contacter Bruno Sarrant