Big data : Comment éviter que le data scientist en devienne l’homme à tout faire? (….ou de nouvelles solutions pour augmenter le savoir-faire des experts métiers)

 

Thierry Elkaim - Chief of Sales and Marketing - Tale of Data

Face à la prolifération des données hétérogènes et l’augmentation du temps passé à les préparer en amont, impliquer davantage les experts métiers dans la préparation des données parait une piste judicieuse. En les dotant de nouveaux outils et en tirant partie de leurs connaissances on peut aller plus vite, et aussi obtenir de meilleurs résultats en sortie des traitements algorithmiques

Le Data Scientist , un surhomme ?

A n’en point douter, le métier de Data Scientist est passionnant et devient incontournable dans la transformation digitale des entreprises. 


Cependant, en termes d’attentes et de compétences, la barre est haute, très haute.
On attend de lui qu’il excelle à la fois en informatique, en mathématiques, et dans la connaissance du métier de son entreprise.  


Fort d’une formation supérieure lui assurant une tête bien faite, il doit maitriser les outils analytiques tels que R (langage informatique pour l’analyse et l’exploration des données), savoir programmer au moins en Python ou en Java, connaitre les méthodes de Machine Learning pour employer la méthode la plus pertinente selon la situation, avoir des connaissances en statistiques, comprendre l’algèbre linéaire et les fonctions de plusieurs variables pour améliorer les algorithmes prédictifs, maîtriser la plateforme Hadoop  de même que les outils du cloud comme Amazon S3 ou Microsoft Azure, sans compter la programmation en SQL pour pouvoir formuler des requêtes, mais aussi savoir manipuler les données non structurées en provenance des réseaux sociaux ou des flux vidéo.


Et bien sûr, il doit aussi posséder quelques précieuses « soft skills » : être curieux pour déceler les données les plus intéressantes, être créatif et poser les bonnes questions, avoir l’esprit intrapreneur pour aller au-devant des problèmes à résoudre dans son entreprise ou dans son industrie. Et enfin le Data Scientist doit avoir le sens de la communication pour  collaborer efficacement avec les autres équipes et les aider à relever leurs défis. Excusez du peu !….


Et cette addition de compétences, alliée à sa rareté, justifie aujourd’hui les salaires élevés qui leurs sont octroyés, et qui font que leur temps est précieux.
 

Mieux répartir les tâches pour une meilleure collaboration 
 

Face à ce large scope d’activité et de compétences, un des enjeux majeurs est de les aider à se concentrer sur leurs talents et augmenter leur productivité, en les déchargeant des tâches que d’autres collaborateurs, notamment les experts métiers feraient aussi bien sinon mieux.


Il en est ainsi de la préparation des données. 

A l’heure du big data, où les sources de données sont de plus en plus nombreuses, les données de plus en plus hétérogènes, et leurs volumes de plus en plus grands, on estime aujourd’hui que jusqu’à 80% d’un projet Big data peut être  ainsi consacré à cette tâche de préparation.
Il s’agit notamment de vérifier la source, la qualité, la pertinence, la fiabilité de ces données, de faire des choix de variables, de les croiser, de les réconcilier etc…etc…Ce n’est pas forcément là que s’exerce le savoir-faire du data scientist….


De l’importance de la qualité du carburant… 

A titre d’information IBM a annoncé en 2017 que le coût des mauvaises décisions prises aux Usa à cause de données de piètre qualité est estimé à environ 3100 milliards de dollars(3,1 trillions $) par an.


Cette étape de préparation est donc cruciale, car de la même manière que la qualité du carburant impacte la performance d’une Formule 1, ou que le choix de sa nourriture influence la bonne santé de l’être humain, la qualité des données en entrée va décider de  la performance d’un algorithme en sortie.(Par opposition certains emploient l’expression « garbage in, garbage out »)


Et cette étape de préparation amont, si elle est effectuée par les experts du métier, qui en connaissent toutes les subtilités et qui en ont l’expérience « terrain », peut s’avérer plus efficace et aller bien au-delà de la simple préparation, et peut même permettre d’entrevoir des solutions aux problèmes posés à ce stade. Et ce, avant même la phase d’algorithme qui relève bien sûr des data scientists.
.


La Data Preparation assistée par Intelligence Artificielle 

Il y a justement un potentiel considérable de gains de productivité, mais aussi de pertinence dans cette étape de préparation, grâce à … l’intelligence artificielle 


Selon un rapport publié par Gartner Inc, plus de 40% des tâches effectuées par un Data Scientist seront automatisées d’ici 2020. On peut dire que la data preparation en fait déjà partie.


En effet une solution innovante consiste donc à équiper les hommes et les femmes du métier, d’outils logiciels intelligents et très ergonomiques, leur permettant de tirer parti de leur savoir-faire pour préparer et analyser les données, sans pour autant connaitre la programmation ni savoir écrire des requêtes SQL.


 Ce qui leur donne plus d’autonomie et les affranchit au passage  des allers-retours fastidieux  avec le service informatique ou les data scientists.

Ces nouvelles solutions intelligentes  de Data Preparation, en scrutant des tableaux de centaines de milliers, voire de millions de lignes et de  milliers de colonnes, sont capables de les aider à formuler des diagnostics, à traiter les données comportant des imperfections, les  valeurs manquantes ou des chaînes de format incohérentes, sans pour autant être data scientist, informaticien ou statisticien.


En effet ces outils leur suggèrent des scénarios automatiques de nettoyage, mais aussi de jointures, de transformations, de règles, que l’utilisateur peut appliquer -ou pas- en fonction de ses choix métier.


Dès aujourd’hui dans l’entreprise, certaines fonctions liées à l’investigation, à l’analyse  notamment dans les domaines de la conformité, des risques, de la fraude, du  marketing, en sont déjà très friands.

Conclusion

En impliquant davantage les hommes de métiers dans cette phase et en les dotant des nouvelles solutions intelligentes de préparation des données,  on réalise un double objectif, en leur donnant plus d’autonomie et en tirant partie de leur savoir-faire d’une part, et d’autre part en permettant aux data scientists de se focaliser sur leur cœur de métier et d’obtenir de meilleurs résultats sur la partie algorithmes, grâce à la pertinence  des données entrantes.


Thierry Elkaim

Chief of Sales and Marketing

Tale of Data

Data Quality-Centric Big Data Forensic Analytics

6 rue Jadin
75017 Paris, France

  • LinkedIn Social Icône
  • Twitter Icône sociale
  • Icône sociale YouTube

© Tale of Data 2018 - 2019