top of page

Data quality : comment mener une bonne stratégie de qualité des données ?


data-quality-guide

Les organisations doivent relever de nombreux défis liés à la croissance exponentielle des données. Si on écarte les problématiques liées au stockage et à la protection des données, les enjeux les plus importants sont les suivants :

  • l’analyse des données : les organisations doivent être en mesure d'analyser les données pour les transformer en informations utiles et exploitables, améliorer les opérations et prendre des décisions éclairées,

  • la qualité des données, préalable indispensable à l’analyse : il est essentiel de s’assurer de l'intégrité des données afin de garantir des résultats justes, pertinents et appropriés.


Sommaire


  1. Qu'est ce que la data quality, la qualité des données ?

  2. Pourquoi la data quality est un problème en entreprise ?

  3. Data quality : comment détecter les erreurs de saisie

  4. Comment traiter des données hétérogènes ?

  5. Data quality : pourquoi automatiser le traitement de ses données ?

  6. Les solutions de data quality, comment bien choisir son outil de qualité des données ?



Qu'est ce que la data quality, la qualité des données ? 🤔


La data quality, ou qualité des données, est un ensemble de métriques permettant de juger de la pertinence et l’utilisabilité de ses données. La traiter, c’est être capable de mesurer l’exactitude, la complétude, l'intégrité et l’actualité de ses données :

  • l'exactitude signifie que les données sont correctes et cohérentes,

  • la complétude signifie que les données ne sont pas partielles,

  • l'intégrité signifie que les données sont protégées contre les modifications, les suppressions et les ajouts non autorisés,

  • l'actualité signifie que les données sont à jour.

Dans de nombreuses organisations, les données sont aujourd'hui produites à grande vitesse et à grande échelle, rendant difficile leur gestion et leur contrôle. En effet, ces données peuvent être :

  • incomplètes ou incorrectes voire aberrantes,

  • enregistrées dans différents formats et dans différents systèmes de stockage, ce qui complique leur interprétation.


Pour remédier à ces difficultés, la conduite d’une politique de qualité des données est un enjeu majeur. C’est parce que les données seront de qualité, que les décisions prises seront éclairées, et ce dans tous les secteurs d'activité ou disciplines. Essentiels à la confiance et la précision, les processus de data quality se révèlent déterminants, à la fois pour la quantité d'information recueillie que pour sa fiabilité.


Plus vos données seront efficacement collectées, contrôlées, corrigées et harmonisées, meilleures seront vos conclusions et plus pertinentes seront vos décisions.


Il est donc fondamental de déterminer comment contrôler et améliorer la qualité des données afin de mettre en place les règles de gouvernance permettant de garantir cette qualité de façon pérenne.

Pourquoi la data quality est un problème en entreprise ?


La data quality est en réalité un problème récurrent pour ces principales raisons :

  • Les saisies d’informations par des humains créent régulièrement de nouvelles incohérences ou des doublons (dans les CRM, les ERP, les logiciels RH...). Une partie de ces erreurs peuvent être évitée par des contrôles saisie avancés (ex : vérification immédiate d’un nom de ville, d’un code postal). Cependant toutes les erreurs ne peuvent pas être évitées, notamment celles qui impliquent la cohérence entre des informations saisies dans des champs / zones différents.


  • Par exemple, les capteurs ne sont pas exempts de défaillance : ils peuvent émettre des valeurs aberrantes, ou avoir un comportement erratique dans l’écart de temps entre deux mesures.


  • En apprentissage Machine (Machine Learning), les modèles prédictifs ont pu, certes, être entraînés sur des données de qualité, mais lorsqu’on les met en production, c’est pour les confronter à des données que ces modèles n’ont jamais vues. Si la qualité des données d’entrée baisse dans le temps (données manquantes, aberrantes), la précision des prédictions, par nature très sensible à la data quality, va baisser notablement. Le modèle prédictif peut en arriver à faire n’importe quoi.


La mise en production d’IA nécessite donc un contrôle continu de la qualité des données.

Data quality : comment détecter les erreurs de saisie ?


La première étape vers un processus de contrôle de la qualité des données, c'est la détection des erreurs afin de corriger des données incomplètes, incorrectes ou aberrantes.


Les principales sources d’anomalies dans les données


Les erreurs dans les données, même marginales, peuvent avoir un impact énorme sur les décisions de l’entreprise, dès lors que ces décisions reposent sur :


  • des tableaux de bords construits à partir de données de qualité insuffisante présentant éventuellement des doublons (ex : des doublons dans une base clients sont un obstacle majeur à l’identification des meilleurs clients - Absence de Single Customer View),


  • des modèles prédictifs, plus techniques (réseau de neurones, random forest, régression logistique) sont par essence extrêmement sensibles, en phase d’apprentissage, aux données inexactes ou incomplètes.

Les anomalies dans les données peuvent avoir des sources très diverses : saisies manuelles erronées ou illisibles, échecs de transmission, problèmes de conversion, processus incomplets ou inadaptés, etc. Il est important de pouvoir identifier les sources et les types d'erreurs afin de pouvoir les comprendre, les prévenir et les corriger.


Mettre en place des règles de contrôle automatisés et réguliers de la qualité permet ensuite de s'assurer que les erreurs sont repérées et qu'elles peuvent être corrigées avant qu'elles n'affectent la prise de décision.


Travailler sur la qualité des données, c’est reconnaître qu'elle peut être influencée par l’humain, mais pas uniquement. Les erreurs de saisie peuvent aussi provenir de ce que l’on appelle un « mauvais encodage » ou d'une mauvaise transcription.


Il peut s’avérer délicat de détecter les erreurs de saisie, notamment lorsque que l’on se trouve en présence de doublons, mais surtout de « presque doublons ». Par exemple, comme lorsqu'une lettre est mal tapée (la coquille) il est extrêmement difficile, voire impossible de le détecter avec des outils comme Excel ou même du SQL.


Pour améliorer la qualité des données, il faut être dans un certain état d’esprit : reconnaître que ces erreurs peuvent exister, même si on ne les voit pas au premier abord 😇.

Détecter les problèmes de data quality dans les données grâce à des outils spécialisés


Pour passer de l'étape "aveugle" à "voyant", il est possible d'utiliser des solutions disposant de fonctions d'intelligence artificielle, comme la logique floue. Cette technique permet de détecter des erreurs de saisie, lorsque les données sont approchantes. C’est ce que nous appelons des « presque doublons ». La logique floue permet de comparer des noms de personnes qui ont été saisis différemment comme :

  • ‘Emma Dupont’ et ‘Emma Dupond

  • ‘Emma Dupond’ et ‘Emma née Dupond’ (le mot ‘née’ est en plus)

  • ‘Malaurie’ ou ‘Malorie’ voire même ‘Mallorie’

Les outils traditionnels, tels que Excel, sont très peu adaptés pour identifier les données ‘approchantes’. En utilisant des solutions plus avancées, faisant appel à de l'intelligence artificielle, il est possible de :

  • détecter beaucoup plus efficacement les anomalies, les corriger, normaliser les données textuelles, dédoublonner et donc améliorer la qualité des données,

  • d’automatiser ces opérations de détecti