Tale of Data publie le 1er lexique du marché le “Langage de la Data Quality”
Fiabilisation des données d'un catalogue 'Produits'
Mise en qualité d'un catalogue produits
Optimisation d'un référentiel / base de données
Identification des doublons
Le besoin
Notre client est un acteur majeur de la distribution.
La qualité des informations contenues dans son référentiel Produits est le pré-requis de la réussite de tous les autres projets, comme ceux sur les bases clients, fournisseurs et son site Internet marchand.
L’amélioration de la qualité des données de sa base Produits ainsi que le maintien de sa fiabilité dans le temps constituent donc un enjeu de premier ordre.
La solution Tale of Data a permis par la fiabilisation des données, de résoudre les problématiques suivantes :
• Dédoublonner les produits grâce à ses règles spécifiques ('règles métiers'), écrites en langage naturel
• Détecter des données aberrantes pour les normaliser ou les redresser, sans écrire de code
• Standardiser les descriptions des produits : couleur, matière, unités, ... qui sont parfois différentes en fonction des fournisseurs
Solution proposée
La "traque aux doublons" est la première étape réalisée dans un projet de mise en qualité des données.
Grâce à son moteur d'Intelligence artificielle embarquée, Tale of Data permet de rapprocher automatiquement des textes présentant des similitudes d’orthographe. C'est une de ses spécificités, impossible avec des outils traditionnels.
Pour illustration, Excel n'est pas capable de détecter un doublon entre les mots "logiciel" et "logitiel", et c'est là toute la valeur ajoutée de la solution Tale of Data.
Pour réaliser ce premier travail sur la détection des doublons, Tale of Data intègre une palette de stratégies et d'algorithmes : correspondance approximative, fréquence des consonnes ou des voyelles, fragmentation ou pondération automatique des mots.
Toutes ces méthodes permettent de trouver des doublons bien cachés !
L'automatisation des opérations de mise en qualité des données est ensuite organisée après détection des doublons, triplons, quadruplons : redressement, homogénéisation, jointures floues sur les noms, dédoublonnage.
Les règles de validation souhaitées sont implémentées via le moteur de règles métier de Tale of Data.
Aucun spécialiste en scripts n'a été sollicité : tout a été réalisé via l'interface de la solution et les règles écrites via les menus. L'utilisation d'un outil no-code contenant des fonctions prêtes à l'emploi a permis aux équipes métiers de travailler rapidement, sans avoir besoin de mobiliser des compétences extérieures aux leurs.
Enfin, des tableaux de bord d'alertes sont créés afin de prévenir toute baisse de qualité des données.
La possibilité d'automatiser et de planifier les traitements garantit la pérennité des corrections et prévient la dégradation des données dans le temps.
La qualité des données est durable.
Gains obtenus
L’harmonisation du catalogue produits via le dédoublonnage et la création de règles métier ont permis la mise en place d’un référentiel de qualité, disponible pour toute l'entreprise ; pré-requis et fondement des autres projets Data.
La mise en production a pu être réalisée en quelques semaines et le système de surveillance a été automatisé.
Cette étape, indispensable, a accéléré la mise en ligne des corrections sur le site Internet marchand ; projet qui ne semblait pas atteignable sur la période.