
Agrégation de plusieurs bases de données avec Record Lineage
Notre client souhaitait publier, sur un portail unique, une base de données résultant de la mise en commun d’enregistrements issus de 12 bases de données sources.
Des recouvrements existant entre les différentes bases de données sources, il était nécessaire de dédoublonner afin que les visiteurs du portail disposent d’une vue unique de chaque enregistrement.
Par ailleurs, les utilisateurs du portail ayant la possibilité de corriger et/ou d’enrichir les informations publiées (=Crowdsourcing), il était nécessaire de conserver, pour chaque entrée de la base agrégée, un lien vers le ou les enregistrements correspondants dans les bases de données sources (= Record Lineage), ceci afin de répercuter les corrections à la source.
Ce use case portait sur des lieux culturels. Il est toutefois déclinable à l’identique avec des listings d’entreprises ou de particuliers (CRM), avec des bases produits, etc.
Solution proposée
Vérification + géolocalisation* des adresses postales.
Vérification des codes postaux, traduction des codes postaux en codes INSEE.
Harmonisation des données de chacune des 12 bases sources afin d’obtenir un format cible unique.
Dédoublonnage multicritères (nom, adresse) et multi-stratégies (phonétiques, distance de Levenshtein, N-gramme, …).
Record Lineage : conservation tout au long de la chaîne de traitement de l’identifiant de chaque enregistrement ainsi que de sa base source d’origine.
Automatisation de l’ensemble de la chaîne de traitements dans les 2 sens (bases sources → base agrégée ET base agrégée → bases sources) afin de propager les mises à jour et les enrichissements pouvant survenir de chaque côté.
Gains obtenus
Une vue unique de chaque enregistrement sur le portail, grâce au dédoublonnage.
La possibilité pour les propriétaires des 12 bases sources de récupérer des corrections par crowdsourcing*, afin de les appliquer sur leur base.
Des données à jour sur le portail incluant à la fois les dernières modifications effectuées dans les bases sources ET les corrections / enrichissements par crowdsourcing.
Une automatisation complète du processus qui permet de propager les corrections dans les deux sens à intervalles réguliers.
Uniformisation de données issues de sources hétérogènes
Notre client, un acteur majeur du transport de voyageurs et de marchandises, souhaitait diminuer le temps passé -plusieurs semaines, voire plusieurs mois- à rassembler les données d’entrée nécessaires à la réalisation d’un projet.
Les équipes Data du client ont donc commencé à concevoir un portail intranet sur lequel les chefs de projet internes pouvaient trouver en quelques clics les données nécessaires à la réalisation de leurs projets.
Le problème : chaque service produisant des données potentiellement réutilisables publiait une fiche signalétique sur ces données dans un format spécifique. De ce fait, il existait plusieurs centaines de formats.
La raison d’être du portail était de permettre une recherche transverse, donc portant sur des jeux de données produits par différents services. Une harmonisation des fiches signalétiques était par conséquent un prérequis indispensable à la réussite du projet de portail.
Solution proposée
Etablissement du format unique pour la fiche signalétique.
Importation du format : Tale of Data utilise le format cible pour suggérer automatiquement à l’utilisateur les transformations de données nécessaires pour passer du format courant au format cible.
Utilisation de Tale of Data par l’équipe Data du client pour créer, pour chaque format de fiche signalétique en entrée, les listes de transformations de données nécessaires à l’obtention d’une fiche en sortie.
Automatisation de l’ensemble du processus : quotidiennement, de nouvelles fiches signalétiques sont déposées par les différents services sur le Cloud privé du client (Microsoft Azure). Tale of Data récupère ces fiches et leur applique automatiquement les transformations qui leur correspondent (en fonction du service d’origine et de la nature de la fiche signalétique).
Une fois au format pivot les fiches sont dédoublonnées, puis envoyées par Tale of Data vers le portail (par API) où elles sont indexées afin d’être disponibles pour la recherche.
Gains obtenus
Des dizaines de millions d’euros économisés grâce à une diminution spectaculaire du temps de démarrage des nouveaux projets.
Le portail est aujourd’hui systématiquement utilisé par les chefs de projet pour rassembler les données dont ils ont besoin pour leurs projets.
Le taux de réutilisation des données est en forte augmentation : diminution significative du nombre de jeux de données achetés à des prestataires externes car le chef de projet n’avait aucun moyen de savoir qu’ils étaient déjà détenus par l’entreprise.
L’uniformisation des lieux (localisation des chantiers, des entrepôts, des dépôts, …) permet d’effectuer sur le portail des recherches géospatiales précises sur des jeux de données.
Les risques d’échec ont fortement diminué car les projets démarrent plus vite et avec les bonnes données d’entrée.

Réconciliation de référentiels automobiles
Notre client, un acteur majeur du crédit à la consommation, souhaitait proposer en ligne à tout acheteur d’un véhicule d’occasion un plan de financement en un clic.
Les sites partenaires vendeurs de véhicules d’occasion utilisent majoritairement comme référentiel automobile l’Argus (parfois JATO), en revanche les algorithmes de création du plan de financement de notre client se basaient sur un autre référentiel : EUROTAX.
Afin que le particulier puisse recevoir son plan de financement en quelques secondes, il fallait établir une correspondance unique entre les entrées des référentiels qui n’avaient pas de clé commune et dont les différences dans la description des véhicules rendaient cette correspondance non triviale.
Solution proposée
Utilisation de jointures spéciales (dites « full-text »)* conçues par Tale of Data (100 000 entrées environ par référentiel) :
-
Création d’une clé composite pour chaque référentiel par concaténation de plusieurs champs (ex : modèle, libellé version longue, nombre de portes, année de mise en service, ...)
-
La clé composite est mise en correspondance avec les clés composites des autres référentiels qui ont le plus de « mots » en commun. De plus les mots sont pondérés en fonction de leur rareté dans le corpus de clés composites (principe : plus un mot est rare dans le corpus, plus la correspondance est crédible)
-
Elimination des correspondances multiples par des champs numériques dit d’arbitrage (comme le prix TTC ou le niveau d’émission de CO2) : ces champs ne sont pas assez standardisés pour être mis dans la clé composite, mais ils s’avèrent très efficaces pour faire un choix lorsqu’un véhicule d’un référentiel est mis en correspondance avec plusieurs véhicules d’un autre référentiel. On prendra donc celui qui a le prix puis le taux d’émission de CO2 le plus proche.
Gains obtenus
Grâce à l’implication des experts métier (qui possèdent une connaissance approfondie des référentiels automobiles) les champs intervenant dans la clé composite ainsi que les champs d’arbitrage ont pu être déterminés de manière optimum.
Le taux de correspondances uniques est passé :
-
De 55% dans la première approche qui consistait à demander aux Data Scientists du client de coder en python des algorithmes de correspondance de chaînes de caractères, algorithmes régulièrement retoqués par le métier, et ce depuis plusieurs mois
-
À 95% dans l’approche par clé composite et implication du métier proposée par Tale of Data
Les 5% restant de correspondances multiples ne présentant pas de différence significative au niveau du plan de financement généré, l’approche Tale of Data a été validée au bout d’une semaine par les équipes métier du client.