top of page

L'IA générative pour optimiser la qualité des données : l'approche innovante de Tale of Data

Par Jean-Christophe Bouramoué


IA générative et qualité des données

Après l’onde de choc de l’IAG, l’heure est au pragmatisme pour Jean-Christophe Bouramoué, créateur de la plateforme de qualité de données Tale of Data.


Impact et réflexion autour de l'IA générative


Le séisme provoqué par les progrès spectaculaires des IA génératives fin 2022 semble s’être quelque peu apaisé pour laisser place à des réflexions et actions plus pragmatiques de la part des acteurs et témoins de cette révolution. Passée la phase bien compréhensible de stupéfaction, les bonnes questions commencent à être posées : quel est le véritable impact de l’IA générative sur la productivité ? Quels sont les risques associés à une mise en production de ces technologies ? Les réponses sont complexes et très dépendantes du domaine, sans parler des questions éthiques. Il est cependant manifeste que nous avons franchi une étape dans la réflexion sur notre rapport à l’IA.


Avancées de Tale of Data en 2024 : intégration de l'IA générative


Alors qu’en est-il pour Tale of Data, éditeur français de mise en qualité des données ? La version 2024 de Tale of Data intègre l’IA générative en proposant des fonctionnalités avancées d’audit, d’analyse, de corrections et de transformation des données. Jusqu’ici notre solution analysait de façon entièrement automatique les colonnes des jeux de données : la vérification de la cohérence des lignes nécessitait la création de règles métiers par l’utilisateur.


Avec l’intégration d’une IA générative, Tale of Data peut désormais détecter des incohérences sur une ligne sans intervention humaine : par exemple l’audit Tale of Data peut signaler que l’adresse postale d’un individu n’est pas située dans le même pays que celui indiqué par son n° de téléphone. Cela ne veut pas dire qu’il ne faut pas qu’il y ait intervention humaine - au contraire - mais l’analyse première peut être réalisée par l’IA. Autre point important : Tale of Data utilise la puissance de l’IA générative uniquement sur un petit échantillon de données (moins d’une centaine de lignes éventuellement anonymisées par exemple). Notre plateforme va ensuite interpréter et vérifier les réponses de l’IA pour effectuer des traitements de contrôle et de remédiation sur des données potentiellement massives (des milliards de lignes).


ia générative intégré dans tale of data

Les points forts de l’approche que nous avons choisie résident en premier lieu dans le fait de rendre compatibles l’utilisation du langage naturel par les utilisateurs lors de l’expression de leurs besoins avec le besoin de confidentialité des données. Cela est rendu possible par le fait que l’utilisateur n’expose qu’une partie infime de ses données. En second lieu, le coût d’utilisation de ChatGPT et d’autres IA génératives est maîtrisé et ce n’est pas rien quand on connait les coûts d’entrée et de sortie des « tokens » d’API (pour simplifier : les fournisseurs d’IA-génératives facturent proportionnellement au nombre de mots contenus dans les questions posées et dans les réponses produites). Les montants des factures des fournisseurs d’IA génératives peuvent très vite se révéler prohibitifs alors même que le coût de la solution Tale of Data est fixe. Enfin, le fait de généraliser le diagnostic et les opérations de remédiation à partir d’un petit échantillon permet des gains en termes de rapidité d’exécution et de productivité très supérieurs à ce que l’on obtient en s’en remettant uniquement à l’IA générative.


Prompt IA générative dans Tale of data

Les utilisateurs, avertis des forces et faiblesses des IA génératives, pourront partager les résultats de leurs travaux, interagir avec d’autres équipes dans l’entreprise ce qui reste l’un de nos points forts. Avec Tale of Data toutes les transformations effectuées sont auditables et testables par les utilisateurs, et par la DSI si nécessaire. Cela permet d’éviter les surprises lors des mises en production et de se prémunir des risques d’hallucination des LLM (Large Language Model).


Vers une démocratisation de l'utilisation des données


Demain il sera possible d’imaginer d’autres usages qui viendront renforcer, booster l’usage des nombreuses fonctionnalités de notre solution. Et c’est ce sur quoi nous travaillons dès aujourd’hui : démocratiser les usages en permettant à l’utilisateur d’exprimer ses attentes avec ses propres mots, tout en lui donnant tous les moyens de contrôle nécessaires.


Comments


bottom of page