Tale of Data publie le 1er lexique du marché le “Langage de la Data Quality”
Industrie
Monitoring et amélioration de la qualité des données
de capteurs
Données de capteurs (IoT), Transactions financières, Plant Information, Détection d’anomalies
Le besoin
Notre client, un groupe industriel comptant des centaines de filiales à travers le monde, souhaitait contrôler et améliorer la qualité des données PI (PI = Plant Information : données émises par des capteurs installés sur des sites de production).
Les objectifs étaient multiples :
• Disposer de nomenclatures PI (Assets, Attributs, Tags) avec des règles de nommage claires, qui soient exemptes de doublons afin de permettre une meilleure réutilisation des Tags ainsi que des analyses cross-sites.
• Mettre en place un système de monitoring performant pour les PI Tags (= séries temporelles) : détection en temps réel des données manquantes ou aberrantes, identification des capteurs défectueux, etc.
• Alimenter les équipes de Data Scientists en données fiables, qui sont un prérequis incontournable pour la construction de modèles prédictifs cohérents et performants (forecasting, maintenance prédictive, etc.).
Solution proposée :
Harmonisation de la nomenclature des capteurs :
Tale of Data permet de rapprocher automatiquement des textes (nom, description, etc.) présentant des différences d’orthographe au moyen d’algorithmes de fuzzy matching avancés : phonétique (anglais / français) , fréquence des consonnes (ou des voyelles), fragmentation des mots (N-Gram), ou encore pondération automatique des mots : les mots les moins discriminants se voient attribuer un poids faible.
Monitoring des données de capteurs grâce aux algorithmes d’analyse de séries temporelles de Tale of Data :
• Détermination, par type de capteur, des seuils d’alertes appropriés pour les valeurs mesurées (température, pression, etc.) : ces seuils ont été obtenus en lançant une analyse automatique sur plusieurs années d’historique
• Détermination, par type de capteur, des seuils d’alertes appropriés pour les écarts de temps entre deux mesures : ces seuils ont été obtenus en lançant une analyse automatique sur plusieurs années d’historique
• Pose d’alertes automatiques en cas de dépassement des seuils précédemment déterminés ou lorsque les données sont manquantes
Gains obtenus
L’harmonisation des libellés et le dédoublonnage ont permis la création d’un référentiel partagé de métadonnées PI : Assets, Attributs, Tags.
Ce référentiel de métadonnées PI partagé, avec des règles de nommage claires a ouvert de nombreuses possibilités :
• Représentation cohérente du système : même ensemble d’attributs pour les éléments représentant le même type d’équipement, avec des noms, des descriptions et des unités de mesures standardisés
• Facilitation des analyses « multipoints » : des métadonnées standardisées permettent d’agréger ou comparer des séries temporelles, que ce soit pour le monitoring, le reporting ou l’analyse prédictive (Machine Learning )
L’analyse des séries temporelles a permis de mettre en production, en quelques semaines, un système de surveillance entièrement automatisé analysant en permanence les données de plusieurs dizaines de milliers de capteurs.
Des alertes sur des conditions très précises ont été mises en place (capteurs émettant des valeurs erronées ou présentant des anomalies dans les intervalles de temps entre deux mesures). Ces alertes peuvent être à tout moment reconfigurées par les utilisateurs métier, sans écrire de code.