Le lexique
Tale of Data
Un mot que vous ne comprenez pas ?
Nous sommes conscients que tout le monde ne parle pas le langage de la data.
Retrouvez, ci-dessous les définitions des mots suivis d'une *.

Le glossaire
Algorithme de matching / fuzzy matching : procédé algorithmique basé sur une correspondance approximative de deux entrées, plutôt que sur une correspondance exacte. En pratique, différents algorithmes sont mis à disposition dans Tale of Data pour prendre appui par exemple sur les spécificités de la phonétique française ou anglaise. D’autres approches sont proposées comme de donner davantage de poids aux consonnes ou d’utiliser des procédés mathématiques éprouvés comme la distance de Levenshtein*.
API ou Interface de programmation d’applications : interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités.
Base de données relationnelle : en informatique, une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations (Source Wikipédia).
BAN - Base Adresse Nationale : la Base Adresse Nationale est la base regroupant les adresses officielles du territoire français. Cette base en dite « ouverte » : son accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée ou publique.
BCBS 239 : norme bancaire visant à augmenter les capacités des banques en matière d’agrégation de données de risques financiers ; à produire des reportings et à améliorer la qualité de ces données risques.
Churn : est utilisé pour désigner la perte de clients ou d’abonnés. On retrouve l’emploi de ce terme principalement dans l’univers des entreprises de télécom’ et dans celui des banques. Il sert notamment à mesurer la durée moyenne d’un abonnement à une offre ou à un service (abonnement à un bouquet TV sport, à un magazine, à un journal, etc.). Il fait partie des principaux indicateurs de la satisfaction clientèle (source : journal du net).
Cluster : mode de fonctionnement distribué sur plusieurs serveurs, qui permet de traiter en parallèle un grand nombre de données.
Code IRIS : les « Ilots Regroupés pour l'Information Statistique » sont des briques de découpage du territoire créées par l’INSEE de taille homogène. Chaque maille élémentaire regroupe 2 000 habitants.
Connecteurs : moyen pour se connecter à une source de données d’un type particulier (par exemple une base de données SQL Server, ou un serveur de fichiers de type Azure Blob Storage, etc) -> cf section Architecture.
Core banking legacy : Un système legacy, appelé encore système "hérité" est un système informatique (comme un ERP) répondant toujours aux besoins mais il ne pouvant plus évoluer. L'organisation s'appuie toujours sur ce système, mais pourra être limitée car il ne peut pas interagir pas avec les outils analytiques les plus récents, comme ceux hébergés sur le cloud.
Crowd sourcing : mode d’organisation faisant appel à des contributions d’un grand nombre de personnes pour enrichir et améliorer un contenu. Par exemple, Wikipédia est une encyclopédie dont le contenu est enrichi à l’aide d’un très grand nombre de contributeurs.
Data driven : adjectif anglais qui peut se traduite par « pilotée par les données ». Autrement dit, il s’agit d’une entreprise qui s’appuie sur l’analyse de ses données pour prendre des décisions et orienter son évolution plutôt que sur l'intuition.
Datavisualisation (dataviz) : méthode qui consiste à communiquer des chiffres ou des informations brutes en les transformant en objets visuels facile à lire : points, barres, courbes, cartographies.
A noter que la nouvelle version de Tale of Data contiendra un module de DataViz.
Il sera accessible à tous les utilisateurs de la solution et à ceux ne souhaitant disposer que de ce module.
Data scientist : spécialiste de la donnée, il recueille, traite, analyse et fait parler les données pour améliorer les performances de l’entreprise.
Dédoublonnage : méthode qui permet d'éliminer les doublons.
Distance de Levenshtein : mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre (source : Wikipedia).
Données PI (Plant Information) : ces données, produites sur des sites industriels, sont issues de capteurs installés sur des sites de production et envoyés dans un système de stockage.
Données à enrichir : il s’agit du jeu de données en votre possession (par exemple, la liste des prospects de votre CRM), sur lequel vous souhaitez ajouter de l’information non présente sous la forme de nouvelles colonnes (par exemple l’effectif de la société)
Données d’enrichissement : il s’agit d’un jeu de données de référence, interne (ex : disponible dans votre outil MDM) ou externe (ex : la base SIRENE) qui contient des informations supplémentaires dont vous avez besoin pour augmenter votre capacité d’analyse
Enregistrement : lignes dans une base ou un fichier (par opposition aux colonnes).
Enrichissement des données : consiste à compléter les données, à les améliorer et à les structurer via l’utilisation d’une autre source (référentiel, fichier base …).
Flow : traitement construit par l’utilisateur, permettant d'effectuer des tâches de remédiation, de préparation et de monitoring de données. Un flow est par construction conçu pour la production.
Flow Designer : environnement dans le logiciel Tale of Data pour mettre au point des Flows* dans le but de concevoir des transformations sur les données.
Géolocalisation : technologie permettant de déterminer la localisation d'un objet ou d'une personne avec une certaine précision (source CNIL).
Intelligence artificielle : ensemble de techniques qui permettent à des ordinateurs de simuler et de reproduire l’intelligence humaine.
Jointures floues : assemblage de plusieurs sources en faisant des correspondances entre elles à l’aide d’algorithmes de fuzzy matching.
Jointure full-text : assemblage de plusieurs sources en faisant une recherche approfondie dans toutes les données textuelles spécifiées. Ceci permet par exemple de découvrir des liens entre des enregistrements dans deux tables pour lesquels les différences sont reliées à un ordre des mots différent. Un algorithme conventionnel ne pourra pas détecter ce type de correspondance alors qu’elle peut être évidente pour un opérateur humain et pour un algorithme de jointure full-text.
Langage naturel : signifie que l’utilisateur n’a pas besoin de connaître de langages informatiques pour utiliser la solution. Les fonctions sont toutes utilisables via des menus explicites.
Machine Learning : apprentissage automatique qui consiste à laisser les algorithmes découvrir des patterns dans l’ensemble des données. Une fois cet entraînement réalisé, l’algorithme pourra retrouver les patterns dans un nouveau jeu de données.
Mass Data Discovery : procédé d’exploration du système informatique permettant de découvrir et cartographier toutes les données présentes dans le-dit système. Ceci permet notamment d’établir un atlas des données sensibles stockées (comme les données personnelles). Il permet aussi la génération d’un rapport analysant la qualité des données stockées.
Métadonnées : données servant à caractériser une autre donnée, physique ou numérique (source Larousse). Ce sont les données permettant de décrire d’autres données. Exemples : taille d’un fichier, date de création, date de modification, …
N-gramme ou N-Gram : méthode utilisée dans Tale of Data pour évaluer la similarité entre plusieurs mots ou entre plusieurs phrases. Plus généralement, il s’agit de la succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal ; les éléments pouvant notamment être des mots ou des lettres (source : Wikidictionnaire).
Open Data : littéralement, « données ouvertes », se dit des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. La Base des Adresses Nationales ou encore la base des SIRET sont des illustrations d’information consultables en Open Data.
Pattern : un motif défini par l’utilisateur et qui peut être recherché dans les données, ou utilisé dans le cadre de leur transformation.
Phonétique / Algorithme phonétique / Analyse phonétique : rapprochement de termes selon une identité de son. Exemple : recherche de similarité entre des Noms de famille avec le son [o], pouvant s’orthographier o, ô, au, eau.
Préparation de données (ou Data Preparation) : étape précédant l'analyse de données. Elle est constituée de plusieurs tâches comme le nettoyage des données, l'enrichissement des données. Les données brutes sont soumises à un certain nombre de traitement permettant de les rendre fiables et donc exploitables.
La préparation des données est l'étape clé pour une analyse des données valides conduisant à leur maîtrise.
Record Lineage : représentation proposée par Tale of Data qui permet de voir pour un jeu de données particulier la liste et la structure d’enchaînement des données qui servent à alimenter ce jeu de données (les “flux aval”), ainsi que tous les jeux de données et les enchaînements qui sont dépendants du jeu de données sélectionné (les “flux amont”). Ce mode de visualisation permet de comprendre l’origine des données (=vision amont) et d’établir l’impact d’un changement au sein des données concernées sur d’autres jeux de données qui en dépendent (=vision aval).
Réconciliation des données : processus relatif à l’homogénéisation des données, à leur regroupement en fonction de leur nature ou de leur source.
Redressement : phase pendant laquelle les données « brutes » sont analysées pour corrigées. Une des actions de la préparation de données.
Référentiel : liste d'éléments formant un système de référence. Exemple : un référentiel produit est la liste de tous les produits contenant un certain nombre d’attribut pour chaque produit.
Règles de gestion : directives qui régissent les activités d'une organisation ou d'un système. Elles visent à assurer la cohérence et la conformité des opérations, minimiser les risques d'erreurs ou de fraudes et améliorer la qualité des produits ou des services.
Règles métier : ensemble d’opérations de transformation sur des données, qui est défini par l’utilisateur de Tale of Data sans écriture de code, c’est à dire avec une interface intuitive et permettant de spécifier des conditions pour chaque opération pouvant être aussi complexes que nécessaire. Tale of Data permet d’obtenir un résumé lisible des règles qui ont été définies et de les réutiliser dans d’autres Flows* et d’autres opérations de transformation des données.
Runtime : environnement dans le logiciel Tale of Data pour exécuter des Flows* dans le but d’opérer des transformations sur les données. L’exécution des Flows* peut être déclenchée directement par l’utilisateur, ou être planifiée de manière extrêmement flexible.
Remédiation : résolution des problèmes de qualité présents dans les données
SaaS ou Software as a Service : système de mise à disposition de logiciel, sous forme de service, accessible via un navigateur Internet.
Séries temporelles : série de données indexées par le temps. Le PIB d’un pays ou l’évolution de la population sont des séries temporelles.
Script : programme informatique qui, en s’exécutant, permet de réaliser une action ou afficher une page Web.
Shadow IT : ensemble des données et traitements s’effectuant en marge de la DSI (ex : Bases MS Access non officielles, fichiers Excel avec des macros, …). Ces données et ces logiciels sont invisibles pour la DSI, ce qui génère un risque de sécurité et non-conformité (RGPD).
.jpg)