Le lexique 
Tale of Data

Un mot que vous ne comprenez pas ?

 

Conscient que les mots du monde de la data ne parle pas à tout le monde. 

 

Retrouvez, ci-dessous les définitions des mots suivit d'une *.

Sans titre (62).jpg
banner_tod_all2.png

Le glossaire

Algorithme : ensemble des règles opératoires propres à un calcul ; suite de règles formelles (source : Le Robert)

 

Algorithme de matching / fuzzy matching : procédé algorithmique basé sur une correspondance approximative de deux entrées, plutôt que sur une correspondance exacte. En pratique, différents algorithmes sont mis à disposition dans Tale of Data pour prendre appui par exemple sur les spécificités de la phonétique française ou anglaise. D’autres approches sont proposées comme de donner davantage de poids aux consonnes ou d’utiliser des procédés mathématiques éprouvés comme la distance de Levenshtein.

 

API ou Interface de programmation d’applications :  interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités.

Base de données relationnelle :  En informatique, une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations. (Source Wikipédia)

BAN - Base Adresse Nationale : La Base Adresse Nationale est la base regroupant les adresses officielles du territoire français. Cette base en dite « ouverte » : son accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée ou publique.

BCBS 239 : norme bancaire visant à augmenter les capacités des banques en matière d’agrégation de données de risques financiers ; à produire des reportings et à améliorer la qualité de ces données risques.

Churn : est utilisé pour désigner la perte de clients ou d’abonnés. On retrouve l’emploi de ce terme principalement dans l’univers des entreprises de télécom’ et dans celui des banques. Il sert notamment à mesurer la durée moyenne d’un abonnement à une offre ou à un service (abonnement à un bouquet TV sport, à un magazine, à un journal, etc.). Il fait partie des principaux indicateurs de la satisfaction clientèle (source : journal du net).

 

Cluster :  mode de fonctionnement distribué sur plusieurs serveurs, qui permet de traiter en parallèle un grand nombre de données.

 

Code IRIS : les « Ilots Regroupés pour l'Information Statistique » sont des briques de découpage du territoire créées par l’INSEE de taille homogène. Chaque maille élémentaire regroupe 2 000 habitants.

 

Connecteurs : moyen pour se connecter à une source de données d’un type particulier (par exemple une base de données SQL Server, ou un serveur de fichiers de type Azure Blob Storage, etc). -> c.f. section Architecture

 

Crowd sourcing :  mode d’organisation faisant appel à des contributions d’un grand nombre de personnes pour enrichir et améliorer un contenu. Par exemple, Wikipédia est une encyclopédie dont le contenu est enrichi à l’aide d’un très grand nombre de contributeurs.

 

Datavisualisation (dataviz) : méthode qui consiste à communiquer des chiffres ou des informations brutes en les transformant en objets visuels facile à lire : points, barres, courbes, cartographies.

Data scientist : spécialiste de la donnée, il recueille, traite, analyse et fait parler les données pour améliorer les performances de l’entreprise
 

Dédoublonnage : Méthode qui permet d'éliminer les doublons 

 

Distance de Levenshtein : mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre (source : Wikipedia)

 

Données PI (Plant Information) : ces données, produites sur des sites industriels, sont issues de capteurs installés sur des sites de production et envoyés dans un système de stockage.

 

Enregistrement : lignes dans une base ou un fichier (par opposition aux colonnes).

 

Enrichissement des données : consiste à compléter les données, à les améliorer et à les structurer via l’utilisation d’une autre source (référentiel, fichier base …).

 

Flow : traitement construit par l’utilisateur, permettant d'effectuer des tâches de remédiation, de préparation et de monitoring de données. Un flow est par construction conçu pour la production.

Flow Designer : environnement dans le logiciel Tale of Data pour mettre au point des Flows dans le but de concevoir des transformations sur les données.

Géolocalisation : Technologie permettant de déterminer la localisation d'un objet ou d'une personne avec une certaine précision (source CNIL).

 

Intelligence artificielle : ensemble de techniques qui permettent à des ordinateurs de simuler et de reproduire l’intelligence humaine.

Jointures floues : assemblage de plusieurs sources en faisant des correspondances entre elles à l’aide d’algorithmes de fuzzy matching.

Jointure full-text :  assemblage de plusieurs sources en faisant une recherche approfondie dans toutes les données textuelles spécifiées. Ceci permet par exemple de découvrir des liens entre des enregistrements dans deux tables pour lesquels les différences sont reliées à un ordre des mots différent. Un algorithme conventionnel ne pourra pas détecter ce type de correspondance alors qu’elle peut être évidente pour un opérateur humain et pour un algorithme de jointure full-text.

Langage naturel : signifie que l’utilisateur n’a pas besoin de connaître de langages informatiques pour utiliser la solution. Les fonctions sont toutes utilisables via des menus explicites.

 

Machine Learning : apprentissage automatique qui consiste à laisser les algorithmes découvrir des patterns dans l’ensemble des données. Une fois cet entraînement réalisé, l’algorithme pourra retrouver les patterns dans un nouveau jeu de données. 

 

Mass Data Discovery : procédé d’exploration du système informatique permettant de découvrir et cartographier toutes les données présentes dans le-dit système. Ceci permet notamment d’établir un atlas des données sensibles stockées (comme les données personnelles). Il permet aussi la génération d’un rapport analysant la qualité des données stockées.

 

Métadonnées : Données servant à caractériser une autre donnée, physique ou numérique (source Larousse). Ce sont les données permettant de décrire d’autres données. Exemples : taille d’un fichier, date de création, date de modification, …

 

N-gramme : méthode utilisée dans Tale of Data pour évaluer la similarité entre plusieurs mots ou entre plusieurs phrases. Plus généralement, il s’agit de la succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal ; les éléments pouvant notamment être des mots ou des lettres (source : Wiktionnaire).

 

Open Data : littéralement, « données ouvertes », se dit des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. La Base des Adresses Nationales ou encore la base des SIRET sont des illustrations d’information consultables en Open Data.

Pattern : un motif défini par l’utilisateur et qui peut être recherché dans les données, ou utilisé dans le cadre de leur transformation.

Phonétique / Algorithme phonétique / Analyse phonétique : rapprochement de termes selon une identité de son. Exemple : recherche de similarité entre des Noms de famille avec le son [o], pouvant s’orthographier o, ô, au, eau.

Record Lineage : représentation proposée par Tale of Data qui permet de voir pour un jeu de données particulier la liste et la structure d’enchaînement des données qui servent à alimenter ce jeu de données (les “flux aval”), ainsi que tous les jeux de données et les enchaînements qui sont dépendants du jeu de données sélectionné (les “flux amont”). Ce mode de visualisation permet de comprendre l’origine des données (=vision amont) et d’établir l’impact d’un changement au sein des données concernées sur d’autres jeux de données qui en dépendent (=vision aval).

 

Réconciliation des données : processus relatif à l’homogénéisation des données, à leur regroupement en fonction de leur nature ou de leur source.

Redressement : phase pendant laquelle les données « brutes » sont analysées pour corrigées.

Référentiel : liste d'éléments formant un système de référence. Exemple : un référentiel produit est la liste de tous les produits contenant un certain nombre d’attribut pour chaque produit.

Règles métier : ensemble d’opérations de transformation sur des données, qui est défini par l’utilisateur de Tale of Data sans écriture de code, c’est à dire avec une interface intuitive et permettant de spécifier des conditions pour chaque opération pouvant être aussi complexes que nécessaire. Tale of Data permet d’obtenir un résumé lisible des règles qui ont été définies, et de les réutiliser dans d’autres Flows et d’autres opérations de transformation des données.

 

Runtime : environnement dans le logiciel Tale of Data pour exécuter des Flows dans le but d’opérer des transformations sur les données. L’exécution des Flows peut être déclenchée directement par l’utilisateur, ou être planifiée de manière extrêmement flexible.

 

Remédiation : résolution des problèmes de qualité présents dans les données

 

Saas ou Software as a Service : système de mise à disposition de logiciel, sous forme de service, accessible via un navigateur Internet.

 

séries temporelles : série de données indexées par le temps. Le PIB d’un pays ou l’évolution de la population sont des séries temporelles.

 

Script : programme informatique qui, en s’exécutant, permet de réaliser une action ou afficher une page Web.

 

Shadow IT : ensemble des données et traitements s’effectuant en marge de la DSI (ex : Bases MS Access non officielles, fichiers Excel avec des macros, …). Ces données et ces logiciels sont invisibles pour la DSI, ce qui génère un risque de sécurité et non-conformité (RGPD).