top of page

Le lexique 
Tale of Data

Un mot que vous ne comprenez pas ?

 

Nous sommes conscients que tout le monde ne parle pas le langage de la data. 

 

Retrouvez, ci-dessous les définitions des mots suivis d'une *.

Sans titre (62).jpg

Le glossaire

Algorithme
alg de matching

Algorithme de matching / fuzzy matching : procédé algorithmique basé sur une correspondance approximative de deux entrées, plutôt que sur une correspondance exacte. En pratique, différents algorithmes sont mis à disposition dans Tale of Data pour prendre appui par exemple sur les spécificités de la phonétique française ou anglaise. D’autres approches sont proposées comme de donner davantage de poids aux consonnes ou d’utiliser des procédés mathématiques éprouvés comme la distance de Levenshtein*.

API ou Interface de programmation d’applications :  interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d'échanger des données et des fonctionnalités.

API

Base de données relationnelle :  en informatique, une base de données relationnelle est une base de données où l'information est organisée dans des tableaux à deux dimensions appelés des relations ou tables. Selon ce modèle relationnel, une base de données consiste en une ou plusieurs relations (Source Wikipédia).

BDR
BAN

BAN - Base Adresse Nationale : la Base Adresse Nationale est la base regroupant les adresses officielles du territoire français. Cette base en dite « ouverte » : son accès et l'usage sont laissés libres aux usagers, qui peuvent être d'origine privée ou publique.

BCBS

BCBS 239 : norme bancaire visant à augmenter les capacités des banques en matière d’agrégation de données de risques financiers ; à produire des reportings et à améliorer la qualité de ces données risques.

Churn : est utilisé pour désigner la perte de clients ou d’abonnés. On retrouve l’emploi de ce terme principalement dans l’univers des entreprises de télécom’ et dans celui des banques. Il sert notamment à mesurer la durée moyenne d’un abonnement à une offre ou à un service (abonnement à un bouquet TV sport, à un magazine, à un journal, etc.). Il fait partie des principaux indicateurs de la satisfaction clientèle (source : journal du net).

CHURN

Cluster :  mode de fonctionnement distribué sur plusieurs serveurs, qui permet de traiter en parallèle un grand nombre de données.

cluser

Code IRIS : les « Ilots Regroupés pour l'Information Statistique » sont des briques de découpage du territoire créées par l’INSEE de taille homogène. Chaque maille élémentaire regroupe 2 000 habitants.

cod iris

Connecteurs : moyen pour se connecter à une source de données d’un type particulier (par exemple une base de données SQL Server, ou un serveur de fichiers de type Azure Blob Storage, etc) -> cf section Architecture.

conncters

Core banking legacy : Un système legacy, appelé encore système "hérité" est un système informatique (comme un ERP) répondant toujours aux besoins mais il ne pouvant plus évoluer. L'organisation s'appuie toujours sur ce système, mais pourra être limitée car il ne peut pas interagir pas avec les outils analytiques les plus récents, comme ceux hébergés sur le cloud.

Core banking legacy
crowd sourcing

Crowd sourcing :  mode d’organisation faisant appel à des contributions d’un grand nombre de personnes pour enrichir et améliorer un contenu. Par exemple, Wikipédia est une encyclopédie dont le contenu est enrichi à l’aide d’un très grand nombre de contributeurs.

daavisualisation

Data driven  : adjectif anglais qui peut se traduite par « pilotée par les données ». Autrement dit, il s’agit d’une entreprise qui s’appuie sur l’analyse de ses données pour prendre des décisions et orienter son évolution plutôt que sur l'intuition.

Datavisualisation (dataviz) : méthode qui consiste à communiquer des chiffres ou des informations brutes en les transformant en objets visuels facile à lire : points, barres, courbes, cartographies.

A noter que la nouvelle version de Tale of Data contiendra un module de DataViz.

Il sera accessible à tous les utilisateurs de la solution et à ceux ne souhaitant disposer que de ce module.

Data Driven
data scient

Data scientist : spécialiste de la donnée, il recueille, traite, analyse et fait parler les données pour améliorer les performances de l’entreprise.

dedoublonnage

Dédoublonnage : méthode qui permet d'éliminer les doublons.

Distance de Levenshtein : mesure la similarité entre deux chaînes de caractères. Elle est égale au nombre minimal de caractères qu'il faut supprimer, insérer ou remplacer pour passer d’une chaîne à l’autre (source : Wikipedia).

distance deleven

Données PI (Plant Information) : ces données, produites sur des sites industriels, sont issues de capteurs installés sur des sites de production et envoyés dans un système de stockage.

données pi
Enregistrement

Données à enrichir : il s’agit du jeu de données en votre possession (par exemple, la liste des prospects de votre CRM), sur lequel vous souhaitez ajouter de l’information non présente sous la forme de nouvelles colonnes (par exemple l’effectif de la société)

Données d’enrichissement : il s’agit d’un jeu de données de référence, interne (ex : disponible dans votre outil MDM) ou externe (ex : la base SIRENE) qui contient des informations supplémentaires dont vous avez besoin pour augmenter votre capacité d’analyse

Enregistrement : lignes dans une base ou un fichier (par opposition aux colonnes).

Enrichissement des données : consiste à compléter les données, à les améliorer et à les structurer via l’utilisation d’une autre source (référentiel, fichier base …).

Enrichisseent des données

Flow : traitement construit par l’utilisateur, permettant d'effectuer des tâches de remédiation, de préparation et de monitoring de données. Un flow est par construction conçu pour la production.

flow

Flow Designer : environnement dans le logiciel Tale of Data pour mettre au point des Flows* dans le but de concevoir des transformations sur les données.

flow designer

Géolocalisation : technologie permettant de déterminer la localisation d'un objet ou d'une personne avec une certaine précision (source CNIL).

Géolocalisation

Intelligence artificielle : ensemble de techniques qui permettent à des ordinateurs de simuler et de reproduire l’intelligence humaine.

INT ART

Jointures floues : assemblage de plusieurs sources en faisant des correspondances entre elles à l’aide d’algorithmes de fuzzy matching.

Jointures flous

Jointure full-text :  assemblage de plusieurs sources en faisant une recherche approfondie dans toutes les données textuelles spécifiées. Ceci permet par exemple de découvrir des liens entre des enregistrements dans deux tables pour lesquels les différences sont reliées à un ordre des mots différent. Un algorithme conventionnel ne pourra pas détecter ce type de correspondance alors qu’elle peut être évidente pour un opérateur humain et pour un algorithme de jointure full-text.

Jointure fultext

Langage naturel : signifie que l’utilisateur n’a pas besoin de connaître de langages informatiques pour utiliser la solution. Les fonctions sont toutes utilisables via des menus explicites.

Languag naturel
Ancre 3

Machine Learning : apprentissage automatique qui consiste à laisser les algorithmes découvrir des patterns dans l’ensemble des données. Une fois cet entraînement réalisé, l’algorithme pourra retrouver les patterns dans un nouveau jeu de données.

Machine leaning

Mass Data Discovery : procédé d’exploration du système informatique permettant de découvrir et cartographier toutes les données présentes dans le-dit système. Ceci permet notamment d’établir un atlas des données sensibles stockées (comme les données personnelles). Il permet aussi la génération d’un rapport analysant la qualité des données stockées.

Mass data dicovery

Métadonnées : données servant à caractériser une autre donnée, physique ou numérique (source Larousse). Ce sont les données permettant de décrire d’autres données. Exemples : taille d’un fichier, date de création, date de modification, …

Métadonnées

N-gramme ou N-Gram : méthode utilisée dans Tale of Data pour évaluer la similarité entre plusieurs mots ou entre plusieurs phrases. Plus généralement, il s’agit de la succession de N éléments de même type extraits d’un texte, d’une séquence ou d’un signal ; les éléments pouvant notamment être des mots ou des lettres (source : Wikidictionnaire).

N-gramme

Open Data : littéralement, « données ouvertes », se dit des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. La Base des Adresses Nationales ou encore la base des SIRET sont des illustrations d’information consultables en Open Data.

opndata

Pattern : un motif défini par l’utilisateur et qui peut être recherché dans les données, ou utilisé dans le cadre de leur transformation.

Pattern

Phonétique / Algorithme phonétique / Analyse phonétique : rapprochement de termes selon une identité de son. Exemple : recherche de similarité entre des Noms de famille avec le son [o], pouvant s’orthographier o, ô, au, eau.

phonét alg/analyse phonétique

Préparation de données (ou Data Preparation) : étape précédant l'analyse de données. Elle est constituée de plusieurs tâches comme le nettoyage des données, l'enrichissement des données. Les données brutes sont soumises à un certain nombre de traitement permettant de les rendre fiables et donc exploitables.

La préparation des données est l'étape clé pour une analyse des données valides conduisant à leur maîtrise.

DataPrep

Record Lineage : représentation proposée par Tale of Data qui permet de voir pour un jeu de données particulier la liste et la structure d’enchaînement des données qui servent à alimenter ce jeu de données (les “flux aval”), ainsi que tous les jeux de données et les enchaînements qui sont dépendants du jeu de données sélectionné (les “flux amont”). Ce mode de visualisation permet de comprendre l’origine des données (=vision amont) et d’établir l’impact d’un changement au sein des données concernées sur d’autres jeux de données qui en dépendent (=vision aval).

record lineage

Réconciliation des données : processus relatif à l’homogénéisation des données, à leur regroupement en fonction de leur nature ou de leur source.

réconciiation des donnée

Redressement : phase pendant laquelle les données « brutes » sont analysées pour corrigées. Une des actions de la préparation de données.

redresement

Référentiel : liste d'éléments formant un système de référence. Exemple : un référentiel produit est la liste de tous les produits contenant un certain nombre d’attribut pour chaque produit.

referntiel

Règles de gestion : directives qui régissent les activités d'une organisation ou d'un système. Elles visent à assurer la cohérence et la conformité des opérations, minimiser les risques d'erreurs ou de fraudes et améliorer la qualité des produits ou des services.

règles de gestion

Règles métier : ensemble d’opérations de transformation sur des données, qui est défini par l’utilisateur de Tale of Data sans écriture de code, c’est à dire avec une interface intuitive et permettant de spécifier des conditions pour chaque opération pouvant être aussi complexes que nécessaire. Tale of Data permet d’obtenir un résumé lisible des règles qui ont été définies et de les réutiliser dans d’autres Flows* et d’autres opérations de transformation des données.

regle métier

Runtime : environnement dans le logiciel Tale of Data pour exécuter des Flows* dans le but d’opérer des transformations sur les données. L’exécution des Flows* peut être déclenchée directement par l’utilisateur, ou être planifiée de manière extrêmement flexible.

Remédiation : résolution des problèmes de qualité présents dans les données

runtime
remédiaton

SaaS ou Software as a Service : système de mise à disposition de logiciel, sous forme de service, accessible via un navigateur Internet.

saas sofware

Séries temporelles : série de données indexées par le temps. Le PIB d’un pays ou l’évolution de la population sont des séries temporelles.

Script : programme informatique qui, en s’exécutant, permet de réaliser une action ou afficher une page Web.

séries tepoelle
script

Shadow IT : ensemble des données et traitements s’effectuant en marge de la DSI (ex : Bases MS Access non officielles, fichiers Excel avec des macros, …). Ces données et ces logiciels sont invisibles pour la DSI, ce qui génère un risque de sécurité et non-conformité (RGPD).

shadow it
Sans titre (1).jpg
bottom of page