Par Jean-Christophe Bouramoué

Alors que la quantité de données générées par les entreprises continue d'augmenter de façon exponentielle, l'approche traditionnelle centralisée de la gestion de ces données est de moins en moins adaptée.
Jusqu’à présent les méthodologies employées impliquaient une équipe centralisée responsable de la collecte, du stockage et de la maintenance des données, ainsi qu'un ensemble de consommateurs de données qui utilisaient ces données pour prendre des décisions.
L’approche centralisée a atteint ses limites pour de nombreuses organisations, car elle conduit à :
Des silos de données, rendant complexe, voire impossible, la réutilisation des données dans d’autres contextes.
Une qualité de données insuffisante, voire incohérente, car les données sont mises en qualité par des équipes centralisées indépendamment de tout contexte d’utilisation. En réalité, la qualité des données n'a aucun sens dans l'absolu : elle est dépendante du contexte et des besoins des consommateurs de ces données.
Des difficultés et des délais excessifs pour les consommateurs lorsqu’il s’agit de trouver et de récupérer les données dont ils ont besoin. Cela signifie que l’approche centralisée devient impraticable quand la quantité de jeux de données augmente (i.e. échec du passage à l’échelle).
Ces dernières années, un nouveau paradigme d'organisation des données est apparu, connu sous le nom de Data Mesh (littéralement : le "maillage" des données).
Zhamak Dehghani a fondé le concept de Data Mesh en 2018 en étant la première à proposer un changement de paradigme dans la gestion des big data, basé sur la décentralisation des données.
Sommaire
1. Qu'est-ce que le Data Mesh ?
4. Les nouvelles problématiques causées par le Data Mesh
Qu'est-ce que le Data Mesh ?
Le Data Mesh est une nouvelle façon d'organiser les données qui vise à surmonter les limitations des approches traditionnelles. Plutôt que d'avoir une équipe centralisée en charge de la gestion de toutes les données, le Data Mesh propose une approche décentralisée en transférant la propriété des données aux producteurs de ces données, car en la matière, ce sont eux les véritables experts.
Les producteurs de données sont regroupés par domaine fonctionnel. Chaque domaine fonctionnel est responsable de la gestion de ses propres données.
Dans ce contexte, l’expression domaine fonctionnel doit être comprise au sens métier. Il s’agit par exemple du marketing, des ventes, du service client, des ressources humaines, des services risque ou conformité, des services anti-fraude, de la direction financière, etc.
Chaque domaine fonctionnel a sa propre équipe data, qui est responsable de la collecte, du stockage et de la maintenance des données relatives à ce domaine. Cette équipe data travaille en étroite collaboration avec les experts métier du domaine pour s'assurer que les données sont exactes, pertinentes et à jour.
Le Data Mesh introduit le concept de Data as a Product (littéralement : la "donnée en tant que produit"). Au lieu d'utiliser la donnée comme un sous-produit d'un processus, la donnée devient LE produit.
Un Data as a Product est une unité de données autonome et réutilisable.
Autonome signifiant que le produit contient tout ce qu’il faut pour être directement exploitable : le jeu de données lui-même, ses métadonnées (i.e. des informations sur les données), des informations sur sa qualité, ainsi que l'infrastructure nécessaire à son fonctionnement (= mise-à-jour et accessibilité en continu).
Exemple de Data as a Product :
Un jeu de données brut.
Un jeu de données préparé (standardisé, enrichi,…)
Un jeu de données résultant d’un traitement consistant à prendre en entrée plusieurs jeux de données et à effectuer une série de transformations et de calculs.
Un jeu de données résultant de l’application d’un modèle prédictif obtenu par apprentissage automatique : il s’agit d’un processeur capable de classer automatiquement une donnée qui lui est présentée. Par exemple à partir d’informations sur un client donné, le modèle prédictif vous dira si ce client est un bon candidat pour l’achat d’un produit particulier ou encore s’il est susceptible d’aller acheter un produit similaire chez votre concurrent.
Tout autre type d'actif de données qui peut être packagé et livré aux consommateurs de données au sein d'une organisation.
Attention à la confusion entre Data as a Product et Data Product. Le premier concept désigne, dans un contexte Data Mesh, un jeu de données publié et réutilisable : la donnée EST le produit. Le second concept désigne un produit numérique permettant de résoudre un problème métier grâce à des données d’entrée (ex : un tableau de bord permettant de suivre les données de vente : le tableau de bord EST le produit).
Un Data as a Product est conçu pour être facilement découvert et consommé par différentes équipes au sein de l'organisation.
Un Data as a Product est publié (on pourrait dire 'mis sur étagère') sur une plateforme unifiée qui fournit un moyen normalisé pour accéder à l’ensemble des Data as a Product de l'entreprise. Chaque équipe de domaine fonctionnel créant un Data as a Product en devient le propriétaire. Elle est responsable de sa qualité et de sa cohérence et il incombe à cette équipe de s'assurer que les données sont exactes et à jour.
La définition des standards de découvrabilité, de sécurité et d’interopérabilité des Data as a Product est réalisée sur un modèle de gouvernance fédérée, c'est à dire décentralisée.

Data Mesh vs. Data Lake
Les Data Lakes (littéralement "lacs de données") sont une approche de la gestion des données qui met l'accent sur le stockage des données sous une forme brute et non traitée. Ils sont utilisés pour ingérer des données qui n'ont pas encore d'objectif défini.
Comme le Data Mesh, les Data Lakes visent à réduire les silos de données et à améliorer leur accessibilité. Cependant, les Data Lakes ont toujours une équipe data centralisée responsable de la gestion des données, contrairement au Data Mesh qui, lui, décentralise la gestion des données.
Data Mesh et Data Lake ne sont pas des notions incompatibles. Le Data Mesh est une approche architecturale et organisationnelle de la gestion des données. En tant que système de stockage adapté aux très grosses volumétries de données, un Data Lake peut tout-à-fait faire partie d’un Data Mesh, au même titre qu’un entrepôt de données ou un système de stockage cloud.
⚙️ Contrairement aux Data Lakes, le Data Mesh est intrinsèquement conçu, par le biais des Data as a Product, pour élargir l'accès aux données à des populations non-techniques, au premier rang desquelles se trouvent les utilisateurs métiers.
Les avantages du Data Mesh
Le Data Mesh offre plusieurs avantages par rapport aux approches centralisées de gestion des données. En voici quelques exemples.
Réduction des silos de données :
L'un des plus grands problèmes posés par les approches traditionnelles de gestion des données est la création de silos, au sein desquels les données sont stockées dans différents systèmes et ne sont pas facilement accessibles par d'autres équipes au sein de l'organisation.
Le Data Mesh aide à réduire ces silos de données en rendant les Data as a Product :
Interopérables : les Data as a Product sont standardisés de façon à ce qu’il soit aisé d’utiliser, dans un Data as a Product, les données d’autres Data as a Product, sans avoir à se préoccuper des détails techniques du stockage physique de ces données (qui pourraient aussi bien se trouver dans une base de données de l’entreprise que dans le cloud).
Facilement découvrables et consommables par d'autres équipes.
Amélioration de la qualité des données :
Dans une approche centralisée, les équipes Data Quality n’ont d’autre choix que de préparer les données "à l’aveugle", sans avoir la moindre idée de leur utilisation réelle.
En pratique, on s’aperçoit que cela ne fonctionne pas car la gestion de la qualité des données est fortement dépendante du contexte et des besoins des consommateurs de ces données.
Dans l’approche Data Mesh, chaque équipe de domaine fonctionnel est responsable de la gestion de ses propres données et des Data as a Product. Le problème de la qualité et de l'exactitude des données est donc beaucoup plus facile à gérer.
En effet, les équipes travaillant sur un Data as a Product connaissent parfaitement le contexte d’utilisation des données car elles travaillent en étroite collaboration avec les experts métiers du domaine.
Elles saven