Data Catalog, référentiel indispensable de l’entreprise data-driven

Data Catalog, référentiel indispensable de l’entreprise data-driven

Date de publication : février 1, 2021

Définir le « Data Catalog » est un exercice périlleux puisque les leaders et experts envisagent pour la plupart d’entre eux des perspectives d’usages et des caractéristiques différentes.

En revanche, l’ensemble des Data Catalog du marché semblent partager l’association de deux caractéristiques : la gestion des métadonnées métiers (contexte, métier, solution, technologique …).  et la gestion des métadonnées de solutions techniques ou d’implémentation (système de stockage de données opérationnel, application digitale, système transactionnel, système analytique…).

Pour plus d’informations, lisez notre article ci-dessous

Quelles définitions pour le Data Catalog

Le catalogue souvent désigné par les termes « glossaire » ou « dictionnaire métier » gardait comme caractéristique principale celle de fournir un descriptif des notions, termes et parfois définitions associés au domaine métier et/ou à l’initiative envisageant l’usage d’une donnée. Lancés dans les années 80, les « dictionnaires de donnée » sont les premières technologies créées pour collecter, stocker et gérer des informations simples (type, longueur) des données des Systèmes de Gestion de Base de Données (SGBD), tel qu’Oracle. Suivant la tendance du dictionnaire de données, de nombreux outils ont vu le jour dans les années 90 avec IBM (IBM’s Repository Manager MVS) ou encore avec Platinum et Microsoft (Platinum Repository).

Ces Data Catalog permettaient de facto d’assurer une intégration du produit à tout ou partie des produits de l’éditeur mais également d’assurer une forme d’extension fonctionnelle. En effet cette extension est caractérisée par sa dépendance à l’usage de la donnée (exemple du contrôle d’accès en fonction d’un profil utilisateur). Elle s’appuyait notamment sur le simple fait d’augmenter les métadonnées initiales du produit avec des métadonnées associées à l’usage du produit, le terme référentiel ou repository est d’ailleurs souvent utilisé pour désigner ce type de Data Catalog. On retrouve par ailleurs très tôt des « repository » dans plusieurs produits phares du marché. Ils sont proposés par des éditeurs s’étant distingués par leur capacité de domestication de la métadonnée, des éditeurs perçus comme des pionniers dans des domaines comme la business intelligence, l’intégration de données (ex Business Object Repository, Informatica Metadata Manager…) ou autres.

Leur approche respectivement novatrice du contrôle de la métadonnée consacrait davantage l’usage du produit plus que le produit lui-même, reconnaissant volontiers plus la valeur dans l’usage de sa donnée que dans sa donnée, que ce soit pour eux-mêmes dans le cadre d’une perspective d’innovation produit, mais également (et surtout) pour celle de leur clients, et cela à travers différents types d’initiatives (vision 360, personnalisation, conformité réglementaire…). Ainsi l’utilisation du dictionnaire de données mêlé à ces nouvelles technologies ont étendu la définition du dictionnaire de données, pour en faire un système répertoriant des métadonnées business, opérationnelles et système.

Exemple

Nous pouvons notamment évoquer :

● Les définitions et descriptions des données business,

● Les provenances et l’origine de la donnée opérationnelle,

● L’utilisation des données système pour connaître l’utilisation des données par les outils de l’organisation.

C’est ce qui constitue en grande partie la première définition du Data Catalog d’aujourd’hui. Cependant, des difficultés apparurent quant à la gestion et à la mise à jour des métadonnées qui nécessitaient du temps, de l’argent et un processus clair et organisé avec un management centralisé de la donnée. Nous pouvons également considérer que la culture des organisations n’était pas encore suffisamment tournée vers la Data pour s’engager dans de pareils travaux. C’est avec les nouvelles technologies que nous pouvons parler d’automatisation des mises à jour des métadonnées et de découverte automatique de nouvelles sources de données.

Ainsi, c’est grâce à ces solutions actuellement disponibles sur le marché et une culture puissante autour de la donnée dans les entreprises que nous pouvons parler aujourd’hui de nouvelle génération de Data Catalog.

Définition du marché

Si les solutions présentes actuellement sur le marché proposent un socle de fonctionnalités similaires, il reste encore de nombreuses fonctionnalités qui diffèrent entre chaque solution.

Voici ci-dessous 6 propositions de définition par les éditeurs et experts du marché que nous avons répertoriées :

Les leaders et experts du marché envisagent pour la plupart des perspectives d’usages et des caractéristiques différentes du Data Catalog, ce qui rend toute tentative de définition unique périlleuse. Néanmoins, à l’examen de leurs définitions respectives, on remarque l’émergence de deux types de fonctionnalités récurrentes.

La première concerne la collecte de métadonnées associées à l’usage d’une donnée envisagée dans un contexte spécifique (métier, solution, technologique …), usage indépendant de toute forme d’implémentation.

La seconde propose la collecte de métadonnées associées à l’usage d’une donnée dans son contexte d’implémentation (système de stockage de données opérationnel, application digitale, système transactionnel, système analytique…).

La définition d’Astrakhan

Comme nous l’avons vu dans les précédentes parties, il existe plusieurs définitions de ce qu’on appelle aujourd’hui un « Data Catalog ».

Ainsi pour la suite du document nous nous sommes proposés d’écrire notre propre définition du Data Catalog. Nous admettrons cette définition pour la suite du document.

Le Data Catalog est un référentiel de données qui capture le contexte métier pour l’entreprise.

Il peut être une application ou un assemblage applicatif constitué entre autres, d’un module de modélisation de processus métier autour de la donnée, d’une couche d’intégration de données ou encore d’un moteur de recherche…

Il est utilisé par les entreprises pour :

● Effectuer un inventaire et organiser les données disponibles de leur système,

● Centraliser et répertorier les termes métier et les données techniques,

● Tracer les données et permettre de maîtriser le cycle de vie des données,

● Faire le lien entre différents niveaux de modélisation des données,

● Permettre la recherche de donnée dans un vocabulaire métier.

Il peut également permettre d’opérer des règles de gestion adaptées à différentes catégories de données.

Ces fonctionnalités permettent, de par l’utilisation du Data Catalog par les entreprises, de tirer le meilleur parti de la valeur qu’apporte la donnée.