Comment maîtriser les nouvelles plateformes du Data Management ?

Comment maîtriser les nouvelles plateformes du Data Management ?

Auteur : François Rivard (CEO et fondateur d'Astrakhan) - Date de publication : septembre 23, 2020

Data-as-a-Service et qualité de la donnée au service de l’innovation : les nouvelles plateformes du Data Management

La nouvelle génération des plateformes de données se déploie avec pour maître mot « une donnée en libre service, pour tous, en temps réel ». Le sens qu’il faut donner aux multiples initiatives que l’on observe sur le marché de la Data démontre le souhait de rendre l’utilisateur métier plus autonome dans l’utilisation de la donnée. Cela ne signifie pas que la technologie et l’IT s’effacent. Au contraire, ils n’ont jamais été aussi présents avec un objectif majeur : la qualité de la donnée. Et la répartition des rôles et une nouvelle gouvernance qui se met en place pour faciliter l’emploi de l’intelligence artificielle se mettent également au service de cette qualité.

L’organisation des données métier

Le moment Big Data se caractérisait par les 5V (ou 3, ou 7, on finissait par ne plus vraiment savoir) : Vélocité, Variété, etc…

Si on garde à l’esprit que ce moment dure et qu’il évolue dans le temps, on peut dire que tous les V n’ont pas eu la même importance à différents moments du déploiement du Big Data. Clairement, le Volume était le souci prédominant : on voulait d’abord construire des plateformes capables de traiter des volumétries jamais constatées auparavant.

La Vélocité et la Variété commencent, elles, à être réellement prises en compte au sens où enfin, elles s’organisent :

•  La Vélocité grâce aux plateformes de Streaming,

• La Variété grâce à la modélisation des méta-données possibles au niveau des Data Catalog (catalogues de données).

Vient la question de mieux organiser le patrimoine, de mieux l’exploiter et d’accroître la qualité de la donnée dans un contexte plus industriel et avec un accès meilleur des outils pour les métiers.

Ces deux sujets sont particulièrement chauds. Le premier est technique. Le second est davantage tourné vers la description de l’information, et il répond totalement à cet enjeu majeur qu’est la Data-as-a-Service.

Les Data Catalogs sont des annuaires de méta-données. Ils décrivent l’information, la recensent et la localisent, permettant aussi parfois, via des fonctionnalités de gouvernance, de tracer les transformations que subissent les données au travers de leurs multiples traitements, concourant ainsi à l’objectif de Qualité de la donnée.

Les rapprochements d’entreprise et les fusions de système d’information sont l’un des leviers de la mise en place de ces catalogues dont le marché est encore fragmenté par la provenance très hétérogène des acteurs qui le composent.

Le poids des données référentielles reste aussi incontournable, et la qualité de la donnée passe par une construction claire des données de référence et leur bonne utilisation pour irriguer tout le système d’information. Ce domaine, qui existe depuis une quinzaine d’années, reste au centre des réflexions et des travaux, et démontre toute son importance dans une stratégie de système d’information transverse.

Data Insights

Data Analyse et Data Science demeurent des domaines phares de la Data et se modernisent.

Il n’est pas toujours facile d’être créatif si la technologie nous contraint trop fortement dans la mise en place de nos cas d’usage. Ce que veulent les analystes désormais, ce sont les moyens d’appliquer rapidement et facilement les algorithmes statistiques à leurs données, pour construire des modèles rapidement et en déterminer aussitôt la fiabilité.

Même si la connaissance de Python et R demeure centrale, l’utilisation de plateformes de Data Science-in-a-box comme Tibco Data Science, Dataiku et Alteryx permettent d’accélérer l’analyse. L’enjeu, c’est la fiabilité du modèle et la détection rapide des corrélations entre les variables.

Si les données sont disponibles facilement (notamment grâce aux technologies de virtualisation de la donnée), et que la question n’est plus de savoir bâtir un modèle (Python ou Alteryx le fait pour vous), alors il devient plus simple de multiplier les tests pour trouver des modèles utilisables (à des fins de prédiction ou de prescription).

La réduction du temps consacré à l’édification des modèles permet de maintenir la créativité des équipes et la technologie peut ainsi se mettre en support de sessions d’idéation où il devient plus facile de tester toutes les idées qui nous passent par la tête.

Ce faisant, on libère aussi du temps pour la DataViz, qui reste un domaine à part entière, et couvre des aspects méthodologiques et didactiques plus poussés qu’auparavant. Le storytelling est devenu un sujet à part entière et il importe de savoir construire son discours autour des représentations, en communiquant les hypothèses.

Data Architecture

La chaîne de la valeur de la donnée reste simple, mais les outils qui la composent se sont multipliés et complexifiés. Malgré l’émergence de standards de fait, il importe de conserver une connaissance pointue des outils, des plateformes et de leur positionnement, pour construire des chaînes d’acquisition et d’exploitation de la donnée performantes et susceptibles de couvrir l’ensemble des cas d’usage.

Dans ce contexte, plusieurs briques se détachent actuellement :

•  Le stockage, où les technologies se diversifient. Nos récentes études autour de VoltDB, MongoDB ou DataStax montrent le dynamisme qui existent dans ce secteur et la nécessité de suivre de près son évolution,

•  Le streaming, pour l’alimentation en temps réel des consommateurs de données,

•  La virtualisation des données, qui crée des vues métier sécurisées et à jour sans créer de nouvelles bases, et expose ses vues sous formes d’API, renforçant la stratégie d’APIsation du système d’information.

Ces plateformes se consolident et s’enrichissent pour fournir des ateliers de développement clés en main, au service de la performance d’accès, de la gouvernance de la donnée et de sa qualité.

Nous serions incomplets si nous n’évoquions pas ici l’industrialisation des chaînes de Data Engineering, qui nécessitent une forte spécialisation, impliquant une réflexion profonde autour des rôles et des processus, et donc de la gouvernance du management de la donnée, sujet que nous avons adressé lors d’un livre blanc il y a 6 ans, qui nécessite une complète révision, et dont la mise à jour sera effective d’ici à la fin de l’année.

Pour aider nos clients à construire et déployer une stratégie de la donnée au service de l’ensemble des utilisateurs, il importe de considérer l’ensemble de ces aspects et la construction de ces plateformes de nouvelles générations sous l’angle d’un programme complet, itératif, et fédéré autour de la qualité de la donnée en tant que discipline transverse.

François Rivard  

CEO et Fondateur d’Astrakhan  

[button-icon theme= »primary » label= »Contacter François  » title= » » link= »mailto:francois.rivard@astrakhan.fr » target= »_blank » icon= »fa-envelope-square » icon_position= »center »]