Si vous souhaitez vous lancer dans un projet Data Science, nous vous conseillons de ne pas faire l’impasse sur quelques préparations en amont du projet, qui sont nécessaires et qui vous éviteront certaines déconvenues par la suite. Ces étapes vous permettront de construire votre projet Data Science sur des bases saines et de faciliter ainsi sa mise en œuvre. De quels prérequis s’agit-il précisément ?
Vous déclenchez un projet de construction de modèle d’analyse de données, faisant appel à de l’apprentissage machine. Il aura pour but de vous aider dans l’établissement d’un score pour votre prise de décision, dans l’optimisation d’un processus, dans la prévision de ventes, dans l’optimisation de campagnes de communication… et le cas échéant, cet outil aura pour but d’être déployé en environnement de production.
Il y a dans ce cas un certain nombre d’éléments à évaluer au préalable pour assurer une base saine sur laquelle mener à bien votre projet de Data Science. Établir ces éléments (notamment via des ateliers menés avec le métier, un examen de l’architecture applicative existante…) permet de valider des prérequis pouvant éviter une dette technique et un coût de développement plus aval.
Quelles sont ces prérequis ? Quel est l’intérêt de les évaluer/valider ?
1) S’assurer de l’exhaustivité des sources de données
Vous allez probablement utiliser des données de plusieurs types (transactionnelles, de référence, Master Data…) et en provenance de systèmes différents (bases de données opérationnelles d’un département, base de données internes à une application, bases de référence pour toute l’entreprise…).
Le cas échéant, par exemple dans le cadre d’un monitoring pour l’excellence opérationnelle, il peut être intéressant de corréler des données opérationnelles avec des indicateurs décisionnels, agrégés.
Une première étape implique donc :
● D’identifier les données opérationnelles et de référence pour la constitution du modèle, et le(s) système(s) où ces dernières sont stockées (RDBMS, CSV, Datalake…).
● D’identifier les données de contexte (décisionnel, données opérationnelles d’un autre domaine de l’entreprise…), susceptibles d’apporter des éléments de contexte à des évènements décrits dans vos enregistrements opérationnels, permettant ainsi de mieux les comprendre pour apporter une plus-value métier
● D’identifier les nomenclatures de votre domaine métier si elles sont formalisées (axes d’analyse discriminants dans l’optique par exemple d’une classification)
2) Évaluer la qualité des données
Les données que vous avez récupérées sont donc de natures diverses, en provenance de sources disparates. Le processus d’alimentation ou de saisie d’information dans ces systèmes sources ne sera pas forcément sans erreur, ou même automatique (par opposition à une saisie manuelle, ou à l’intégration d’un fichier CSV…).
Il sera alors important de contrôlernotamment:
● La complétion des ensembles de données d’apprentissage constitués (et la nécessité le cas échéant de générer des données cohérentes pour éviter les biais)
● La fraîcheur de ces mêmes jeux de données pour assurer leur exploitabilité (manque de mise à jour dû à des politiques de rétention ou de sécurité, d’archivage, de saisie manuelle…) à différentes étapes de leur cycle de vie (influant en conséquence sur le cycle de vie de votre modèle une fois en production)
● La présence de doublons (notamment conséquente aux corrélations entre vos variables)
3) Établir la finesse du jeu de données
Vous souhaitez rassembler des données pertinentes pour alimenter votre modèle d’apprentissage. C’est pourquoi il vous faudra collecter les données aux niveaux de précision nécessaires (temporalité, granularité…).
Par exemple, si vous voulez faire une analyse du nombre d’utilisateurs de vélos en libre-service par heure sur Paris, il va vous falloir relever et récupérer une traçabilité de cette utilisation à une maille non pas mensuelle ou journalière, mais horaire.
De même, voulez-vous établir ces statistiques pour chacun de vos utilisateurs ou par groupes d’individus ? Etc.
4) Déterminer les structures et formats de données
Comme évoqué précédemment, les données que vous allez récupérer proviennent de sources différentes et sont de natures différentes.
S’agit-il d’enregistrements vocaux provenant d’une conférence et sur la base desquels doivent être générés une analyse et un compte-rendu ? S’agit-il d’une série d’images sur lesquelles doivent être reconnus des patterns ? Ou bien un fichier CSV déjà proprement constitué de colonnes bien nommées ?
Les degrés de structuration en question (données structurées, semi-structurées, non-structurées) vont conditionner les pré-traitements à appliquer à vos jeux de données collectés et à intégrer en une structure de données pivot. Cette dernière alimentant conséquemment votre modèle de Machine Learning.
Pour conclure
Le lancement d’un projet de Data Science implique une analyse en amont de la construction du modèle de Machine Learning à proprement parler.
Cette analyse peut notamment constituer un diagnostic de votre chaîne d’acheminement de la donnée et de la maturité de votre architecture de données existante, vis-à-vis d’un projet d’industrialisation futur.
Quelles sont les problématiques et les écueils que vous pourrez rencontrer lors d’un tel projet d’industrialisation ? Quels chantiers pourriez-vous avoir à adresser ? Restez à l’écoute, nous allons aborder le sujet dans un prochain article.