Le système d’information n’est plus un îlot isolé de toute la chaîne de création de valeur d’une entreprise. Son objectif principal est, plus que jamais, de créer des synergies entre les métiers afin que la prise de décision soit largement facilitée.

Les données référentielles sont transversales et concernent tous les métiers d’une organisation. Ne pas les gouverner est une erreur d’un autre temps, notamment dans le cadre de projets MDM. Une bonne gouvernance de données est aujourd’hui obligatoire !

 

DES CONSTATS POUR MIEUX VISUALISER LA VALEUR AJOUTÉE LIÉE AUX DONNÉES

La donnée de référence est avant tout un matériau particulièrement stratégique pour une entreprise. Selon les services et les métiers, bon nombre de visions doivent coexister au sein d’une entité et la gouvernance des données de référence est une clé de voûte.

Les données de références dans un système d’information sont l’axe central d’analyse qui permet de disposer d’une vision globale très complète (part de marché, satisfecit clients, etc…), mais aussi d’une vision très fouillée (par métier, par objectif, etc…). Dans chaque cas, il faut connaître et maîtriser les besoins opérationnels et stratégiques pour répondre aux problématiques de chaque strate de l’entreprise.

N’oublions pas que l’un des principaux ennemis des décideurs n’est autre que la duplication des données, l’inaccessibilité et surtout la mauvaise qualité des données disponibles. A mesure que le temps passe, les données disponibles sont de plus en plus nombreuses et dispersées.

Lorsqu’elles sont mal gouvernées, il s’agit d’un terreau malheureusement très fertile pour que les équipes soient inefficaces et réalisent plusieurs fois le même travail pour rendre l’information utilisable pour la bonne prise de décision.

LA GOUVERNANCE DES DONNÉES DE RÉFÉRENCES RÉPOND À 4 BESOINS ESSENTIELS

DONNÉES GLOBALES ET DONNÉES LOCALES

Ce besoin est lié au fait que les acteurs d’une entreprise demandent à disposer d’une « vue » à la fois locale et globale. La maîtrise des données locales permet d’utiliser les données appropriées pour établir un constat « métier », et, les données plus globales permettent notamment de satisfaire une vue stratégique nécessaire à la réflexion à long terme.

LA QUALITÉ DES DONNÉES

Les grandes organisations ont besoin d’une grande cohérence et une absolue intégrité des données. Par essence, les données sont dispersées au sein d’une entreprise et il est fondamental d’identifier les problèmes de qualité des données pour identifier les axes d’amélioration. Un véritable profiling des métiers et des consommateurs est nécessaire pour mettre en place l’organisation qui certifie les données et garanti la qualité escomptée.

DISTRIBUTION ET PARTAGE DES DONNÉES

Autre point-clé, il s’agit, comme en logistique, de diffuser la donnée adéquate au bon destinataire et au bon moment. Sans cette exactitude temporelle, il serait impossible d’analyser les données-clés aux moments-clés.

L’IMPORTANCE DE LA FRAÎCHEUR

Les données de références doivent être à jour pour être mise à disposition des processus opérationnels. La fraîcheur est un élément-clé afin que les utilisateurs puissent agir en temps réel et éviter la perte de temps et d’énergie nécessaire à la mise à jour des données obsolètes. Selon les métiers, ce besoin de fraîcheur peut varier, et, les structures de gouvernance des données doivent intégrer ce paramètre.

QUELQUES ERREURS À ÉVITER POUR ORGANISER SES DONNÉES

Les projets MDM nécessitent une organisation très bien huilée afin que chaque acteur puisse gouverner les données de la façon la plus efficace. Voici quelques erreurs à éviter afin de maîtriser son projet référentiel :

  • Ne pas analyser ses besoins avant de choisir un outil de gestion de données de référence. Trop d’équipes réalisent cette démarche dans le sens inverse face à la pression des éditeurs ou par « habitude »
  • Ne pas prendre le temps de questionner les besoins réels des utilisateurs. Cette étape trop souvent négligée permet pourtant de mieux choisir son outil de gestion des données de référence.
  • Ne pas s’entretenir avec la direction quant au choix des méthodes envisagées. Cette action est une clé de voûte pour responsabiliser tous les organes de décision.
  • Ne pas identifier clairement les indicateurs clés pour maitriser la qualité de ses données Un indicateur de qualité permet de fédérer les différents métiers autour d’un objectif global.
  • Ne pas accompagner le projet par la mise en place d’une gouvernance de donnée où chaque donnée est sous la responsabilité d’un responsable métier qui en charge de sa définition, de sa pertinence et de sa qualité

Le Chief Data Officer, aussi appelé le CDO, est un poste clé au sein d’une entreprise, et ce, plus que jamais. D’ailleurs, son importance ne va cesser de croître dans les années à venir, à tel point que les grands patrons de demain seront des CDO dans l’âme.

En plein virage lié à la transformation numérique, le CDO est le garant d’une gouvernance pertinente des données. La data a pris le pouvoir et la maîtrise de ce déferlement d’informations est une pierre angulaire pour capter de nouvelles parts de marché. A l’heure de la big data et de la business intelligence, décryptons ensemble le rôle, les missions et l’agenda du CDO.

QU’EST-CE QUE LE CDO : RÔLE, RESPONSABILITÉ ET POSITIONNEMENT

Face à l’immensité du volume de données à traiter, l’entreprise doit répondre à plusieurs enjeux dont celui de coordonner tous les éléments d’un écosystème donné afin d’apporter des réponses aux directions métiers (marketing, risque, commercial, etc…).

En ce sens, le CDO (Chief Data Officer) est le maître à jouer de l’entreprise, un véritable numéro 10. Pourtant, le poste même de CDO est encore trop rare au sein des organisations actuelles, un comble.

Le CDO doit être au coeur des réflexions stratégiques (très en amont) et disposer d’un réel pouvoir d’influence (leadership avéré) afin d’avoir les moyens de ses ambitions. A ce titre, il peut (doit) être membre d’un Comex. Le CDO va détecter les sujets-clés afin de coordonner les analyses avec chaque direction métier. Il doit aussi mettre en place l’architecture nécessaire pour industrialiser tous les processus liés à la collecte et à l’analyse des données. Il est le patron de cette « usine » analytique.

Le CDO doit également avoir du flair et une extraordinaire capacité à synthétiser l’information (profil plus scientifique que marketing). A ce titre, sa présence à chaque étape de la boucle de valeur est indispensable (problématiques métiers, sources des données, collection/extraction des données, etc…). Ne perdons pas de vue que bon nombre d’entreprises ont un potentiel data extraordinaire, il est donc dommage de ne pas utiliser ce véritable magot 2.0.

NE PAS CONFONDRE CHIEF DATA OFFICER ET CHIEF DIGITAL OFFICER

Dans ce contexte, il est particulièrement important de différencier le Chief Data Officer et le Chief Digital Officer.

En effet, même si le Chief Digital Officer est également en contact avec la Comex, il est un « agent » du changement plutôt qu’un décideur réel (d’ailleurs ses budgets sont souvent maigres).

Dans le cadre de ses missions, le Chief Digital Officer doit « créer » de nouveaux clients, et non, analyser les données existantes. Il est bien plus proche des consommateurs que le Chief Data Officer. Sa fonction est plus marketing que scientifique.

L’un des meilleurs exemples est celui de la chaîne Starbucks qui a su proposer une réelle expérience à ses clients en rendant la dégustation café unique. L’effort d’imagination n’a pourtant pas été colossal puisqu’il fallait « juste » s’attarder sur le comportement du client.

Dans la même veine, le cas d’UPS est particulièrement pertinent puisque la mission logistique s’est transformée en une expérience client alliant facilité et sécurité. En somme, les données sont là, mais il faut prendre la peine de les analyser pour mieux se différencier.

Le comportement du client, c’est-à-dire son expérience, est une fabuleuse source pour améliorer son offre. Les données sont au coeur de cette transformation digitale. A ce titre, il faut identifier les segments intéressants, réaliser des études poussées (qualitatives et quantitatives) et mener des audits en interne (pour connaître le potentiel d’évolution possible).

En associant ces données externes et internes, l’offre peut s’en trouver modifier afin d’apporter des bénéfices 100% pertinents pour les clients. L’image même d’une marque s’en trouve potentiellement changée, alors pourquoi s’en priver ?

OBSERVER LES NOUVEAUX COMPORTEMENTS DIGITAUX POUR ADAPTER SON OFFRE

Face à l’accélération de la numérisation de l’économie mondiale, la réactivité est une source intarissable pour innover.

Les comportements des consommateurs ont énormément changé en moins de 15 ans (voire lors des 5 dernières années) avec l’avénement des nouvelles technologies (explosion du nombre de smartphones, tablettes tactiles, etc…). En ce sens, l’innovation est un facteur clé de succès.

UN CONSOMMATEUR MODERNE ADEPTE DU CROSS CANAL

Inévitablement, le consommateur est devenu un adepte du cross canal. Les points de contact ne se limitent plus aux médias classiques (radio, télévision, presse écrite, etc…), et, les entreprises ont su (en partie) adapter leur communication vers des canaux 100% digitaux (e-mails, réseaux sociaux, applications mobiles).

Dans son procès d’achat, le consommateur utilise plusieurs plateformes (boutiques en ligne/boutiques physiques, smartphone/ordinateur, blog/site institutionnel). Dans un processus d’achat où 1 consommateur sur 2 s’informe en ligne, plus de 65% a besoin de voir/toucher le produit souhaité.

En ce sens, les marques doivent innover pour coller aux aspirations et aux besoins colossaux des consommateurs en matière d’information. L’expérience achat doit être entièrement revue pour être ludique, simple et rapide.

Pour créer de nouvelles offres, les entreprises ont donc besoin de collecter et d’analyser les données de la façon la plus performante possible pour proposer l’offre la plus adaptée à une certaine cible, et ce, sur les canaux adaptés.

L’agilité des systèmes d’information et de la gouvernance des données est un sujet central pour les entreprises. Alors que cette thématique était réservée, jusqu’à peu, à la DSI, il est essentiel d’appréhender le caractère transversal de cette notion d’agilité. De nos jours, cette gymnastique des données a un impact sur toute l’entreprise.

A ce titre, tous les services d’une entité ont un rôle à jouer pour mieux collecter, traiter et analyser les données. L’agilité, en matière de gestion de la data, n’est plus une simple qualité, mais bien une réflexion globale à mettre en place.

L’AGILITÉ EST L’AVENIR DES SI

Les entreprises du numérique déploient des nouvelles fonctionnalités et des nouvelles versions de leurs applications en permanence. Face à ce tsunami de données et une réelle volonté bienveillante d’innover, il faut faire preuve d’une agilité (au sens large) particulièrement importante.

L’agilité est l’avenir des SI, car il s’agit d’une dynamique de transformation où la réactivité et l’anticipation sont 2 qualités maîtresses. Grâce à une agilité maitrisée et une virtualisation des données pertinente, l’impact sur la création de valeur sera d’autant plus concret.

Pour atteindre un niveau d’excellence en la matière, il faut garder les éléments suivants en tête :

  • Disposer d’une équipe réactive
  • Capitaliser sur les imprévus inhérents à toute entité
  • Gérer son temps afin de différencier l’urgence de l’imprévu
  • Mettre en place une veille technologique de qualité

L’AGILITÉ AU SERVICE DE LA VIRTUALISATION DES DONNÉES

Le postulat lié à l’environnement économique et technique actuel est simple : La donnée est centrale. Pour mieux maîtriser cet afflux permanent et illimité de données, il est indispensable de comprendre les avantages liés à la virtualisation de celles-ci.

L’objectif est de « découper » les données afin qu’une même base soit composée d’un ensemble de  fichiers de données diverses.

Fédérer les données est une chose (collecter et drainer), les virtualiser en est une autre. Pour cela, la notion d’agilité prend tout son sens puisque l’environnement de l’entreprise doit proposer des dispositifs clairs et traçables pour analyser de façon qualitative les données.

Les nouvelles techniques permettent de disposer immédiatement des résultats souhaités au niveau d’une base de données précise. Les cycles sont ainsi rapides, interactifs et à forte valeur ajoutée. In fine, les courbes d’apprentissage sont fulgurantes, et, les réponses apportées aux problématiques quasiment instantanées. Cet accès aux données est découplé, ce qui a un impact très positif sur l’ensemble d’une entreprise.

L’EXPÉRIENCE CLIENT ET GOUVERNANCE DES DONNÉES

Face à la consommation de masse et à la mondialisation, bon nombre de marchés sont devenus particulièrement saturés. Se différencier n’est pas une mince affaire, mais reste la seule façon d’accroître ses ventes et d’attendre d’ambitieux objectifs.

Afin de pouvoir créer une réelle valeur ajoutée, il est essentiel d’analyser avec une infime précision l’expérience client et toutes les données qui y sont liées.

La gouvernance des données est un sujet-clé, car son impact sur l’entreprise est aussi profond que vital. Les termes « Big Data » et « Smart Data » font partie d’un quotidien qui s’est digitalisé en quelques années.

La gestion des données est une clé de voûte qu’il faut savoir maîtriser pour disposer d’une tête d’avance sur une concurrence toujours plus féroce. Voici quelques pistes pour anticiper et mieux gérer les flux de données.

UN IMPÉRATIF DANS LE QUOTIDIEN D’UNE ENTREPRISE

L’ « intelligence opérationnelle » oblige les entités à toujours mieux maîtriser ses données via une gouvernance préparée et cadrée. En ce sens, les circuits décisionnelles basés sur la data doivent être alimentés par des données de qualité. Sans cette qualité, les résultats obtenus seront caducs et n’aideront en rien la prise de décision.

Pour obtenir des données propres, il est indispensable de les identifier, de les profiler, de les tracer et de les diriger. Des solutions agiles et 100 % modulables existent pour que les entreprises soient plus efficaces et plus pertinentes dans leurs décisions. Les flux de data sont de véritables leviers qu’il faut savoir maîtriser.

LA NOTION DE LA DATA EN TEMPS RÉEL

Au-delà des données décisionnelles, il ne faut pas mettre de côté les données opérationnelles. La gouvernance de celles-ci nécessite un véritable « streaming analytique » en temps réel.

En matière d’opérationnel, le temps réel est LE facteur clé de succès afin de lier les données à des événements précis. A ce titre, la collecte des données doit être très rapide et optimisée afin de sélectionner/extraire celles qui sont les plus vitales.

LA QUALITÉ DES DONNÉES

La gouvernance des données est donc un véritable moteur pour toute activité. Qu’il s’agisse d’un ERP, d’un CRM, d’un site e-commerce ou de toute gestion logistique, la qualité intrinsèque des données est indispensable. Toutefois, cette sacro-sainte qualité est le défi le plus important, et ce, pour les entreprises de toutes les tailles. Selon une étude menée par Gartner, le coût moyen d’une mauvaise qualité est de plus de 8 millions de dollars US par an.

L’impact de données peu fiables est coûteux et peu motivant pour le personnel. A titre d’exemple, une mauvaise adresse postale (livraison client), une fiche produit erronée (mauvais descriptif) ou encore une mauvaise analyse des données liées à des publicités peuvent perturber l’équilibre d’une entité.

Ne perdons pas de vue que des données de mauvaise qualité peuvent entraîner des occasions de ventes ratées. A grande échelle, les dégâts peuvent être désastreux. En ce sens, un programme de gouvernance des données peut jouer un rôle essentiel pour améliorer les résultats commerciaux. La gestion des données est un sujet d’actualité, et pourtant, bon nombre de dirigeants n’intègrent pas l’importance de la mise en place de processus clairs et cadrés.

La modélisation des données est un levier indispensable pour mieux les gouverner. Sans modélisation, les objectifs liés à la gestion des données ne pourraient pas être atteints. A l’heure de l’épanouissement de la Big Data et de la Smart Data, le maître-mot est Pragmatisme.

Les directions informatiques doivent être des moteurs pour proposer une nouvelle approche de chaque métier, et ce, grâce à la data. Entre analyse en temps réel et capacité de prédiction, les données sont au centre des débats pour capter de nouvelles parts de marché.

IDENTIFIER AVEC PRÉCISION LA PROBLÉMATIQUE À RÉSOUDRE

Trop d’exemples montrent que les services en charge de la gestion des données veulent immédiatement modéliser sans prendre le temps d’identifier avec une immense clarté la problématique à résoudre.

Entre un volume de données qui ne cesse de croître et l’explosion du marché mondial de l’IoT, il est essentiel de connaître le problème à résoudre afin de créer des structures d’analyse pertinentes.

Lire des données ne suffit pas, il faut les intégrer à un processus décisionnel clair. En ce sens, le pragmatisme a toute sa place pour mieux modéliser, et, mieux « nourrir » les différents métiers grâce à une segmentation des données.

SAVOIR TRIER LES DONNÉES ET PRIORISER LES PROBLÉMATIQUES

La modélisation des données ne peut être performante que grâce à un tri pertinent. Les équipes en charge doivent donc filtrer les énormes volumes de données pour mettre en exergue celles qui comptent vraiment.

Placer des capteurs, c’est bien, analyser les données adéquates, c’est mieux. Les logs, les parcours de navigation et les temps de navigation sont autant de données qu’il faut savoir trier.

Dans le même temps, le tri doit être fonction de la priorisation décidée par les équipes dirigeantes. Le temps réel permet de réduire à son minimum le temps de latence entre l’envoi d’une donnée et la réponse appropriée.

Les notions de traçabilité et de croisement des données sont intimement liées et ne doivent pas être éludées. Les architectures en temps réel peuvent apporter des réponses claires et immédiates, alors pourquoi s’en priver?

LA DONNÉE EST DEVENUE UN VÉRITABLE « ACTIF » POUR L’ENTREPRISE

Maîtriser la donnée est une nécessité essentielle pour répondre aux défis imposés par les concurrents, mais aussi pour répondre aux exigences réglementaires. En effet, la pression des superviseurs va crescendo en matière de gestion des données (Comité de Bâle, Emir, DFA, etc…) afin que la digitalisation des métiers soit réussie « proprement ».

En ce sens, la modélisation des données apporte une vision transverse de l’entreprise où chaque métier est lié à un autre. Cette interdépendance doit être huilée par une direction informatique ayant une vision et une réelle volonté d’intégrer chaque utilisateur.

Dans un environnement économique où les défis sont de plus en plus nombreux et de plus en plus relevés, l’importance de disposer de données de qualité est essentielle. Contrôler la qualité de ses données, c’est bien se positionner pour réussir sa gouvernance de données et son Master Data Management.

 

L’information n’a jamais été aussi dense que ces dernières années, et, la maîtrise des données est un facteur clé de succès pour les entreprises. Gérer ses données implique un processus transversal au sein d’une organisation afin que celles-ci soient de qualité aux moments opportun. Une réponse d’abord humaine et ensuite technologique doit être apportée à ce challenge de taille.

LE COÛT DE LA QUALITÉ DES DONNÉES EN ENTREPRISE

Le coût de la qualité des données est intimement lié au coût de la non-qualité. Quand on connait l’importance de la data dans le contexte actuel, il faut, en premier lieu, couper court aux étapes qui génèrent des données non qualitatives.

Les erreurs interviennent majoritairement lors de la saisie de données, lors de leurs transformations et lors de l’analyse générale. Les secteurs d’activité touchés par cet absence de qualité sont (trop) nombreux (assurance, téléphonie, bourse, etc…).

Face à ce déferlement de données, tout le processus doit être clairement établi afin que la structure en elle-même soit un booster, et non, un frein à la qualification des sacro-saintes données. Soulignons que même la NASA a perdu des satellites pour cause de données erronées…

LA QUALITÉ DES DONNÉES, UN PROCESSUS CONTINU

Quelle que soit la nature de la donnée (qualitative, quantitative, technique), sa qualité dépend avant tout d’un processus continu au sein de l’entreprise. Puisque les données ont un impact chez tous les services de l’entreprise, ceux-ci doivent travailler la main dans la main dans le cadre d’un processus aussi précis que transversal.

Ne perdons pas de vue qu’une donnée de qualité doit être unique, intelligible et…correcte. De plus, les données doivent être mises à jour avant qu’elles en deviennent obsolescentes. Le meilleur exemple est celui du défi mené par de nombreuses entités à l’égard du NPAI (N’habite Pas à l’Adresse Indiquée). Ce processus implique donc tous les employés d’une même entité.

FÉDÉRER LES SALARIÉS AVEC UNE CULTURE D’ENTREPRISE

Face à ce challenge, c’est bien toute une culture d’entreprise qui doit être mise en place pour fédérer tous les salariés. Le capital humain reste le meilleur terreau pour extraire une information pure, une information de qualité. Manager les données nécessite des arbitrages au quotidien entre les services et les procédés mis en place.

L’information est avant tout une chaine de valeur où des outils mettent en perspectives les équipes « Métiers » et les équipes « Informatiques ». Cet alignement Métier-IT doit être lisible, pertinent et pragmatique. Développer le capital informationnel nécessite l’appui de tous les employés. Modéliser, corriger et mettre à jour sont des étapes clés pour obtenir ce nectar qui n’est autre que des données de qualité.

Le processus de gestion de qualité des données est un chapitre parmi pleins d’autres nécessaires à la gestion et la gouvernance de données. L’association internationale DAMA qui regroupe des experts dans la gestion de données a publié le livre le plus complet en ce qui concerne la gestion des données DMBOK. 17 chapitres sont consacrés aux meilleurs pratiques pour une meilleure maîtrise des données. Cette bible de la gestion est réservée aux professionnels chevronnés. Vous trouverez ci-dessous une méthodologie accessible qui vous donnera les clés pour  appréhender les publications les plus denses.

Le Master Data Management est un concept d’avenir dans le stockage et la gestion des données. C’est la clé de voûte de la transformation digitale et du développement des entreprises et organisations.  Mais qu’est-ce que le Master Data Management et quels avantages apporte-t-il à votre entreprise ? Nous en parlons dans la suite.

 

QU’EST-CE QUE LE MDM ?

Le Master Data management (MDM) se traduit par Gestion des Données de Référence en français. C’est un ensemble intègre composé d’organisation, de processus et d’outils permettant de centraliser et de gouverner les données référentielles d’une entreprise. Il est essentiellement utilisé pour créer, stocker, gérer et diffuser des données stratégiques de l’entreprise sans la moindre erreur. Ces données sont un patrimoine et un capital fondamentaux.

L’objectif du MDM est de fournir des informations accessibles, fiables et précises sur vos fournisseurs, vos produits, vos clients, vos distributeurs, etc. Il permet ainsi aux utilisateurs de gagner du temps dans la recherche de l’information tout en assurant la qualité et la cohérence des données.

LE MASTER DATA MANAGEMENT : COMMENT ÇA MARCHE ?

L’intérêt du MDM est de regrouper l’ensemble des données de référence de l’entreprise pour les présenter d’une manière cohérente et exploitable. Il intègre pour cela des actions de nettoyage de ces données afin de les rendre cohérentes tout en évitant les doublons. Il permet également de les consolider et de les enrichir dans un référentiel unique à travers des mises à jour.

Les informations de l’entreprise autrefois dispersées sont donc désormais disponibles sous forme de données certifiées. Ces données peuvent alors être utilisées par les sites web, le CRM, les applications métiers, l’ERP, etc.

QUELS SONT LES AVANTAGES DU MASTER DATA MANAGEMENT POUR L’ENTREPRISE ?

Aujourd’hui, les données ont une importance capitale dans le fonctionnement et le développement de toute entreprise. Elles doivent être disponibles, exploitables, évolutives et sécurisées qu’il s’agisse de données clients, fournisseurs, employés, produits… L’intégration d’un Master Data Management rend tout cela possible. Elle apporte de nombreux avantages à l’entreprise en termes d’efficacité et de productivité globale grâce au déploiement d’un référentiel de données.

En premier lieu, le MDM centralise les données dans un référentiel de qualité et élimine les risques de redondance. Il permet de créer et de garder une version unique de chacune des données malgré les trop grandes sources de données et le caractère hétérogène de celles-ci. Les risques de redondances sont ainsi éliminés.

Grâce à cette centralisation, le Master Data Management offre une vision à 360 degrés et en temps réel des données de l’entreprise, notamment les informations sur les produits. Les experts du service marketing peuvent alors les exploiter pour proposer des offres adaptées aux consommateurs.

Cette efficacité s’étend tout au long de la chaîne. Le MDM permet ainsi de réduire les coûts d’exploitation de l’entreprise, de faciliter la commercialisation et d’accélérer la livraison des produits.

Notons que les entreprises ont certaines obligations légales concernant les données qu’elles collectent, stockent et exploitent. Le MDM est un outil de traçabilité qui répond à la plupart des attentes du RGPD. Il simplifie ainsi les démarches de mise en conformité liées aux données.

UNE SOLUTION MDM : POUR QUI ?

Le Master Data Management est une discipline qui s’adresse particulièrement aux entreprises d’une certaine taille ou qui doivent gérer des volumes importants de données. C’est le cas par exemple des entreprises composées d’un grand nombre d’applications informatiques et de services. Le MDM se révèle aussi très utile au moment des fusions d’entreprises. Son rôle est alors de faciliter la migration, la sécurisation et la centralisation des données existantes.

Il s’agit d’une solution incontournable de la gestion des données pour les entreprises qui font de la digitalisation le point central de leur stratégie. Mais si le MDM s’identifie premièrement aux entreprises complexes, la centralisation des données concerne également les PME et les ETI.

En réalité, la gestion de données de référence est un concept d’avenir. Elle s’inscrit dans une vision sur le long terme. Même si votre système d’information n’englobe que quelques applications, il est donc toujours utile de l’intégrer dans votre stratégie marketing. Tant que votre entreprise se développe, vous n’êtes pas à l’abri des effets et des contraintes d’un développement du SI.

Dans votre processus de développement d’un écosystème complet, les données doivent donc être centralisées. Si vos données sont dispersées, non seulement leur exploitation sera plus difficile, mais cela aura un impact direct sur les résultats de l’entreprise. Toutes les entreprises quelle que soit leur taille sont donc concernées par le MDM : boutique e-commerce, service de livraison, manufacture, agence de communication, etc.

LES DIFFÉRENTS TYPES DE MDM

On distingue quatre principales modes d’implémentations d’un système MDM sur les processus métiers.

LE MDM D’ENREGISTREMENT (MDM REGISTRY)

Dans ce premier mode, le MDM fonctionne avec des enregistrements partiels au sein d’un référentiel centralisé. Ce mode limite la quantité de données qui circule dans les outils MDM et s’avère donc plus rapide à mettre en place et moins coûteuse.

Cependant, il en résulte une latence plus élevée en raison des opérations de collecte et de comparaison des informations stockées sur les équipements distants et des enregistrements de référence.

LE MDM DE CONSOLIDATION (CONSOLIDATED MDM)

L’architecture de ce MDM présente des similitudes avec celle du MDM d’enregistrement et ne remplit pas son objectif opérationnel au sein du SI. Mais contrairement à ce dernier, le consolidated MDM permet un réel déplacement des données vers le référentiel central. Cette architecture se retrouve principalement dans le cas d’une consolidation de données pour du reporting au sein d’une entreprise décentralisée ou d’un groupe où chaque filiale a son propre système d’information et parfois même son propre MDM.

LE MDM DE STYLE COEXISTENT

Cette troisième approche va plus loin que les deux premières et remplit entièrement son objectif de centralisation des données au sein du SI. Un objet client pourra donc être créé à la fois dans un CRM, dans un ERP, mais aussi dans l’outil MDM. La donnée y sera alors unifiée et mise à disposition des différents systèmes opérationnels.

LE MDM CENTRALISÉ

Cette dernière approche architecturale est la plus complète et la plus impactante sur les processus métiers. La gestion de tout le cycle de vie des données se fait uniquement dans le MDM. Cela entraîne donc des coûts plus élevés en termes de charges administratives. Mais en retour, ce mode remplit son objectif d’unification de la donnée au sein de l’ensemble du système d’information, réduit le temps de latence et facilite la traçabilité des changements.

COMMENT METTRE EN PLACE UN MDM ?

La première étape pour mettre en place un MDM dans son entreprise est sans doute de faire le choix de son style d’implémentation. Mais cela ne suffit pas. Il faut également respecter un certain nombre de bonnes pratiques pour garantir la réussite du projet.

Sur le plan fonctionnel, le golden record doit faire l’objet d’un consensus et être définie dès le début de la modélisation. Il est également important de disposer d’un glossaire d’entreprise bien documenté et de simplifier au maximum le master record. Sur le plan technique, il faudra créer une clef interne pour le master data selon des standards pérennes.

Enfin, un grand soin doit être accordé à la qualité des données. La collecte des données et le data prolifing aideront à la validation et à la standardisation des données. Une fois cette étape réussie, les applications internes (CMR, ERP, RH, etc.), externes et big data pourront être intégrées.

En synthèse, les solutions MDM permettent aux entreprises de travailler pratiquement en temps réel et de répondre plus efficacement aux nouvelles exigences du monde des affaires. Cependant, aucune stratégie MDM unique n’est suffisante à elle toute seule pour répondre à tous les besoins. Heureusement, les solutions MDM présentent une approche flexible et personnalisable en ce qui concerne la gestion et la gouvernance des données de référence.

La création d’un Data Lake apparaît comme la solution pour de nombreuses entreprises pour gérer l’explosion des formats et des volumes de données. Cette approche, plus flexible, permet de gérer une volumétrie importante et d’économiser du temps tout en simplifiant l’accès aux données pour différents cas d’usages.

Mais un tel projet présente plusieurs aspects qui doivent être pris en compte pour garantir son succès. Vous découvrirez dans ce dossier nos recommandations pour créer une architecture de Data Lake efficace.

LE DATA LAKE : QU’EST-CE QUE C’EST ?

Un Data Lake (lac de données) est une méthode de stockage de données qui permet de stocker des données brutes provenant de toutes les sources de données. Contrairement au Data Warehouse (entrepôt de données) qui ne contient que des données structurées, un Data Lake peut stocker des données non structurées, semi-structurées ou structurées et sous n’importe quel format.

L’ÉVALUATION DES BESOINS

Le Data Lake n’est pas qu’un moyen de créer une base de données à moindre coût. Sa mise en place nécessite des compétences, des ressources matérielles et financières, mais également une bonne coordination entre les attentes de l’entreprise et les moyens déployés.

Beaucoup d’entreprises font l’erreur de sous-estimer leurs besoins pour se rendre compte des mois après que le résultat déçoive. D’autres encore font l’erreur inverse. Elles vont sur architecturer en surestimant leurs besoins. Elles finissent alors par se ruiner en stockant des terabytes qui n’apportent finalement pas autant de valeur qu’espérée.

Il est donc primordial de mener une réflexion approfondie sur les besoins de la valeur que le Data Lake doit apporter à l’entreprise avant de se lancer dans un tel projet.

LA CLASSIFICATION DES DONNÉES

La classification est la base de l’organisation des données dans un Data Lake. La deuxième étape pour mettre en place un lac de données efficace consiste donc à créer un répertoire pour classer les données. Il s’agit d’identifier les aspects clés des données à stocker comme :

  • Le type de données,
  • Le contenu des données,
  • Les types d’utilisateurs possibles
  • Les différents scénarios d’utilisation,
  • Etc.

L’utilisation des outils de profilage des données peut aider à identifier les problèmes liés à la qualité des données et les corriger afin de s’assurer que les bonnes informations soient mises à disposition des utilisateurs (métier, data scientist, APIs).

CRÉER LA BONNE ARCHITECTURE DE DATA LAKE.

L’architecture du Data Lake peut être mise en place dans différents environnements (Hadoop, AWS, Microsoft Azure, etc.). Quelle que soit la formule choisie, votre architecture big data doit faciliter l’organisation des données dans le lac de données. Elle doit faire ressortir par exemple les règles de nommage des dossiers et des fichiers, la hiérarchie des fichiers, les méthodes d’accès aux différents groupes de données et les mécanismes utilisés pour leur distribution.

Pour y arriver, vous devez considérer le cycle de vie de la gestion des données : collecte, stockage, chargement sur un stockage intermédiaire, nettoyage, génération des rapports, contrôle de qualité.

Ce n’est bien évidemment pas une chose simple. C’est pourquoi nous recommandons de commencer par quelque chose de simple et maîtrisé avant d’aller vers des sources non structurées. Vous pourrez ainsi construire des bases solides et être capable de corriger le tir en cas d’échec sans devoir tout reprendre à zéro.

En effet, l’architecture d’un Data Lake est évolutive. Vous devez donc l’étoffer de manière progressive et en procédant par itération. Une architecture de Data Lake qui ne répond pas aux besoins en termes de fonctionnalités et de confort doit-être améliorée ou abandonnée.

LA GESTION DES ACCÈS

L’accès aux données doit être normalisé pour favoriser un usage efficace du lac de données. En effet, la multiplication et la non-hiérarchisation des méthodes utilisées par les équipes d’analyse pour accéder aux données peuvent constituer un véritable frein à l’efficacité de votre structure de lac de données. Ce problème peut être résolu grâce à la mise en place d’une API commune destinée à simplifier les accès.

LA SÉCURISATION DES DONNÉES

La création d’un Data lake est un projet informatique et est donc soumis à des risques d’intrusion, de vol de données, de destruction de données, etc. S’il est vrai que les technologies de sécurisation et de gouvernance des données sont en constante évolution, la cybercriminalité évolue elle aussi au même rythme.

Il est donc nécessaire de faire recours à des méthodes plus évoluées, en plus des aspects traditionnels de la sécurité IT, comme la surveillance automatisée, l’authentification de l’utilisateur, le chiffrement et le masquage des données afin de garantir la sécurité des données sensibles. Cela concerne à la fois l’organisation qui exploite le lac de données et celle qui le déploie.

LE CHOIX DE LA MÉTHODE DE STOCKAGE

Deux grands choix s’offrent à vous pour l’emplacement du stockage de vos données : le Data Lake sur site et le Data Lake dans le cloud. Ces deux solutions présentent des avantages et des inconvénients spécifiques et il convient d’étudier la question en profondeur pour déterminer celle qui répond le mieux aux besoins de votre entreprise.

LE DATA LAKE SUR SITE

Les Data Lakes sont généralement construits sur site en utilisant un stockage sur HDFS (Hadoop Distributed File System). Dans ce cas, les données sont stockées dans le même emplacement où le traitement s’effectue, ce qui facilite leur exploitation et garantit un contrôle absolu. Toutefois, les infrastructures sur site ne sont pas sans inconvénient :

  • L’approvisionnement du matériel ainsi que les étapes de configuration/installation du data center prennent beaucoup de temps à cause de la complexité du travail.
  • Les serveurs prennent beaucoup d’espace sur le site.
  • Le coût de mise en place de l’infrastructure est généralement beaucoup plus élevé.
  • L’augmentation de l’espace de stockage nécessite beaucoup d’effort et du temps puisqu’il faudra attendre que les dépenses (qui sont élevées) soient validées par les dirigeants et décideurs.

En cas de mauvaise estimation de l’espace de stockage, les difficultés d’évolutivité rendent la situation plus complexe à gérer.

LE DATA LAKE SUR LE CLOUD

La création d’une infrastructure de Data Lake basée sur le cloud présente plusieurs avantages :

  • Les utilisateurs peuvent procéder par incrémentation, ce qui rend la mise en place plus facile et plus rapide.
  • Le cloud ne nécessite que très peu d’espace sur le site.
  • Il est plus facile d’augmenter l’espace de stockage.
  • Les dépenses liées au déploiement sont réduites.
  • La facturation se fait à l’utilisation ce qui favorise un meilleur contrôle des dépenses.

Cependant, tout n’est pas aussi simple avec un stockage de Data Lake sur cloud. En réalité, cette solution offre moins de confiance en ce qui concerne la sécurité des données sensibles (piratage, vols de données, etc.). Certaines entreprises préfèrent donc investir dans un stockage sur site même si les fournisseurs de Data Lake ne cessent d’augmenter le niveau de protection des données.

De plus, le passage au Data Lake sur cloud peut s’avérer compliqué pour les entreprises qui ont déjà installé un data Warehouse sur site pour le stockage de données structurées. Il faut donc généralement migrer l’ensemble de ces données sur le cloud ou opter pour une solution hybride, ce qui augmente les coûts.

Enfin, la création d’une architecture efficace de Data Lake sur le cloud pose le problème de gouvernance de données. Cet aspect doit être géré avec le plus grand sérieux pour éviter que le lac de données devienne un marécage.

CE QU’IL FAUT RETENIR

L’architecture parfaite n’existe pas. Si vous la trouvez, elle sera trop longue à implémenter, trop coûteuse et difficile à maintenir. N’attendez donc pas que tout soit parfait avant de vous lancer. En appliquant nos conseils, vous réussirez à créer une architecture de Data Lake efficace, mais il faudra continuer à l’améliorer pour qu’elle accompagne l’évolution de votre entreprise.

L’intérêt toujours grandissant pour le « Big Data » conduit les entreprises à centraliser leurs données dans des bases de données de référence. Deux principales solutions s’offrent donc aux dirigeants pour le faire : la mise en place d’un Data Warehouse ou la construction d’un Data Lake.

Si ces deux approches permettent de stocker de gros volumes de données, elles ne sont pas pour autant identiques. Le but de cet article est de vous faire découvrir les principales différences qui existent entre le Data Lake et le Data Warehouse.

QU’EST-CE QU’UN DATA WAREHOUSE ?

Un Data Warehouse est un entrepôt de données (en français). C’est un dispositif technologique qui permet de collecter, d’ordonner et de stocker des informations se trouvant dans des bases de données opérationnelles.

On peut l’assimiler à un entrepôt dans lequel des bouteilles d’eau sont rangées sur des étagères. Ce n’est donc pas un simple outil, mais un vrai dispositif dont l’architecture est formée d’une base de données en interne ou en cloud (Amazon Redshift, Snowflake…), d’un outil ETL et d’un outil de BI.

Grâce au processus ETL (Extract Transform Load), les données collectées sont transformées (afin de correspondre au schéma du DWH) avant d’être intégrées dans la base de données. Il en résulte une grande sécurité. Cependant, les modifications des données stockées sont complexes et coûteuses.

QU’EST-CE QU’UN DATA LAKE ?

Le terme Data Lake signifie en français « Lac de Données ». Il s’agit également d’une méthode de stockage de données pour le Big Data. Contrairement au Data Warehouse qui évoque des compartiments, le Data Lake évoque le mélange et la fluidité.

Les données de tout ordre y sont stockées « en vrac » et dans leur état brut. Cependant, les technologies nécessaires à la construction d’un Data Lake (principalement le framework Hadoop) offrent un espace de stockage presque illimité et très peu onéreux.

Ici, les gouttes d’eau qui représentent les données sont mélangées et forment un « lac ». Cette méthode de stockage fonctionne grâce à l’approche ELT (Extract Load Trasnsform) qui permet de charger les données avant de les transformer.

DATA LAKE ET DATA WAREHOUSE : QUELLES DIFFÉRENCES ?

Le Data Warehouse est beaucoup plus ancien que le Data Lake. Il est utilisé depuis des dizaines d’années alors que les technologies liées au Data Lake sont encore récentes. On peut même dire que le Big Data est le parent du Data Lake, mais pas celui du Data Warehouse. Cependant, il existe des différences plus importantes entre ces deux méthodes de stockage de données.

LA STRUCTURE DES DONNÉES STOCKÉES

La principale différence entre les Data Lakes et les Data Warehouses réside dans la différence de structure entre les données transformées et les données brutes. En effet, les Data Lakes permettent de stocker rapidement de plus grandes quantités de données que les Data Warehouses. De plus, les Data Lakes permettent de stocker des données brutes alors que les Data Warehouses concernent des données transformées et nettoyées.

Les données brutes sont des données utilisées dans un but précis et qui n’ont pas encore été analysées. Leur stockage s’effectue donc en vrac dans un Data Lake et elles peuvent être non structurées, semi-structurées ou même structurées.

Par contre, les données stockées dans un Data Warehouse nécessitent un minimum de nettoyage et de structuration. Il faut d’abord les retravailler. Les données stockées à la fin ne sont plus donc à l’état de « données brutes », mais plutôt à celle de « données nettes ».

LE TYPE DE DONNÉES STOCKÉES

Le système de stockage dans le cas d’un Data Warehouse permet généralement d’économiser l’espace de stockage des serveurs en simplifiant le modèle de données. Les données qui ne sont pas exploitées dans un rapport défini ou pour répondre à des questions spécifiques peuvent donc être exclues de ce système de stockage.

Ainsi, l’analyse et la compréhension des données stockées requièrent un temps considérable lors du développement d’un Data Warehouse. Ce n’est pas le cas avec un Data Lake.

Le Data Lake permet de conserver toutes les données. Ici, il ne s’agit pas uniquement des données qui seront utilisées aujourd’hui, mais de toutes les données qui ont une utilité potentielle. Certaines données sont même stockées non parce qu’elles ont une quelconque utilité, mais parce qu’elles pourraient s’avérer utiles dans le futur.

Cette différence dans le type de données stockées s’explique par le fait que le matériel utilisé pour un Data Warehouse est généralement différent de celui utilisé pour un Data Lake.

LA FINALITÉ

Le traitement et la modification d’un Data Warehouse nécessitent du temps, des compétences métiers et de modélisation. Il s’agit d’ailleurs d’un des principaux inconvénients de cette méthode de stockage. Pendant le développement, un temps important doit être utilisé à l’avance pour effectuer une bonne structuration de l’entrepôt.

Cette conception d’entrepôt de données peut s’adapter à l’évolution et aux changements, mais le processus de chargement des données est complexe. De plus, un grand travail doit être effectué pour simplifier l’analyse et la génération des rapports.

Or, de nombreuses contraintes commerciales ne peuvent simplement pas attendre que l’équipe du Data Warehouse ait fini d’adapter son système pour y apporter des réponses.

Les Data Lakes, quant à eux, sont faciles à exploiter et à modifier puisqu’ils n’ont pas de structure. Les données peuvent être modifiées dans la mesure où ces systèmes de stockage de données ne sont soumis qu’à très peu de restrictions.

Un Data Lake s’adapte donc beaucoup plus facilement aux changements qu’un Data Warehouse. Les utilisateurs peuvent donc exploiter plus aisément les données afin d’apporter très rapidement des réponses à leurs questions.

Cette structuration des données dans le Data Lake est idéale par exemple pour l’Intelligence artificielle (IA), le Machine Learning, la modélisation prédictive, etc. Toutefois, une bonne gouvernance de données est indispensable pour éviter au lac de se transformer en marécage.

DATA LAKE ET DATA WAREHOUSE : QUELLE SOLUTION CHOISIR ?

Le type de base de données qui correspond le mieux à votre entreprise dépend non seulement des types de données à stocker, mais également des cas d’usages.

LES TYPES DE DONNÉES QU’IL FAUT STOCKER

Si vous souhaitez gérer et analyser de grandes quantités de données structurées, le Data Warehouse vous conviendra parfaitement. Une telle base de données permet de centraliser les données structurées pour en faire une analyse descriptive.

Plus concrètement, un Data Warehouse suffit largement pour analyser des données comme le nombre de vues sur vos vidéos et le nombre de requêtes sur un produit donné ou pour comprendre d’autres schémas commerciaux.

Cependant, les données structurées ne sont pas les seuls types de données que doit gérer une entreprise engagée dans un projet Big Data. Si la vôtre fait partie des 63 % des entreprises qui ont besoin de stocker des données non structurées (en moyenne 25 petabytes), un Data Lake sera une meilleure alternative à cause de sa capacité à stocker de gros volumes de données non structurées.

LES UTILISATEURS

On distingue trois grands profils d’utilisateurs de données :

Les utilisateurs opérationnels : Ce sont les équipes marketing, ventes, produit, digital, etc. qui représentent environ 80 % de l’effectif d’une entreprise. Le Data Warehouse leur permet une meilleure structuration des données et donc de comprendre et d’utiliser plus facilement ces données.

Les analystes de données : Ils représentent environ 10 % de l’effectif de l’entreprise et utilisent le Data Warehouse pour accéder à des données non intégrées dans le DWH et pour créer des rapports.

Les data scientists : Le Data Lake est leur terrain de jeu. Ces derniers sont présents en minorité dans l’entreprise et ont souvent besoin de données brutes. Ils se servent donc d’outils spécifiques (outils d’analyse statistique, analytique, de modélisation prédictive…) pour gérer et ordonner le chaos qui réside dans le lac de données.

En résumé, le Data Lake et le Data Warehouse sont deux approches complémentaires. Il est tout à fait possible d’avoir un Data Lake pour les besoins des data scientists et un Data Warehouse pour les utilisateurs opérationnels.