Les enjeux de la Qualité de la Donnée dans le Product Management

5
minutes de lecture

Vaste sujet qu'est la data dans le monde d'aujourd'hui, surtout dans celui du Produit. Bien que les Product Managers ne soient pas en première ligne sur les questions data, ils sont tout à fait concernés, car ils en utilisent constamment. C’est particulièrement vrai pour les Data Product Managers. Il existe deux aspects critiques pour le PM : que la donnée dont il a besoin soit accessible et de qualité.

Qu'appelle-t-on la Data Quality ?

Tout d’abord, qu'est-ce qu'une donnée ? On peut dire que c’est une unité d'information. Elle représente un fait, une statistique ou encore une mesure. Les données peuvent être sous divers formats comme des chiffres, des mots. En d’autres termes, la donnée est un bout de vérité qui décrit un élément réel. C’est l’équivalent d’un ingrédient d’une recette, et avec les bons ingrédients mélangés ensemble on obtient un plat : l’information sur un objet réel. Et comme en cuisine, si les ingrédients ne sont pas frais, le plat ne sera pas de qualité. Dans le monde de la data, l’ingrédient pas frais ce sont les données erronées, mal enregistrées etc. On dit donc que leur qualité est mauvaise.

Contextualisation

Si on connait tous l'adage « la qualité avant la quantité », il se trouve que dans le domaine de la donnée nous avons suivi le chemin inverse. Depuis plusieurs années, nous produisons des quantités exponentielles de données, mais sans pour autant toujours regarder leur qualité. C'est une problématique dont les entreprises ont commencé à se saisir il y a peu quand la valorisation des données qu'elles avaient sous la main est devenue une question stratégique. Notamment dans le cadre de la création de produit, dans des cas où la donnée peut signer le succès ou l'échec d'un produit.

La Data Quality dans le Product Management  

Il existe un lien fort entre la qualité de la donnée et le Product Management, à trois niveaux :  

  • Approche Data-Driven : il est de plus en plus commun d'avoir une approche data-driven dans tout le cycle de vie du produit, pour en guider le développement. Une bonne qualité des données assure des décisions plus précises et fiables, menant à des stratégies de produit mieux informées et potentiellement plus réussies.
  • Compréhension des utilisateurs : un bon Product Manager fait de la discovery quantitative et cherche toujours à comprendre ses utilisateurs, entre autres, via des KPIs et des metrics. Or, la bonne qualité de donnée fait le bon metric.
  • Data Product : le Data Product où le produit lui-même est basé sur la donnée, qu'il utilise pour générer des insights pour les utilisateurs. Ici, la valeur et l'utilité du Produit est elle-même intrinsèque à la qualité de la donnée qu'il ingère. Sans données fiables pas d'informations fiables. Dans le milieu, on parle de « garbage in – garbage out ». En français on pourrait utiliser la formule : on est ce que l'on mange.

Les enjeux de la Data Quality

Les enjeux de la Data Quality peuvent sembler complexes. Détaillons les pour les rendre un peu plus clairs. Commençons par un exemple très simple : Nous avons une landing page, avec un formulaire d'inscription. Ce formulaire contient les champs habituels (nom - prénom, email, téléphone, adresse, etc). Pour l'instant imaginons que ce formulaire est basique, sans validation. Dans ce cas précis, tout un tas de problématiques se dessinent. Entre les différents formats de numéro de téléphone, l'ordre nom-prénom, les différentes manières d'écrire une adresse ou encore juste les cases qui seront laissées vides. A plus grande échelle, les problématiques sont finalement les mêmes. Très simplifiée, on peut les réduire à : comment l'organisation s'assure d'obtenir, stocker de la donnée dans un format standardisé et exploitable ?

Les différentes dimensions de la Qualité de la Donnée 

Évidemment c'est un peu plus profond. Pour rentrer dans le détail, commençons par parler des dimensions de la Qualité de la Donnée :

  • Exactitude : la précision des données par rapport à la réalité.  
  • Complétude : le degré auquel toutes les données nécessaires sont disponibles.  
  • Consistance : l'harmonie et la compatibilité des données à travers différents ensembles et systèmes.  
  • Fiabilité : la capacité des données à maintenir leur qualité au fil du temps et à travers différentes utilisations.  
  • Pertinence : l'applicabilité et l'utilité des données pour l'objectif ou le contexte en question.  
  • Actualité : la fraîcheur des données et leur pertinence temporelle. Les données doivent être suffisamment récentes pour être applicables à la situation actuelle.
  • Accessibilité : la facilité avec laquelle les utilisateurs peuvent accéder et utiliser les données. Cela comprend la disponibilité des données et la facilité de leur interprétation.
  • Intégrité : le degré auquel les données sont protégées contre la corruption, la perte ou les modifications non autorisées. L'intégrité des données assure qu'elles restent exactes et complètes tout au long de leur cycle de vie.

En français, on pourrait dire que la qualité des données est cruciale car des données manquantes ou incomplètes peuvent mener à des incohérences et à des conclusions erronées. Tandis que les erreurs de saisie ou de calcul, ainsi que les informations incorrectes, augmentent le risque de décisions mal informées. Les doublons de données, souvent enregistrés dans plusieurs systèmes, peuvent également entraîner des incohérences. Les données qui ne respectent pas les normes ou les règles mises en place compliquent l'intégration et l'analyse. La sécurité est également primordiale ; les données non sécurisées sont vulnérables aux accès non autorisés, à la modification ou à la suppression, ce qui peut causer des dommages considérables.

La Data Quality, un sujet étendu et complexe

Rappel sur la chaîne de traitement de la donnée

La chaîne de traitement de la donnée est un processus complexe et multicouche. Elle commence par la collecte des données, suivie de leur stockage, traitement, analyse, et enfin, leur utilisation. À chaque étape, la qualité des données peut être compromise par des erreurs humaines, des lacunes techniques ou des problèmes de compatibilité. Cette complexité exige une attention constante et des processus bien définis pour assurer l'intégrité des données tout au long de leur cycle de vie.

Les sources

Prenons un moment pour parler plus spécifiquement des sources de données car avec des sujets comme l'IoT (l’Internet des Objets) et leurs capteurs automatisés ou toutes les données que produisent les plateformes en ligne, cela devient un point d’intérêt stratégique. Concrètement, il est important de s'assurer que ses sources sont fiables et crédibles, en particulier lorsque l'on consomme des données extérieures. Dans ce cas, il faut être capable d'anticiper les problématiques de continuité et de qualité dûes à des changements de politique du côté des fournisseurs ou des interruptions de service qui peuvent affecter la disponibilité et la fiabilité des données.  

Intégration et nettoyage des données collectées

Cette mention de la diversité des sources nous permet de rebondir naturellement sur la question notamment de l'intégration, puis du nettoyage des données collectées. L'intégration et le nettoyage des données sont cruciaux pour garantir leur qualité. L'intégration implique de rassembler des données de sources multiples en un format cohérent, tandis que le nettoyage consiste à éliminer les erreurs, les doublons, et les incohérences. Ces étapes nécessitent des outils sophistiqués et des compétences spécialisées pour s'assurer que les données sont non seulement utilisables, mais aussi fiables.  

Il faut au maximum s'assurer de l'alignement avec les stakeholders data de l'entreprise, notamment à travers une stratégie globale d'intégration des données, une collaboration interfonctionnelle (IT, Marketing, Data, Product,...) et une gouvernance qui définit correctement les rôles et responsabilités.

Le cadre de la Data Quality au service du Product Management

Concluons par un petit point qui s'éloigne de l’enjeu Product Management mais qui mérite d'être abordé pour avoir une bonne compréhension du sujet :

  • Gouvernance : la gouvernance des données joue un rôle clé dans la gestion de la qualité des données. Elle implique l'établissement de politiques, de normes, et de procédures pour la gestion des données dans une organisation. Une bonne gouvernance garantit que les données sont traitées de manière cohérente et fiable, et que les responsabilités en matière de qualité des données sont clairement définies et respectées.
  • Outils et technologies : les outils et technologies modernes sont indispensables pour gérer la qualité des données. Des solutions d'intégration de données, des plateformes d'analyse de qualité, et des outils de nettoyage et de validation automatisés peuvent grandement améliorer l'exactitude et la fiabilité des données. Ces technologies permettent également de traiter de grands volumes de données de manière plus efficace et précise.
  • Culture : instaurer une culture organisationnelle qui valorise la qualité des données est fondamental. Cela implique de sensibiliser tous les membres de l'organisation à l'importance de la qualité des données et de leur rôle dans son maintien. De plus, il est essentiel d'avoir des rôles dédiés, comme des Data Stewards ou des Data Quality Managers, qui sont chargés de superviser et d'améliorer constamment la qualité des données.

Ce qu'il faut retenir :

  • La qualité des données est essentielle pour des décisions éclairées en Product Management, incluant exactitude, complétude et pertinence.
  • L'approche data-driven en Product Management dépend fortement de la fiabilité et de la précision des données utilisées.
  • La gouvernance des données, les outils technologiques et une culture de qualité des données sont clés pour améliorer leur qualité.
  • Les défis du Big Data nécessitent des stratégies spécifiques pour maintenir la qualité des données face à la complexité et au volume élevé.
Logo WeFiiT

Le spécialiste du conseil fullstack Produit : Strategy, Discovery & Delivery !

Auteur

Youssef

PO Data