Vaste sujet qu'est la data dans le monde d'aujourd'hui, surtout dans celui du Produit. Bien que les Product Managers ne soient pas en première ligne sur les questions data, ils sont tout à fait concernés, car ils en utilisent constamment. C’est particulièrement vrai pour les Data Product Managers. Il existe deux aspects critiques pour le PM : que la donnée dont il a besoin soit accessible et de qualité.
Tout d’abord, qu'est-ce qu'une donnée ? On peut dire que c’est une unité d'information. Elle représente un fait, une statistique ou encore une mesure. Les données peuvent être sous divers formats comme des chiffres, des mots. En d’autres termes, la donnée est un bout de vérité qui décrit un élément réel. C’est l’équivalent d’un ingrédient d’une recette, et avec les bons ingrédients mélangés ensemble on obtient un plat : l’information sur un objet réel. Et comme en cuisine, si les ingrédients ne sont pas frais, le plat ne sera pas de qualité. Dans le monde de la data, l’ingrédient pas frais ce sont les données erronées, mal enregistrées etc. On dit donc que leur qualité est mauvaise.
Si on connait tous l'adage « la qualité avant la quantité », il se trouve que dans le domaine de la donnée nous avons suivi le chemin inverse. Depuis plusieurs années, nous produisons des quantités exponentielles de données, mais sans pour autant toujours regarder leur qualité. C'est une problématique dont les entreprises ont commencé à se saisir il y a peu quand la valorisation des données qu'elles avaient sous la main est devenue une question stratégique. Notamment dans le cadre de la création de produit, dans des cas où la donnée peut signer le succès ou l'échec d'un produit.
Il existe un lien fort entre la qualité de la donnée et le Product Management, à trois niveaux :
Les enjeux de la Data Quality peuvent sembler complexes. Détaillons les pour les rendre un peu plus clairs. Commençons par un exemple très simple : Nous avons une landing page, avec un formulaire d'inscription. Ce formulaire contient les champs habituels (nom - prénom, email, téléphone, adresse, etc). Pour l'instant imaginons que ce formulaire est basique, sans validation. Dans ce cas précis, tout un tas de problématiques se dessinent. Entre les différents formats de numéro de téléphone, l'ordre nom-prénom, les différentes manières d'écrire une adresse ou encore juste les cases qui seront laissées vides. A plus grande échelle, les problématiques sont finalement les mêmes. Très simplifiée, on peut les réduire à : comment l'organisation s'assure d'obtenir, stocker de la donnée dans un format standardisé et exploitable ?
Évidemment c'est un peu plus profond. Pour rentrer dans le détail, commençons par parler des dimensions de la Qualité de la Donnée :
En français, on pourrait dire que la qualité des données est cruciale car des données manquantes ou incomplètes peuvent mener à des incohérences et à des conclusions erronées. Tandis que les erreurs de saisie ou de calcul, ainsi que les informations incorrectes, augmentent le risque de décisions mal informées. Les doublons de données, souvent enregistrés dans plusieurs systèmes, peuvent également entraîner des incohérences. Les données qui ne respectent pas les normes ou les règles mises en place compliquent l'intégration et l'analyse. La sécurité est également primordiale ; les données non sécurisées sont vulnérables aux accès non autorisés, à la modification ou à la suppression, ce qui peut causer des dommages considérables.
La chaîne de traitement de la donnée est un processus complexe et multicouche. Elle commence par la collecte des données, suivie de leur stockage, traitement, analyse, et enfin, leur utilisation. À chaque étape, la qualité des données peut être compromise par des erreurs humaines, des lacunes techniques ou des problèmes de compatibilité. Cette complexité exige une attention constante et des processus bien définis pour assurer l'intégrité des données tout au long de leur cycle de vie.
Prenons un moment pour parler plus spécifiquement des sources de données car avec des sujets comme l'IoT (l’Internet des Objets) et leurs capteurs automatisés ou toutes les données que produisent les plateformes en ligne, cela devient un point d’intérêt stratégique. Concrètement, il est important de s'assurer que ses sources sont fiables et crédibles, en particulier lorsque l'on consomme des données extérieures. Dans ce cas, il faut être capable d'anticiper les problématiques de continuité et de qualité dûes à des changements de politique du côté des fournisseurs ou des interruptions de service qui peuvent affecter la disponibilité et la fiabilité des données.
Cette mention de la diversité des sources nous permet de rebondir naturellement sur la question notamment de l'intégration, puis du nettoyage des données collectées. L'intégration et le nettoyage des données sont cruciaux pour garantir leur qualité. L'intégration implique de rassembler des données de sources multiples en un format cohérent, tandis que le nettoyage consiste à éliminer les erreurs, les doublons, et les incohérences. Ces étapes nécessitent des outils sophistiqués et des compétences spécialisées pour s'assurer que les données sont non seulement utilisables, mais aussi fiables.
Il faut au maximum s'assurer de l'alignement avec les stakeholders data de l'entreprise, notamment à travers une stratégie globale d'intégration des données, une collaboration interfonctionnelle (IT, Marketing, Data, Product,...) et une gouvernance qui définit correctement les rôles et responsabilités.
Concluons par un petit point qui s'éloigne de l’enjeu Product Management mais qui mérite d'être abordé pour avoir une bonne compréhension du sujet :
Ce qu'il faut retenir :