Source : Sylvain Lapoix & Sarah Mersch, “Fake news à l’épreuve des faits : 3 - Nettoyer les données”, https://datactivist.coop/dwa_ddj_maroc/3-nettoyage/#1.

Que ce soit pour des raisons techniques ou organisationnelles, il arrive que les données fournies en format tabulaire ou scrapées soient jugées "sales". Une donnée est jugée sale quand son format gêne son utilisation, que ce soit par un humain ou par une machine.

Plusieurs dimensions d'une base de données peuvent contribuer à sa “saleté” :

Une "donnée propre" est une donnée qui répond à quelques critères qui assure sa lisibilité et son usage sans déperdition de sens. Le travail de nettoyage n'est pas une petite tâche : d'après des entretiens menés par le New York Times en 2014, il engouffre 50 à 80% du temps de travail des data scientists. Pour en rester aux critères principaux :

Autrement dit : une donnée propre est souvent une donnée transformée par rapport à sa source suivant des besoins précis.

Identifier son besoin : que cherchez-vous à faire ?

Il faut donc avant de transformer les données identifiez précisément ce que vous essayez de faire. Avec la connaissance des données que vous accumulez au cours des étapes précédentes, vous devriez avoir une bonne idée des visualisations que vous cherchez à produire.

Pour vous aider, nous allons nous appuyer sur le Dataviz project qui présente une liste de fonctions de la data visualisation (ne vous intéressez pas pour l’instant aux formats, nous y viendrons juste après) :