Data science: Collecte et nettoyage de données

La data science repose sur des données en très grande quantité, données qui sont alimentées par le Big data. Nous avions d’ores et déjà abordé ce sujet dans ces deux articles: Le big data, l’avenir du marketing et Data science: Statistique ou machine learning? . Cependant, les différentes étapes d’un projet de data sont assez inégalement réparties. Une grande partie du travail du data scientist consiste à préparer les données. En effet, selon une étude de Cognilytica, la collecte, l’organisation et l’étiquetage des données représentent 80% des projets d’IA.

Nous allons voir dans cet article en quoi la collecte et le nettoyage de données sont cruciaux pour une utilisation pertinente et efficace de la data et quelles sont les méthodes utilisées pour ce faire.

1. Collecte de données

La collecte de données est la première étape du traitement de la data. Le traitement de la data commence à partir du moment où les objectifs du projet ont bien été définies. Elle peut se faire via des outils tels que Google Analytics ou Crazy Egg pour l’audience d’un site web. Elle peut également se faire directement en utilisant des méthodes de web scrapping : C’est une méthode automatique permettant d’extraire une grande quantité de données venants de sites web. Cependant, deux outils sont largement utilisés en entreprise : les data warehouses et les dates lakes.

Les data warehouses sont des bases de données fortement structurées où se trouve une partie ou la totalité des données fonctionnelles d’une entreprise. Ces entrepôts sont nécessaires afin d’effectuer des requêtes et effectuer l’analyse des données. Cela est également utile en informatique décisionnelle et business intelligence. Les données présentes proviennent de sources distinctes, aussi bien des données de l’entreprise, des données clients ou des partenaires par exemple.

Un data lake est un emplacement de stockage à haut volume de données qui contient des données diversifiées. La data peut y être structurée, partiellement structurée voire non structurée, ce qui le différencie des data warehouses.

2. Nettoyage de données

Le data cleaning (ou nettoyage de données) représente l’ensemble des processus mis en place afin de rendre exploitable les données. De ce fait, les principaux objectifs du nettoyage de données sont :

  • S’occuper des données manquantes
  • S’occuper des données ébruitées
  • Gérer les incohérences et les valeurs absurdes
  • Supprimer les doublons et autres redondances
  • Uniformiser l’information

Par exemple, une entreprise qui vend des billets d’avions pourrait avoir une équipe de data qui analyse le comportement des clients sur leur site. Un des buts de cette analyse pourrait être de remarquer quelles sont les jours où le nombre d’avions n’est pas suffisant pour répondre à l’afflux de passagers afin de maximiser les profits de l’entreprise. Supposons que les données recueillis par le site proviennent de deux jeux de données différents : d’un côté les données de sites francophones et de l’autre côté les données de sites anglophones. La date suit le format MM/DD/YYYY dans le jeu de données anglophone alors que pour le jeu de données francophone le format est DD/MM/YYYY. Il faut faire un choix unique afin que toutes les dates soient labellisées de la même manière.

Le concept clé de cette partie est résumé par l’expression anglaise « garbage in, garbage out ». La qualité des résultats dépend logiquement de la qualité de la préparation des données.

Conclusion

Ces deux étapes s’avèrent être cruciales dans un projet de data. Ce sont les premières étapes d’un projet. Elles conditionnent toute la suite du projet : un jeu de données bien préparé est un gain de temps crucial. Cela rend l’exploration et l’exploitation des données plus facile pour les data analysts et les data scientists qui peuvent se concentrer sur l’essentiel de leur travail.

N’hésitez pas à contacter Dièse pour vos projets de data. Nos intervenants et chefs de projets sont prêts à relever vos défis !

Outtamm Madissouéké, Responsable Communication