Data science: Statistique ou machine learning ?

Depuis plusieurs années, nous assistons à une explosion du volume des données grâce à l’avènement du Big data. Nous avions déjà traité le sujet en 2019 via cet article. Le nombre de données dans le monde devrait être multiplié par 5 d’ici 2025, d’après une étude d’IDC (International Data Corporation). C’est dans ce contexte que les entreprises ont ainsi décidé d’investir dans le secteur de la data science. Ce domaine a vu son nombre de recherches Google augmenter de 400% entre 2014 et 2018. Néanmoins, la data science reste un secteur encore assez incompris et souvent confondu avec les statistiques.

Dans cet article, nous vous rappellerons tout d’abord la définition de la data science. Nous nous intéresserons ensuite à deux thématiques, qui sont parfois confondues à tort : l’inférence statistique et la prédiction via le machine learning.

1. Qu’est ce que la data science ?

La data science est une discipline transversale faisant appel aux mathématiques, à la programmation informatique et à l’ingénierie des données. En effet, un projet de data science se décompose en 3 grandes étapes :

  • La collecte des données qui consiste à récolter un maximum de données sur lequel les parties suivantes se baseront,
  • Le nettoyage des données qui permet notamment de s’occuper des données manquantes et également de l’encodage des données. En effet, les données ne sont pas toujours directement exploitables (c’est le cas des variables qualitatives) pour effectuer une régression linéaire ou une autre méthode, il faut donc effectuer une conversion des données au préalable,
  • L’analyse des données qui permet de trouver des résultats mathématiques tels que des corrélations entre des variables. C’est dans cette partie que s’inscrivent l’inférence statistique et la prédiction via shallow learning, réseaux de neurones, voir même le reinforcement learning.

Il s’agit donc d’un outil utilisé en Big data, dont les applications et les enjeux sont multiples.

2. Inférence statistique et data science

L’inférence statistique consiste à induire les caractéristiques inconnues d’une population à partir d’un échantillon issu de cette population.

Les caractéristiques trouvées pour l’échantillon doivent pouvoir rendre compte de la population. L’inférence a donc pour objectif de rechercher des liens entre plusieurs variables correspondant à un problème donné. On cherche à comprendre les caractéristiques de la population grâce aux échantillons afin de répondre à une problématique. Ainsi l’inférence s’intéresse aux données en elles-mêmes et donc aux événements passés et présents.

Prenons un exemple : une équipe de médecins souhaite recevoir de l’aide pour analyser les données de patients atteints du cancer du poumon. L’inférence statistique servira à comprendre quelles variables sont reliées : Y a-t-il un lien entre le cancer du poumon et la cigarette ? Ou encore entre l’âge et les maladies cardiovasculaires ?

3. La prédiction et la data science

La prédiction utilise les données présentes afin de modéliser ce qui se passera à l’avenir. Les prédictions sont faites à l’aide du machine learning.

Le machine learning est une technologie d’intelligence artificielle permettant aux machines « d’apprendre » à partir des données sans avoir été conçues initialement pour cela. Nous expliquions la démarche d’apprentissage dans cet article.

Premièrement, les données sont triées et analysées. Ensuite, une modélisation est faite à partir d’un échantillon d’apprentissage. Cet échantillon d’apprentissage est enfin comparé avec un échantillon de test , pour vérifier la cohérence du modèle.

Dans notre exemple sur le cancer, la démarche prédictive pourrait par exemple extraire des données de patients atteints et non atteints afin de tenter de trouver qui est porteur du cancer ou non.

Conclusion

Bien qu’en théorie, il peut être tentant de n’avoir recours qu’au machine learning pour un projet de data, ce n’est pas la meilleure solution. Les statistiques et le machine learning sont deux disciplines complémentaires. La prédiction nous donne de nouvelles perspectives, pour mieux cibler sa clientèle par exemple. Néanmoins les résultats peuvent être momentanément faussés si l’on n’analyse pas les données de manière statistique au préalable. L’utilisation des deux outils peut réellement faire la différence.

Nos intervenants Dièse sont à la fois formés au machine learning et aux statistiques donc n’hésitez pas à nous contacter pour vos projets de data, nous serions ravis de développer nos compétences à votre service. 

Outtamm Madissouéké, Responsable communication