Onepoint



Dataquitaine 2024 - SESSION 2.1 - Amphi 1 - 21/03/2024 14h55 > 15h25

Quand le machine learning et les statistiques se mettent à la causalité.

Onepoint

Résumé

Introduction

Un client est venu nous trouver avec une problématique d'analyse de données. Le problème était simple, il avait besoin d'identifier quelle partie de son activité présentait le manque à gagner le plus important.
Plus qu'un classement, le client avait besoin d'une quantification qui permettrait de prioriser ses chantiers internes. Le problème, c'est que la plupart des méthodes utilisées jusque là ne semblaient pas présenter de résultats cohérents avec la réalité de leur métier.
Il fallait trouver un juste milieu entre l'interprétabilité et la sobriété des statistiques d'une part, et la puissance de traitement du machine learning d'autre part.
Il faudrait en plus s'assurer que le résultat final soit plus proche de la causalité que de la corrélation.

Méthodologie

Avec la liste des contraintes qui étaient celles du client, il s'est avéré qu'il existait une méthode qui respectait l'ensemble des contraintes : l'inférence causale.
Cette méthode propose une première étape de modélisation qui permet à l'utilisateur de définir facilement sous la forme d'un graphe dirigé les interactions existantes dans un ensemble de variables. Ce graphe permet d'injecter un ensemble de connaissances métiers dans une représentation utilisable par un modèle statistique.
Une fois le graphe établi, l'inférence causale s'appuie sur plusieurs théorèmes permettant d'étudier l'influence d'une variable sur une autre, et ce quel que soit leurs emplacements respectifs dans le graphe. Cette démarche permet d'annuler l'effet des facteurs dits confondants : si vous voulez étudier l'influence d'un traitement sur une personne, vous devez vous assurer qu'il n'existe aucun facteur qui influe à la fois le traitement et la personne elle-même. Une fois la relation entre variables établie, l'inférence se base sur des modèles de machine learning et sur du calcul statistique pour quantifier les effets étudiés. Cette démarche nous a permis d'étudier précisément l'impact d'un ensemble de critères définis par le client sur les revenus générés. La solidité théorique et l'interprétabilité de la méthode ont permis au client d'utiliser efficacement les résultats fournis par le modèle.

Originalité / perspective

À l'heure du machine learning, il est assez rare de trouver une méthode qui s'appuie à la fois sur des fondements théoriques statistiques et sur des modèles entraînés pour résoudre un problème d'inférence. L'originalité de la méthode vient ici de l'intégration du client au cours du processus : le graphe de causalité généré est absolument central pour l'analyse et l'interprétation des résultats.

L'avantage de cette méthode est quelle est évolutive. Une fois le graphe défini, on peut étudier l'influence d'une variable sur une autre avec une plus grande souplesse que ce qui est permis par le traditionnel duo entrée-sortie d'un modèle de machine learning.

Pour ce qui est des perspectives, la méthode utilise un mécanisme de matching qui permet de rapprocher les clients les uns des autres de sorte à simuler un effet avec et sans traitement, le traitement étant ici la variable dont on essaye de quantifier l'effet. Les méthodes de matching n'étant pas ancrées dans un des théorèmes statistiques de la méthode, il existe tout un pan de la recherche qui s'intéresse à la façon la plus efficace d'effectuer ce matching, autant en termes de temps qu'en termes de qualité.

Références

Causal Inference in Statistics par Judea Pearl et al. : https://web.cs.ucla.edu/~kaoru/primer-complete-2019.pdf
Reconciling Causality and Statistics par Pirmin Lemberger et al. : https://arxiv.org/pdf/2007.03940.pdf
Methods for Causal Inference : https://onedrive.live.com/View.aspx?resid=FB9A18AE325D3EFB!5374&wdSlideId=1727&wdModeSwitchTime=1689061871668&authkey=!APDx8SBOro95IR8
Dowhy: An end-to-end library for causal inference : https://fr.slideshare.net/AmitSharma315/dowhy-an-endtoend-library-for-causal-inference

Revoir la vidéo :






A propos de l'orateur



Denis MAUREL
Data Analyst

Docteur en Machine Learning, je travaille à Onepoint en tant que data scientist et chercheur en IA depuis 4 ans. Au quotidien, j'accompagne nos clients dans l'exploitation de leurs données tout en participant aux activités de recherche de notre pôle R&D.

Onepoint





S'inscrire !
Organisation

           

Avec le soutien de

              

              



Cet événement a bénéficié d'une aide de l’État gérée par l'Agence Nationale de la Recherche au titre du Plan France 2030, portant la référence ANR-21-EXES-0004

Avec la participation de

Partenaire OR & ARGENT


Partenaire PLATINE


                   

              
{\rtf1}