Introduction
Un client est venu nous trouver avec une problématique d'analyse de données. Le problème était simple, il avait besoin d'identifier quelle partie de son activité présentait le manque à gagner le plus important.
Plus qu'un classement, le client avait besoin d'une quantification qui permettrait de prioriser ses chantiers internes. Le problème, c'est que la plupart des méthodes utilisées jusque là ne semblaient pas présenter de résultats cohérents avec la réalité de leur métier.
Il fallait trouver un juste milieu entre l'interprétabilité et la sobriété des statistiques d'une part, et la puissance de traitement du machine learning d'autre part.
Il faudrait en plus s'assurer que le résultat final soit plus proche de la causalité que de la corrélation.
Méthodologie
Avec la liste des contraintes qui étaient celles du client, il s'est avéré qu'il existait une méthode qui respectait l'ensemble des contraintes : l'inférence causale.
Cette méthode propose une première étape de modélisation qui permet à l'utilisateur de définir facilement sous la forme d'un graphe dirigé les interactions existantes dans un ensemble de variables. Ce graphe permet d'injecter un ensemble de connaissances métiers dans une représentation utilisable par un modèle statistique.
Une fois le graphe établi, l'inférence causale s'appuie sur plusieurs théorèmes permettant d'étudier l'influence d'une variable sur une autre, et ce quel que soit leurs emplacements respectifs dans le graphe. Cette démarche permet d'annuler l'effet des facteurs dits confondants : si vous voulez étudier l'influence d'un traitement sur une personne, vous devez vous assurer qu'il n'existe aucun facteur qui influe à la fois le traitement et la personne elle-même. Une fois la relation entre variables établie, l'inférence se base sur des modèles de machine learning et sur du calcul statistique pour quantifier les effets étudiés. Cette démarche nous a permis d'étudier précisément l'impact d'un ensemble de critères définis par le client sur les revenus générés. La solidité théorique et l'interprétabilité de la méthode ont permis au client d'utiliser efficacement les résultats fournis par le modèle.
Originalité / perspective
à l'heure du machine learning, il est assez rare de trouver une méthode qui s'appuie à la fois sur des fondements théoriques statistiques et sur des modèles entraînés pour résoudre un problème d'inférence. L'originalité de la méthode vient ici de l'intégration du client au cours du processus : le graphe de causalité généré est absolument central pour l'analyse et l'interprétation des résultats.
L'avantage de cette méthode est quelle est évolutive. Une fois le graphe défini, on peut étudier l'influence d'une variable sur une autre avec une plus grande souplesse que ce qui est permis par le traditionnel duo entrée-sortie d'un modèle de machine learning.
Pour ce qui est des perspectives, la méthode utilise un mécanisme de matching qui permet de rapprocher les clients les uns des autres de sorte à simuler un effet avec et sans traitement, le traitement étant ici la variable dont on essaye de quantifier l'effet. Les méthodes de matching n'étant pas ancrées dans un des théorèmes statistiques de la méthode, il existe tout un pan de la recherche qui s'intéresse à la façon la plus efficace d'effectuer ce matching, autant en termes de temps qu'en termes de qualité.
Références
Causal Inference in Statistics par Judea Pearl et al. : https://web.cs.ucla.edu/~kaoru/primer-complete-2019.pdf
Reconciling Causality and Statistics par Pirmin Lemberger et al. : https://arxiv.org/pdf/2007.03940.pdf
Methods for Causal Inference : https://onedrive.live.com/View.aspx?resid=FB9A18AE325D3EFB!5374&wdSlideId=1727&wdModeSwitchTime=1689061871668&authkey=!APDx8SBOro95IR8
Dowhy: An end-to-end library for causal inference : https://fr.slideshare.net/AmitSharma315/dowhy-an-endtoend-library-for-causal-inference