Amphi 1 - SESSION 3.1 - 13/02/2020 17:00 > 17:30

Bordeaux population health

Classification automatique du langage de donnÃ©es du service hospitalier des urgences

Résumé

1.Introduction

Lors de chaque visite aux urgences, le personnel crÃ©e une fiche sur le patient comprenant des donnÃ©es catÃ©gorielles, telles que le sexe et l'Ã¢ge, mais aussi du texte libre qui sont les notes cliniques liÃ©es Ã son Ã©tat (anamnÃ¨ses). Ce texte est actuellement traitÃ© manuellement ce qui implique des coÃ»ts en temps de personnel hospitalier trÃ¨s important. L'automatisation du traitement devrait permettre d'une part, la rÃ©duction de ce coÃ»t et, d'autre part, le dÃ©veloppement d'outils de surveillance. C'est l'objectif du projet TARPON (Traitement Automatique des RÃ©sumÃ©s de Passages aux urgences pour un Observatoire National) en dÃ©veloppement Ã l'INSERM et le Service des urgences du CHU de Bordeaux, par le biais des derniers outils d'apprentissage profond, supervisÃ©s et non supervisÃ©s, appliquÃ©s Ã l'analyse automatique du langage. Le premier travail qui porte sur l'application du GPT-2 dÃ©voilÃ© en fÃ©vrier 2019 par l'Ã©quipe d'OpenAI.

2.MÃ©thodologie

Deux scÃ©narios sont comparÃ©s. Le premier consiste en un entrainement non-supervisÃ© sur 151 930 donnÃ©es non labÃ©lisÃ©es puis complÃ©tÃ© avec un entrainement supervisÃ© sur 10 000 donnÃ©es labÃ©lisÃ©es. Le second consiste en un entrainement supervisÃ© sur 161 930 donnÃ©es labÃ©lisÃ©es. La comparaison repose sur l'AUC et le F1 score, appliquÃ©s sur le mÃªme jeu de donnÃ©es test pour les deux scÃ©narios.

3. OriginalitÃ©/Perspective

L'Application d'un modÃ¨le rÃ©cent de NLP Ã des donnÃ©es textuelles en franÃ§ais des urgences (jargon et abrÃ©viations cliniques, inclus) est originale. Tout comme dans les succÃ¨s montrÃ©s dans d'autres domaines, les coÃ»ts liÃ©s Ã l'annotation des donnÃ©es sont radicalement rÃ©duits tout en garantissant des rÃ©sultats comparables Ã du entiÃ¨rement supervisÃ©. L'Ã©tude des anamnÃ¨ses mal classÃ©es, leur provenance, ainsi que d'optimisations diverses devraient permettre l'amÃ©lioration du modÃ¨le. Dans une deuxiÃ¨me phase du projet, il est prÃ©vu de s'attaquer Ã une classification multimodale permettant de dÃ©crire d'ensemble des mÃ©canismes traumatiques dans l'objectif de construire un observatoire national de traumatologie.

RÃ©fÃ©rences :

- Binbin Xu, CÃ©dric Gil-JardinÃ©, Frantz Thiessard, Eric Tellier, Marta Avalos, Emmanuel Lagarde. Neural Language Model for Automated Classification of Electronic Medical Records at the Emergency Room. The Significant Benefit of Unsupervised Generative Pre-training. https://arxiv.org/abs/1909.01136
- Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Voir aussi : https://openai.com/blog/better-language-models/

Télécharger le résume PDF

A propos - Bordeaux population health

Le Centre de Recherche Inserm-UniversitÃ© de Bordeaux U1219 Â« Bordeaux population health Â» dirigÃ© par le professeur Christophe TZOURIO est organisÃ© autour de 11 Ã©quipes de recherche labellisÃ©es, et de 2 Ã©quipes en Ã©mergence.
Les travaux de ces chercheurs couvrent un large champ de pathologies (maladies infectieuses dont le VIH, neurologie, cancÃ©rologie, traumatologie, santÃ© mentale), d'expositions (facteurs sociaux, environnementaux, nutritionnels, mÃ©dicaments, gÃ©nÃ©tiques), de mÃ©thodes (biostatistique, psychologie) et de populations (jeunes, adultes, personnes Ã¢gÃ©es, population gÃ©nÃ©rale, Ã©chantillons de malades).

www.bordeaux-population-health.center

A propos de l'orateur

LoÃ¯ck Bourdois

Data Scientist

www.bordeaux-population-health.center