SESSION 3.1 - Amphi 1 - 13/02/2020 17:00 > 17:30
Amphi 1 - SESSION 3.1 - 13/02/2020 17:00 > 17:30

Bordeaux population health


Classification automatique du langage de données du service hospitalier des urgences



Résumé



Bordeaux population health

1.Introduction

Lors de chaque visite aux urgences, le personnel crée une fiche sur le patient comprenant des données catégorielles, telles que le sexe et l'âge, mais aussi du texte libre qui sont les notes cliniques liées à son état (anamnèses). Ce texte est actuellement traité manuellement ce qui implique des coûts en temps de personnel hospitalier très important. L'automatisation du traitement devrait permettre d'une part, la réduction de ce coût et, d'autre part, le développement d'outils de surveillance. C'est l'objectif du projet TARPON (Traitement Automatique des Résumés de Passages aux urgences pour un Observatoire National) en développement à l'INSERM et le Service des urgences du CHU de Bordeaux, par le biais des derniers outils d'apprentissage profond, supervisés et non supervisés, appliqués à l'analyse automatique du langage. Le premier travail qui porte sur l'application du GPT-2 dévoilé en février 2019 par l'équipe d'OpenAI.

2.Méthodologie

Deux scénarios sont comparés. Le premier consiste en un entrainement non-supervisé sur 151 930 données non labélisées puis complété avec un entrainement supervisé sur 10 000 données labélisées. Le second consiste en un entrainement supervisé sur 161 930 données labélisées. La comparaison repose sur l'AUC et le F1 score, appliqués sur le même jeu de données test pour les deux scénarios.

3. Originalité/Perspective

L'Application d'un modèle récent de NLP à des données textuelles en français des urgences (jargon et abréviations cliniques, inclus) est originale. Tout comme dans les succès montrés dans d'autres domaines, les coûts liés à l'annotation des données sont radicalement réduits tout en garantissant des résultats comparables à du entièrement supervisé. L'étude des anamnèses mal classées, leur provenance, ainsi que d'optimisations diverses devraient permettre l'amélioration du modèle. Dans une deuxième phase du projet, il est prévu de s'attaquer à une classification multimodale permettant de décrire d'ensemble des mécanismes traumatiques dans l'objectif de construire un observatoire national de traumatologie.

Références :

- Binbin Xu, Cédric Gil-Jardiné, Frantz Thiessard, Eric Tellier, Marta Avalos, Emmanuel Lagarde. Neural Language Model for Automated Classification of Electronic Medical Records at the Emergency Room. The Significant Benefit of Unsupervised Generative Pre-training. https://arxiv.org/abs/1909.01136
- Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Voir aussi : https://openai.com/blog/better-language-models/


Télécharger le résume PDF

A propos - Bordeaux population health



Bordeaux population health
Le Centre de Recherche Inserm-Université de Bordeaux U1219 « Bordeaux population health » dirigé par le professeur Christophe TZOURIO est organisé autour de 11 équipes de recherche labellisées, et de 2 équipes en émergence.
Les travaux de ces chercheurs couvrent un large champ de pathologies (maladies infectieuses dont le VIH, neurologie, cancérologie, traumatologie, santé mentale), d’expositions (facteurs sociaux, environnementaux, nutritionnels, médicaments, génétiques), de méthodes (biostatistique, psychologie) et de populations (jeunes, adultes, personnes âgées, population générale, échantillons de malades).

www.bordeaux-population-health.center


A propos de l'orateur



Loïck Bourdois
Data Scientist





S'inscrire !
Nos sponsors

{\rtf1}