BERT et autres Transformers pour dÃ©crypter un CV

1. Introduction

HelloWork (ex Jobijoba) utilise l'intelligence artificielle pour faciliter la mise en relation entre les candidats et les recruteurs. Avec CV Catcher, notre module de parsing de CVs, il s'agit par exemple d'extraire l'explicite et l'implicite contenu dans le texte des profils reÃ§us. Une maniÃ¨re d'extraire l'explicite peut consister en une solution de recherche d'entitÃ©s nommÃ©es, pour reconnaÃ®tre les Ã©lÃ©ments clÃ©s d'un CV : nom, prÃ©nom, mÃ©tiers, lieux, diplÃ´mes, etc. L'Ã©tat de l'art en NLP Ã©volue trÃ¨s rapidement, et derniÃ¨rement la littÃ©rature sur le NER implique souvent une variation autour des modÃ¨les de type Transformer, prÃ©-entraÃ®nÃ©s sur de larges corpus de texte. Comment appliquer ces mÃ©thodes Ã de l'analyse de CVs ?

2. MÃ©thodologie

Une fois que l'on dÃ©finit l'analyse du CV comme une tÃ¢che de NER et que l'on dispose d'un dataset orientÃ© emploi, il reste plusieurs points Ã dÃ©velopper pour adapter les mÃ©canismes gÃ©nÃ©raux Ã notre cas d'usage. Qu'apportent les systÃ¨mes s'appuyant sur des reprÃ©sentations de type word embeddings ? Quelles catÃ©gories de modÃ¨les sont possibles pour ce problÃ¨me ? Comment les intÃ©grer Ã notre pipeline d'apprentissage et de traitement des CVs ? Nous avons rÃ©alisÃ© une comparaison des performances de plusieurs modÃ¨les prÃ©-entraÃ®nÃ©s, Ã commencer par BERT, l'un des premiers Ã Ãªtre dÃ©mocratisÃ©. Il s'agit de rÃ©flÃ©chir au compromis entre qualitÃ© d'extraction des entitÃ©s et temps passÃ© sur l'entraÃ®nement et/ou l'infÃ©rence.

3. OriginalitÃ© / perspective

A notre connaissance, il existe de nombreux exemples d'utilisation de modÃ¨les type BERT ou assimilÃ©s pour des problÃ¨mes de classification de sÃ©quences (classification de documents, sentiment analysis), de questions-rÃ©ponses, ou encore de traduction, mais moins pour des travaux au niveau du token (Ã l'exception du part-of-speech tagging). De plus, nous proposons une vue d'ensemble des modÃ¨les applicables au franÃ§ais.

RÃ©fÃ©rences

â¢ Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
â¢ Sanh, V., Debut, L., Chaumond, J. & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and
lighter.. CoRR, abs/1910.01108. â¢ Martin, L., Muller, B., SuÃ¡rez, P. J. O., Dupont, Y., Romary, L., de la Clergerie, Ã. V., Seddah, D. & Sagot, B. (2020). CamemBERT: a Tasty French Language Model. ACL.

Télécharger les slides

Revoir le live :

Justine Bel-LÃ©toile

Lead data scientist

www.hellowork.com

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}