Ancrer les modèles de langage dans le monde physique: défis et perspectives

Introduction

Des travaux récents ont exploité avec succès les capacités des grands modèles de langage (LLM) à capturer des connaissances abstraites sur la physique du monde pour résoudre des problèmes de prise de décision. Cependant, l'alignement entre les connaissances des LLM et l'environnement peut être erroné et limiter la compétence fonctionnelle en raison du manque d'ancrage. Dans cet article, nous étudions une approche (nommée GLAM) pour réaliser cet alignement par le biais d'un ancrage fonctionnel: nous considérons un agent utilisant un LLM comme une politique qui est progressivement mise à jour au fur et à mesure que l'agent interagit avec l'environnement, en tirant parti de l'apprentissage par renforcement en ligne (online RL) pour améliorer ses performances en vue de résoudre des problèmes.

Méthodologie

Pour réussir à ancrer un modèle de langage pré-entraîné, nous l'avons fait interagir avec un jeu textuel (l'environnement est décrit par un texte) et nous avons mis à jour ses paramètres à l'aide d'un algorithme d'apprentissage par renforcement (RL).

Originalité / perspective

Ce travail est à notre connaissance la première tentative de fine-tuning d'un modèle de langage avec du RL en vue d'améliorer son ancrage dans un environnement.

Références

lien vers le papier: https://arxiv.org/abs/2302.02662
github du papier: https://github.com/flowersteam/Grounding_LLMs_with_online_RL

Revoir le live :

Thomas CARTA

Doctorant

https://flowers.inria.fr/

S'inscrire !

Ticket

Nos sponsors

Les stands partenaires

{\rtf1}