26/07/27 Le piège des Grands Modèles de Langage (Large Language Models LLM): répéter comme des perroquets

Les Grands Modèles de Langage LLM sont considérés comme des apports de l’Intelligence Artificielle (IA) essentiels à la diffusion des connaissances. Le modèle le plus souvent cité est ChatGPT. Il utilise les innombrables textes désormais contenus sur Internet pour élaborer un modèle statistique du langage humain. Cela lui permet de prédire quels mots succéderont probablement à un autre dans une phrase donnée.

Concrètement, ChatGPT est dit réseau neuronal transformer-based. Comme les autres, il utilise l’IA générative (et plus précisément le Deep Learning) pour le traitement du langage naturel (NLP) et la génération de langage naturel (NLG).

L’objectif des Large Language Models étant d’apprendre la complexité du langage humain, ils sont pré-entraînés sur une grande quantité de données (textes, images, vidéos, discours et autres contenus structurées…). Plus un LLM utilise de paramètres, meilleures sont ses performances. À ce titre, les grands modèles linguistiques nécessitent des ressources importantes en termes de données, de calcul et d’ingénierie.

C’est le cas en particulier lors de la phase de pré-entraînement. À ce stade, les LLM doivent apprendre les tâches et fonctions linguistiques de base. Dès lors que le modèle d’apprentissage est pré-entraîné, il peut être alimenté avec de nouvelles données spécifiques. L’objectif est d’affiner ses capacités pour des cas d’utilisation particuliers. On parle alors de méthode fine tuning. Cette phase de l’apprentissage nécessite moins de données et d’énergie.

Ceci paraît satisfaisant. Mais à terme il en résulte qu’Internet est inondé, non de textes résultant d’un travail original, mais de textes reproduisant les contenus de travaux précédents. Il y a plus grave. Zakhar Shumaylov et une équipe de l’Université d’Oxford ont montré (références et abstract ci-dessous), que ce processus finit par aboutir à des contenus soit erronés, soit simplistes, soit déconnectés de la réalité.

Ceci pourrait s’expliquer aisément.

Chacun a pu constater par exemple que quand ChatGPT utilise les contenus d’autres LLM, il se limite en général à reprendre ceux qu’il rencontre le plus fréquemment. Il ne cherche pas à actualiser les contenus ni a corriger les erreurs. On a parlé d’effondrement du modèle (model collapse).

On retrouve là un processus qui est la plaie des médias d’information, presse et télévision. Pour gagner du temps, chacun se limite à reproduire sans valeur ajouté ce qu’ont déjà publié les médias précédents;

Référence

The Curse of Recursion: Training on Generated Data Makes Models Forget

Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.

Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2305.17493 [cs.LG]
	(or arXiv:2305.17493v2 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2305.17493 Focus to learn more

The Curse of Recursion: Training on Generated Data Makes Models Forget

Partager :

Similaire

Laisser un commentaire Annuler la réponse.