Rencontre avec Juan Luis Gastaldi

Actuellement, Juan Luis Gastaldi interroge les aspects épistémologiques de la tokenisation, une étape clé des pipelines de traitement automatique du langage (TAL) ou Natural Language Processing (NLP). Conformément aux thèmes de Revue3.0, Gastaldi s’intéresse à ce que les algorithmes de TAL peuvent nous apprendre sur la nature du langage lui-même. Selon son hypothèse, ces algorithmes révèlent des structures formelles du langage à travers leur fonctionnement. Comprendre ces structures permet d’appréhender un aspect fondamental de la notion de langage tel que modélisé par ces algorithmes.

Introduction et contexte de l’analyse

L’exploration de cette question de recherche doit se fonder sur un certain nombre

de prémisses théoriques et techniques :

1. Une distinction claire doit être faite entre tout ce qui concerne la modélisation du langage incarnée par les LLMs et les interfaces des chatbots, qui ne font en aucun cas partie de cette modélisation.

2. Une distinction claire doit être établie entre les modèles linguistiques, qui constituent des représentations matricielles de la langue, et les fonctions responsables de leur entraînement.

3. Les LLMs sont de nature formelle. Il ne s’agit pas d’objets empiriques. Leur portée épistémologique ne peut être comprise qu’à travers une approche formelle, et non par une démarche expérimentale.

4. Les LLMs sont des modèles statistiques. Un modèle statistique est une fonction qui génère une distribution probabiliste sur un ensemble de données. Par leur nature, les modèles statistiques sont intrinsèquement probabilistes, donc stochastiques.

5. Le corpus de référence constitue la seule composante matérielle des systèmes LLMs. Dans ce contexte, un corpus est en effet un espace matériel déterminé, aux contours fixes, qui peut être parcouru au moyen de fonctions spécifiques.

6. Aujourd’hui, l’entraînement et l’évaluation des LLMs reposent principalement sur une approche statistique dite « d’entropie maximale ». Dans ce cadre, l’entraînement des LLMs est réalisé sur un faible pourcentage du corpus, tandis que leur évaluation est effectuée sur un autre faible pourcentage du même corpus. Dans ce contexte, le corpus, bien que de nature matérielle, est désormais considéré comme un objet statistique.

Induction vs. déduction

Pour Chomsky, une grammaire représente un sous-ensemble de toutes les expressions possibles. Les grammaires sont donc toujours déduites à partir de cet ensemble, et non induites. Les LLMs semblent contredire cette hypothèse, car ils sont de nature statistique, donc inductifs et stochastiques.

Cependant, selon l’hypothèse de Gastaldi, la modélisation incarnée par les LLMs révèle la présence d’une cohérence structurelle macroscopique liée au langage en général, indépendante des grammaires individuelles. Cet élément macroscopique pourrait être rapproché de la notion chomskyenne de grammaire hors contexte, mais selon Gastaldi, il serait plus pertinent de l’identifier à un système de types, au sens où ce terme est utilisé en programmation. Plus généralement, la démarche de Gastaldi examine comment les LLMs nous permettent d’observer la structure implicite du langage en général.

Pour mener cette analyse, Gastaldi examine la notion de token, qui, dans le contexte des LLMs, est l’unité fondamentale du langage.

Unités linguistique

Un token est une séquence de caractères apparaissant souvent ensemble dans un corpus. Les tokens sont donc induits à partir d’un ensemble de caractères.

La tokenisation soulève une question fondamentale : qu’est-ce qu’une unité linguistique, ou la plus petite unité de la langue ?

La tradition philosophique occidentale propose deux réponses à cette question :

1. L’unité linguistique existe si et seulement si elle a une référence dans le monde empirique. Si le structuralisme rejette cette hypothèse, les LLMs, en tant qu’objets formels, sont une évidence que cette perspective référentielle n’est pas suffisante pour définir une unité linguistique.

2. Selon l’approche structuraliste, les unités linguistiques sont des éléments qui s’actualisent au sein d’un système de relations, c’est-à-dire au sein d’une structure précise. Elles dépendent de la structure dont elles émergent. Dans ce contexte, l’intervention de Markus Reisenleitner invite à réfléchir sur la place accordée à la matérialité écrite et acoustique du phonème. Selon Gastaldi, les éléments matériels d’une langue déterminent l’évolution de sa structure formelle au fil du temps.

La recherche la plus récente de Gastaldi

À la lumière de ces perspectives, les travaux récents de Gastaldi cherchent à mettre en évidence la structure implicite des LLMs, en les analysant sous le prisme de l’algèbre linéaire. Son étude s’appuie sur une analyse formelle des plongements de mot ou word embeddings, une technique centrale au fonctionnement des LLMs actuels. Les plongements de mots (word embeddings) sont des vecteurs denses générés par un processus de vectorisation. La vectorisation repose fondamentalement sur le comptage des mots en contexte à partir d’un grand volume de données et produit une représentation de chaque mot dans un espace continu. La vectorisation performe ainsi une factorisation implicite d’une matrice contenant des informations sur l’utilisation des mots dans le langage.

Après cette factorisation implicite, il convient de réduire l’espace de représentation des données. La méthode optimale pour cette réduction consiste à organiser les données en fonction de leurs similarités internes. Par la suite, il est nécessaire de réduire davantage cet espace en diminuant les dimensions qui le composent. Pour ce faire, un changement de base est effectué, donnant lieu à des eigenvectors, qui représentent une organisation optimale de l’espace autour de directionnalités vectorielles.

Grâce à une analyse compositionnelle, il est possible d’observer des points qui restent fixes dans l’espace des eigenvectors et qui correspondent à la définition formelle de types computationnels. L’identification de ces types structurels converge avec la conception structuraliste du langage, selon laquelle celui-ci est défini comme paradigmatique, sémiotique et hiérarchique.

Pour connaître les détails sur ces analyses, nous renvoyons aux publications les plus récentes de Juan Luis Gastaldi, disponibles sur son site officiel (https://[www.giannigastaldi.com/](http://www.giannigastaldi.com/)), et plus particulièrement à son article intitulé _The Structure of Meaning in Language: Parallel Narratives in Linear Algebra and

Category Theory_ (2024).