Chaque semaine, une nouvelle IA promet de parler mieux, écrire plus vite, coder plus proprement et réfléchir plus loin. ChatGPT, Claude et Gemini donnent parfois le vertige. Ils réussissent des examens, résument des dossiers complexes et bluffent des millions d’utilisateurs. Pourtant, derrière cette performance, une question continue de hanter les chercheurs les plus sérieux : est-ce que ces machines comprennent vraiment le monde, ou jouent-elles seulement très bien avec les mots ? Cette fracture, Yann LeCun l’expose clairement dans son entretien à MIT Technology Review, où il défend une autre voie pour l’avenir de l’intelligence artificielle. Et cette voie pourrait bien faire trembler tout l’édifice construit autour des LLM.
Pourquoi les LLM fascinent… sans forcément comprendre
Le malentendu commence ici. Un modèle de langage produit souvent des réponses brillantes. Il cite Newton, explique une décision juridique, reformule un texte technique et improvise même un poème crédible. Alors, forcément, beaucoup y voient une forme d’intelligence générale. Mais cette impression peut tromper. Comme le rappelle le LINC de la CNIL dans son analyse sur le passage des language models aux world models, un LLM apprend avant tout à prolonger des séquences de langage. Il manipule des représentations. Il ne touche pas directement aux objets, aux forces, aux contraintes physiques ni aux conséquences réelles d’une action.
Autrement dit, si vous demandez à une IA générative ce qui arrive à une tasse posée au bord d’une table, elle peut vous donner une réponse très convaincante. Elle connaît les mots, les formules, les tournures. En revanche, cela ne prouve pas qu’elle “voit” la chute ou qu’elle simule vraiment l’équilibre. C’est justement là que le discours change. Car plus les outils progressent, plus certains chercheurs insistent sur une limite simple : parler du monde ne veut pas dire le comprendre.
Le paradoxe de Moravec : le grain de sable qui dérange toute l’industrie
Pour saisir ce débat, il faut passer par une vieille idée restée incroyablement actuelle : le paradoxe de Moravec. Des textes de vulgarisation comme cette synthèse sur les tâches intellectuelles et physiques en IA rappellent une chose troublante : les tâches qui nous semblent “nobles”, comme le calcul formel ou certains jeux abstraits, sont souvent plus faciles à automatiser que les gestes qui paraissent naturels à un enfant. Reconnaître une trajectoire, anticiper un déséquilibre, comprendre qu’un ballon qui roule vers la route peut annoncer l’arrivée d’un enfant, voilà le genre de choses que les machines gèrent mal dès qu’elles doivent sortir du simple texte.
Et c’est là que le sujet devient explosif. Pendant que le grand public applaudit des chatbots capables de disserter sur tout, les laboratoires savent très bien que l’intuition physique, la causalité et l’anticipation restent des terrains fragiles. Cette tension ne date pas d’hier. Mais aujourd’hui, avec la course mondiale aux LLM, elle revient au centre. En clair, plus les machines parlent bien, plus on risque d’oublier ce qu’elles ne savent toujours pas faire.
Pourquoi Yann LeCun refuse la foi dans le “toujours plus gros”
Yann LeCun n’est pas un commentateur périphérique. C’est l’un des grands noms de l’IA moderne, lauréat du prix Turing, et l’une des figures associées à la relance du deep learning. Sur sa page personnelle officielle, on retrouve ses travaux, ses conférences et les annonces autour de ses projets récents. Dès 2023, Meta présentait I-JEPA comme le premier modèle aligné avec sa vision d’une IA plus proche du fonctionnement humain, capable d’apprendre des représentations abstraites plutôt que de reconstruire chaque détail.
Son idée tient en une phrase : l’intelligence ne se réduit pas à la maîtrise du langage. Elle repose aussi sur la capacité à prévoir des conséquences. Si je pousse, si je lâche, si je tourne, que va-t-il se passer ? Dans cet entretien de janvier 2026, il critique l’obsession industrielle pour les très grands modèles de langage et défend au contraire des systèmes capables de refléter les dynamiques du monde réel. Le message est frontal. Selon lui, empiler les paramètres ne suffira pas à produire une intelligence robuste. Et c’est précisément cette ligne de fracture qui met le feu au débat.
Les world models et JEPA : le cœur du pari
À première vue, les mots font peur. World models. JEPA. Joint Embedding Predictive Architecture. Pourtant, l’idée de fond se raconte assez simplement. Au lieu de prédire le prochain mot ou le prochain pixel, le système essaie d’apprendre une représentation plus abstraite de la scène. Ensuite, il anticipe comment cette représentation va évoluer. En 2023, Meta expliquait déjà avec I-JEPA que cette approche pousse le modèle à se concentrer sur des éléments sémantiques plutôt que sur le simple détail visuel.
Le pas suivant apparaît en 2026 avec LeWorldModel, un papier qui présente une architecture stable de bout en bout à partir des pixels. Des commentaires techniques comme cette analyse sur JEPA face aux LLM résument bien le changement : au lieu de reconstruire le monde image par image, le modèle cherche la structure utile pour l’action. Dit autrement, il ne s’épuise plus à copier chaque feuille d’arbre ou chaque reflet sur une flaque. Il tente d’isoler ce qui compte vraiment pour la décision. Et là, on bascule peu à peu de la génération vers l’anticipation.
Comment cette idée est née, et qui l’a vraiment mise sur la table
Le récit mérite d’être posé clairement. D’abord, Yann LeCun formule depuis plusieurs années une critique persistante des LLM fermés et surdimensionnés. Ensuite, Meta met en avant I-JEPA en juin 2023 comme première incarnation concrète de cette philosophie. Puis le débat prend une tournure industrielle quand LeCun lance AMI Labs, une structure qui veut miser sur les world models plutôt que sur la simple inflation des chatbots. Le tournant devient public avec l’enquête de MIT Technology Review, qui décrit cette initiative comme un pari à contre-courant de l’industrie dominante.
En parallèle, des institutions plus prudentes commencent elles aussi à documenter le sujet. La CNIL via le LINC explique que les world models marquent un changement de paradigme : ils ne cherchent plus seulement à reproduire le langage humain, mais à modéliser le monde physique avec des données multimodales, dynamiques, spatiales. Ce glissement compte beaucoup. Il montre que l’idée a quitté le cercle des intuitions théoriques. Elle entre désormais dans les discussions publiques, économiques et réglementaires.
Ce qui est établi, ce qui reste flou, et ce qui relève encore du pari
Commençons par ce qui tient solidement debout. Oui, les LLM ont transformé la génération de texte et certains usages cognitifs. Oui, le paradoxe de Moravec reste une grille de lecture puissante pour comprendre leurs limites. Oui, Yann LeCun défend depuis des années l’idée que l’IA doit construire un modèle du monde si elle veut devenir réellement autonome. Et oui, des travaux publics comme I-JEPA et LeWorldModel montrent qu’il ne s’agit plus d’un simple slogan.
Maintenant, il faut calmer les emballements. Non, cela ne prouve pas qu’une AGI générale et stable arrive demain. Non, un prototype léger ne remplace pas du jour au lendemain toute l’infrastructure bâtie autour des grands modèles. Et non, personne ne peut garantir aujourd’hui que les world models deviendront le standard mondial. Même la suite de l’analyse du LINC rappelle que ces systèmes posent aussi des questions de données, de risques et de gouvernance. Le sujet est donc sérieux, mais il reste en chantier. C’est justement ce qui le rend fascinant.
Ce que cette bascule pourrait changer si elle se confirme
Si cette vision avance vraiment, l’IA sortira peu à peu du simple dialogue textuel. Elle jouera un rôle plus direct dans la robotique, les systèmes autonomes, la planification, l’assistance en environnement complexe et peut-être même dans des outils qui devront comprendre la matière, l’espace et le risque. Le LINC insiste d’ailleurs sur ce point : un moteur de world model configurable pourrait partager sa compréhension du monde entre plusieurs tâches, au lieu de cloisonner des compétences dispersées. Ce n’est plus seulement une histoire de chatbot qui parle bien. C’est une question de machine qui anticipe.
Alors, la vraie question n’est peut-être pas de savoir quel modèle écrit le plus beau texte. Elle est ailleurs. Qui décidera du prochain moteur de l’intelligence artificielle ? Ceux qui empilent les centres de calcul et vendent l’illusion d’une compréhension totale, ou ceux qui tentent de reconnecter les machines à la physique, à la causalité et au réel ? Pour l’instant, rien n’est joué. Mais une chose devient difficile à ignorer : sous le vernis spectaculaire des LLM, une autre bataille est déjà en cours. Et cette fois, elle ne porte pas seulement sur les mots. Elle porte sur la façon même dont une machine peut, ou non, habiter le monde.




