Il est l’un des pères fondateurs de l’intelligence artificielle moderne. Dès les années 1990, Yann Le Cun a contribué à poser les bases des réseaux de neurones convolutifs – ces architectures inspirées du cortex visuel animal qui ont révolutionné la reconnaissance d’images – au sein des légendaires Bell Labs, ce qui lui a valu le prix Turing en 2018 – la plus haute distinction en informatique. Après avoir fondé et dirigé Fair, le principal laboratoire de recherche fondamentale en IA de Meta, il en est devenu responsable scientifique jusqu’à son départ de l’entreprise californienne, en novembre 2025. Qu’un chercheur de cette stature choisisse aujourd’hui d’implanter en France sa start-up AMI Labs est un signal fort : la démonstration que notre pays peut jouer sa partition dans une course largement dominée par les Américains et les Chinois.
À contre-courant de l’engouement pour les modèles de langage, qu’il considère comme limités, cet esprit libre met en avant ce qu’il appelle la nouvelle révolution de l’IA : celle des modèles du monde. Au cœur de cette approche se trouve une architecture dite Jepa (joint embedding predictive architecture). Au lieu de générer du texte ou des images, ces modèles apprennent à anticiper ce qui devrait se passer dans le monde en construisant des représentations internes cohérentes de la réalité. Son objectif est ambitieux : doter les machines – dont les robots humanoïdes – d’une compréhension intuitive du monde physique, proche du « bon sens », afin qu’elles puissent interagir de manière vraiment autonome avec leur environnement.
Pourquoi les modèles de langage ne suffisent pas
Le Point : Les modèles de langage comme ChatGPT, Gemini ou Claude font désormais partie de notre quotidien. Mais miser uniquement sur eux ne permettra pas de créer des robots humanoïdes vraiment intelligents. Pourquoi ?
Yann Le Cun : Parce qu’une nouvelle révolution de l’intelligence artificielle se prépare – celle des systèmes qui comprennent le monde physique. Les modèles actuels manipulent la langue, accumulent des connaissances factuelles, passent l’examen du barreau – le fameux test américain indispensable pour devenir avocat – et sont très doués pour écrire du code. Mais ils n’ont même pas une compréhension du monde physique équivalente à celle d’un chat de gouttière.
Le cerveau humain possède deux petites zones dévolues au langage : l’aire de Wernicke, où l’on comprend les mots, et l’aire de Broca, qui produit la parole. Les LLM [large language model, « grand modèle de langage »], c’est ça. Mais le substrat de la pensée – la capacité à imaginer, à planifier, à anticiper les conséquences de nos actions – se passe dans le cortex préfrontal. Nous avons cette idée fausse que le langage est la base de l’intelligence. Les animaux pensent très bien sans parler. Les LLM ne raisonnent pas, ils prédisent le mot suivant de manière autorégressive, c’est-à-dire en calculant statistiquement la suite logique des mots précédents, un par un, sans aucun plan d’ensemble. Si l’on veut des robots domestiques ou industriels, il faut arrêter de se focaliser sur le langage et s’attaquer au monde réel. On n’arrivera jamais à l’intelligence de niveau humain simplement en entraînant des machines sur du texte.
L'apprentissage par l'expérience visuelle
Pour l’illustrer, vous comparez l’apprentissage d’une IA à celui d’un enfant…
C’est une question de données. Un nerf optique humain transmet environ 2 mégaoctets par seconde. Un enfant de 4 ans, éveillé environ 16 000 heures, a reçu quelque 10^14 octets de données visuelles. Or les plus gros LLM actuels, comme Llama 3, entraînés sur des dizaines de milliers de milliards de tokens – ces fragments de mots ou syllabes qui servent d’unité de base à l’IA –, représentent exactement le même volume. Un LLM a besoin de lire toute la littérature de l’humanité pour paraître intelligent, alors qu’un enfant de 4 ans, avec le même volume de données perçues visuellement, a déjà compris la physique, la gravité et comment interagir avec le monde. On n’arrivera jamais à l’intelligence de niveau humain simplement en entraînant des machines sur du texte.
La robotique humanoïde : un débat ouvert
Pourquoi cette obsession de donner aux robots une forme humaine ?
C’est un vrai débat. Pour beaucoup de tâches industrielles, un système anatomiquement spécialisé serait moins cher et plus efficace. Mais le meilleur argument en faveur de l’humanoïde, c’est que nous vivons dans un monde de bipèdes. Nos maisons, nos usines ont été conçues par et pour des humains. Prenez un simple escalier : l’humanoïde résout d’emblée la question de l’adaptation de l’environnement au robot. Plutôt que de repenser toute notre infrastructure pour des machines à roues, on peut espérer qu’une plateforme générale humanoïde soit un jour utile partout.
Pourtant, on voit certains humanoïdes multiplier les saltos ou les exercices de kung-fu. N’est-ce pas la preuve que la robotique avance vite ?
Ces démonstrations sont sympas, mais c’est un trompe-l’œil. Pour faire faire un salto à un robot, vous précalculez toutes les trajectoires avec des techniques de commande optimale classiques – exactement celles qu’utilisait la Nasa dans les années 1960 pour planifier la trajectoire d’une fusée. En revanche, demandez à ce même robot de débarrasser une table ou de remplir un lave-vaisselle : il en est complètement incapable. Modéliser l’interaction d’une main avec un objet imprévisible, c’est infiniment plus difficile.
L'apprentissage par imitation : une limite
Beaucoup de start-up misent sur l’apprentissage par imitation pour contourner ce problème. Est-ce la bonne voie ?
À court terme, c’est l’approche la plus efficace. De brillants chercheurs y travaillent : Pieter Abbeel à Berkeley, Sergey Levine et Chelsea Finn à Berkeley et Stanford avec leur initiative physical intelligence, l’entreprise Skild AI issue de Carnegie Mellon, ou encore la start-up UMA à Paris, cofondée par mon ancien étudiant Pierre Sermanet. Leur objectif commun : rendre les machines capables d’apprendre directement à partir de l’expérience humaine, en collectant massivement des données de téléopération – des situations où des humains contrôlent des robots à distance pendant que chaque geste est enregistré avec précision.
Mais cette méthode a une limite stricte : elle fonctionne tant que la situation reste proche de celles vues pendant l’entraînement. Si quelque chose change – un objet déplacé, un imprévu –, le robot est perdu. C’est le même mur que rencontre la voiture autonome depuis dix ans. Pour le franchir, il faut que la machine possède un world model – une représentation interne structurée de son environnement – qui lui permette non seulement de réagir, mais de comprendre, d’anticiper et de s’adapter à des situations nouvelles.
L'approche Jepa : comprendre l'essentiel
C’est justement sur ce « modèle du monde » que vous travaillez…
Oui. Il existe aujourd’hui deux grandes approches. La première, celle des modèles génératifs – Sora d’OpenAI, les travaux de DeepMind ou de Fei-Fei Li à Stanford –, vise à prédire le futur pixel par pixel. C’est impressionnant pour créer des images ou des vidéos réalistes, mais cette approche atteint vite ses limites dès qu’il s’agit de comprendre et d’agir dans le monde.
Imaginez conduire sur une route bordée d’arbres un jour de grand vent : des milliers de feuilles bougent de manière imprévisible. Allez-vous demander à votre cerveau de prédire le mouvement exact de chaque feuille ? Ce serait non seulement impossible, mais inutile pour décider de ralentir ou de tourner. En cherchant à tout prédire, y compris les détails insignifiants, ces modèles diluent leur capacité à capturer ce qui compte vraiment.
L’approche Jepa prend le problème à l’envers : le système apprend à transformer la réalité en une représentation abstraite, un résumé intelligent du monde, en éliminant ce qui est superflu. Quand on apprend à faire de la voile, on se construit un modèle mental du flux d’air sur la voile – on comprend intuitivement comment le vent pousse, comment orienter la voile – sans simuler la mécanique des fluides molécule par molécule. C’est exactement cette différence entre « tout simuler » et « comprendre l’essentiel » qui sépare les deux approches.
Les tests de sens commun
Vous venez de soumettre des résultats à la revue scientifique PNAS, avec votre ancien étudiant Quentin Garrido et le chercheur Laurent Najman. Comment prouve-t-on qu’une machine a acquis une forme de sens commun ?
Nous avons entraîné notre modèle, V-Jepa 2, sur une quantité massive de vidéos – l’équivalent de ce qu’un humain verrait en environ cent ans d’expérience visuelle continue. Grâce à la puissance de calcul moderne, cela ne prend que quelques semaines avec environ un millier de GPU, ces processeurs spécialisés dans le traitement simultané de milliers d’opérations, bien loin des ressources colossales exigées par les modèles de langage. Pendant l’entraînement, on masque certaines parties de l’action dans la vidéo et le modèle doit prédire ce qui manque.
Ensuite vient le test : mesurer sa capacité à être « surpris » par le monde. On lui montre une vidéo où les lois de la physique sont violées – une balle lancée qui s’arrête net en l’air. À cet instant, l’erreur de prédiction explose : selon sa compréhension du monde, cette situation est impossible. C’est exactement la méthode des psychologues cognitifs pour tester les bébés : si vous faites léviter une petite voiture devant un enfant de 10 mois, il va écarquiller les yeux, car son modèle mental des lois physiques vient d’être violé.
C’est la première fois qu’une IA acquiert une telle forme de physique intuitive. Elle ne connaît pas les équations de Newton, mais elle « ressent » quand quelque chose est physiquement incohérent. Dans nos travaux les plus récents, le modèle va encore plus loin : il observe une vidéo et déduit quelle action a eu lieu – reconnaître qu’un objet a été poussé, lancé ou attrapé – sans qu’on lui fournisse explicitement cette information. Il commence à relier perception et action. Ce que nous construisons, c’est ni plus ni moins que le cortex préfrontal des machines.
Applications industrielles et indépendance
Que pouvez-vous apporter à l’industrie dès aujourd’hui ?
De grands acteurs ont déjà manifesté leur intérêt : Dassault, CMA CGM, Toyota, le groupe Mulliez. Pour garantir notre indépendance, nous avons tenu à ce que notre levée de fonds soit dominée par des capitaux européens et asiatiques, sans aucun financement de la Silicon Valley.
Prenez un Airbus A380 : cet avion embarque environ 25 000 capteurs mesurant en continu température, pression et vibrations, jusqu’à 5 000 fois par seconde. Le problème aujourd’hui n’est pas le manque de données, c’est notre incapacité à les comprendre dans leur globalité. D’ici un an et demi, nous voulons offrir à l’industrie un modèle prédictif capable, à partir de ces flux massifs, de planifier la maintenance en anticipant les pannes, d’optimiser les vibrations, de réduire les émissions de CO₂ d’un moteur en ajustant son fonctionnement en temps réel, ou encore de guider un technicien via des lunettes connectées. L’IA appliquée au monde réel est un marché infini. Et cette approche commence déjà à transformer la recherche scientifique – de François Charton, qui l’applique à la découverte de structures mathématiques, aux astrophysiciens comme Shirley Ho au Flatiron Institute, en passant par les mathématiciens Tim Gowers et Terence Tao.
IA et emploi : une vision optimiste
Certains, comme Dario Amodei d’Anthropic, redoutent que l’IA ne provoque un chômage de masse. Qu’en pensez-vous ?
C’est une absurdité anti-historique. Écoutez les véritables économistes qui étudient l’impact des révolutions technologiques – Philippe Aghion en France, David Autor au MIT : aucun d’entre eux ne prédit un chômage de masse. Certains métiers vont évoluer, bien sûr, mais l’IA va avant tout amplifier l’intelligence humaine. Ces systèmes agiront comme notre « staff » dévoué, sous notre contrôle.
Le discours catastrophiste de la Silicon Valley
Elon Musk reproche à Sam Altman d’avoir trahi l’ambition de départ d’OpenAI. Pourtant tous deux semblent terrorisés par l’arrivée imminente d’une superintelligence…
Ce discours catastrophiste, c’est du bullshit ! Du marketing pour faire peur aux gouvernements et les pousser à verrouiller le marché en interdisant l’open source. Au niveau technique, ils ont raison sur un point : leurs modèles de langage ne sont pas intrinsèquement sécurisés. Comme ils se contentent de prédire le mot suivant sans modèle mental, ils hallucinent et sont peu contrôlables.
L’architecture Jepa, elle, est pilotée par des objectifs. Le modèle simule les conséquences de ses actions avant d’agir. Vous pouvez lui assigner un garde-fou de bas niveau : « Si tu as un couteau à la main pour cuisiner, ne fais pas de grands gestes s’il y a un humain autour. » Puisqu’il anticipe, le système ne pourra mathématiquement pas valider une action qui violerait cet objectif de sécurité. C’est l’antithèse des LLM.
L'open source comme garant de liberté
Vous estimez que la Silicon Valley ne va pas dans la bonne direction…
Historiquement plutôt progressiste, la Silicon Valley a basculé – en partie par pur pragmatisme : ces capitaines d’industrie savent très bien que l’administration Trump pourrait compliquer leur tâche sur le plan légal ou régulatoire. Je suis extrêmement heureux de ne pas être dans leur position et de garder ma liberté de parole.
Le vrai danger, c’est que l’industrie américaine se ferme sur l’open source pendant que les Chinois adoptent une approche totalement ouverte – et que leurs modèles dominent déjà cet espace. Demain, nous interagirons tous avec le monde numérique via des assistants IA logés dans des lunettes connectées ou des bracelets bioélectriques. Si les seuls cerveaux disponibles appartiennent à une poignée d’entreprises américaines fermées ou à des géants chinois, c’est dramatique pour la diversité démocratique et culturelle. L’open source, que nous défendons depuis l’Europe, est le seul garant de cette liberté.



