Aujourd’hui, je m’intéresse à une tendance surprenante qui émerge dans le domaine de l’intelligence artificielle : l’évaluation des IA génératives et des grands modèles de langage (LLM) en fonction de leurs « vibes ». Oui, vous avez bien lu. Plutôt que de s’appuyer sur les critères techniques traditionnels, souvent perçus comme trop rigides, certains leaders du secteur choisissent désormais de juger l’IA selon l’impression générale qu’elle dégage.
Ce basculement vers une évaluation plus intuitive, presque instinctive, a de quoi faire sourire. Pour certains, c’est une pirouette bien rodée, destinée à faire oublier les limites encore bien réelles des modèles actuels. Pour d’autres, c’est une évolution logique dans un domaine où l’expérience utilisateur et la perception comptent parfois autant, sinon plus, que les indicateurs techniques.
Quoi qu’il en soit, cette nouvelle approche mérite qu’on s’y attarde. Plongeons ensemble dans cette curieuse montée en puissance des « vibes » dans l’univers de l’IA.
Les « vibes » s’invitent dans l’univers de l’IA
Jusqu’ici, l’évaluation des IA génératives et des grands modèles de langage (LLM) reposait sur des indicateurs bien définis. Des débats existent toujours sur les métriques les plus pertinentes, mais au moins, ces critères ont le mérite d’être quantifiables.
Certains concepteurs peuvent tenter d’optimiser artificiellement leurs résultats. Mais une fois que des tiers accèdent aux modèles, il devient difficile de tricher : ils peuvent obtenir des performances différentes et tirer la sonnette d’alarme. En fin de compte, ce sont les chiffres qui parlent.
Depuis quelques mois, une nouvelle façon d’évaluer l’intelligence artificielle s’est imposée en douceur : une approche fondée sur la perception intuitive, aussi vague que subjective. Il n’est plus rare d’entendre un créateur de LLM affirmer que son modèle « dégage de bonnes vibes », sous-entendant que, même si les indicateurs techniques les plus rigoureux ne sont pas au rendez-vous, ce n’est pas si grave – l’essentiel serait ailleurs.
Soyons clairs : ce ressenti global ne repose sur aucune mesure objective. Tout repose sur l’impression de celui qui l’éprouve. Pour les concepteurs, c’est une échappatoire parfaite : comment contredire une sensation ? Si un observateur estime que le modèle ne « vibre » pas, son créateur n’a qu’à répondre que, lui, perçoit quelque chose. Chacun son ressenti, chacun sa lecture. Et pendant que les discussions s’embourbent, le fabricant, lui, continue de vanter les bonnes ondes de son IA, imperturbable. Mais si cette approche venait à se généraliser, elle pourrait sérieusement compromettre notre capacité à évaluer de manière fiable les avancées réelles de l’IA.
L’origine de ce phénomène
C’est en grande partie Sam Altman, patron d’OpenAI, qui a lancé la tendance. Ses tweets publiés en février et mars 2025 ont donné une visibilité inédite à cette nouvelle manière d’évaluer l’intelligence artificielle : non plus à travers des chiffres, mais à travers des impressions, des ressentis… Et il n’est pas le seul ponte de l’IA à emprunter ce chemin.
Le 11 mars 2025, Sam Altman écrivait par exemple sur X :
– « Nous avons entraîné un nouveau modèle doué pour l’écriture créative (je ne sais pas encore quand ni comment il sera publié). C’est la première fois que quelque chose écrit par une IA me frappe vraiment : il a parfaitement saisi l’ambiance de la métafiction. »
Quelques semaines plus tôt, le 27 février, il posait déjà les jalons d’une autre forme de perception de l’IA, en parlant de « magie » et d’« intelligence différente » :
– « GPT-4.5 est prêt ! Bonne nouvelle : c’est le premier modèle qui me donne vraiment l’impression de parler à quelqu’un de réfléchi. Il m’est arrivé plusieurs fois de m’adosser dans mon fauteuil, stupéfait de recevoir de vrais bons conseils venant d’une IA. »
– « Petit avertissement : ce n’est pas un modèle de raisonnement et il ne va pas exploser les benchmarks. C’est une forme d’intelligence différente, avec une part de magie que je n’avais encore jamais ressentie. J’ai vraiment hâte que les gens puissent l’essayer ! »
Certains membres de la communauté IA adoptent sans réserve le terme de « vibes ». Selon eux, les critères purement quantitatifs ne suffisent pas à évaluer correctement un modèle. Après tout, on ne juge pas une personne uniquement à l’aune de sa taille, de son poids ou d’autres données chiffrées. Il y a aussi une alchimie, une impression d’ensemble, un ressenti diffus qui entre en jeu. Pourquoi ne pas appliquer cette logique à l’IA ?
Des foutaises, rétorquent les sceptiques. Établir un parallèle entre une IA et un être humain serait, au mieux, une erreur de raisonnement ; au pire, une tentative embarrassante d’anthropomorphisation. Cette mode d’une perception intuitive est un non-sens, alertent-ils, et elle doit être stoppée avant qu’elle ne se banalise dans la culture de l’IA. Car une fois installée, il sera très difficile de faire machine arrière.
Le débat fait rage entre les partisans de cette nouvelle grille de lecture et ceux qui rejettent en bloc ce qu’ils considèrent comme une dérive.
Pourquoi certains continuent-ils de défendre cette tendance ?
Après avoir échangé avec plusieurs chercheurs en IA sur ce phénomène, j’ai identifié quatre raisons principales pour lesquelles certains considèrent cette approche non seulement valable, mais aussi bénéfique.
- Les « vibes » offrent une dimension viscérale :
Lorsqu’on utilise des IA génératives, certains modèles parviennent à créer une sorte de connexion émotionnelle avec l’utilisateur. Ce lien, presque palpable, mérite d’être reconnu. D’où l’idée que les « vibes » sont un moyen logique d’exprimer cette essence. - Elles véhiculent des connotations positives :
Les vibrations humaines sont souvent associées à des sensations positives. Cette association optimiste serait un atout pour encourager l’utilisation des IA génératives modernes, qui recèlent un potentiel immense. - Elles introduisent une variabilité :
Bien que plusieurs LLM puissent être comparés de manière similaire via des mesures quantitatives classiques, les vibrations permettent de nuancer les différences subtiles entre ces modèles et de mieux les différencier. - Elles sont un terme pratique et universel :
Le mot « vibes » est simple, il est déjà ancré dans le vocabulaire de tous, et sa signification est immédiatement comprise. Créer un terme technique pour décrire cette notion risquerait de rendre les choses plus compliquées et moins accessibles.
Les raisons de rejeter cette tendance
Lors de mes échanges avec des chercheurs en IA, j’ai formulé quatre raisons majeures pour lesquelles l’idée des « vibes » devrait être rejetée :
- Elles manquent de fondement :
Peu importe que les défenseurs des « vibes » soient sincères ou cherchent à manipuler les perceptions. L’essentiel est que cette notion, utilisée comme critère d’évaluation de l’IA, est trop floue et dépourvue de consistance. - Elles renforcent la mystification de l’IA :
L’IA n’est que purement algorithmique, faite de bits et d’octets. Associer des « vibes » à l’IA revient à insinuer de manière insidieuse que l’intelligence artificielle serait mystérieuse, voire dotée de quelque forme de sensibilité. C’est un piège dangereux. - Elles cachent les lenteurs de l’IA :
Au lieu d’admettre que les récentes versions des LLM n’apportent pas réellement de progrès significatifs, il est plus facile de faire tout un bruit autour des « vibes ». C’est une distraction, qui nuit à une compréhension honnête des véritables avancées technologiques. - Elles nuisent à la comparabilité :
La nature vague des vibrations permet à des LLM récemment publiés de contourner les critères objectifs habituellement utilisés pour mesurer les progrès de l’IA. Si cette tendance se poursuit, on finira par comparer les IA génératives uniquement sur la base des « vibes », réduites à un débat d’opinions sans réelle valeur.
Faire des « vibes » une réalité
Pour être honnête, il semble peu probable que l’on parvienne à stopper l’utilisation des « vibes » comme critère d’évaluation de l’IA. Ceux qui critiquent cette notion n’arriveront pas à convaincre ses partisans de faire marche arrière. Cette tendance est là pour durer.
Ce qui est encore plus préoccupant, c’est que les développeurs d’IA pourraient être tentés de concevoir leurs modèles pour générer de plus en plus de « vibes ». Cela risquerait de détourner l’attention des véritables progrès technologiques dans le domaine de l’IA. La quête des « vibes » prend de plus en plus de place, éclipsant les efforts réels pour faire avancer l’IA.
Un vieux dicton me vient à l’esprit : il faut parfois combattre le mal par le mal. Et si, au lieu de résister à cette tendance, nous tentions de rendre les “vibes” mesurables ? Dans le cadre de l’IA, ces “vibes” pourraient être définies par des critères concrets. Laissez-moi vous présenter quelques idées pour introduire un peu de rigueur dans ce débat.
Par exemple, le flux conversationnel pourrait être évalué en fonction de la réactivité de l’utilisateur, du nombre de tours de dialogue, etc. Un autre critère pourrait être un score d’alignement des émotions, mesurant la correspondance entre le ton de l’IA et celui de l’utilisateur. On pourrait aussi envisager un score d’engagement ou de sympathie, basé sur les évaluations des utilisateurs après une interaction avec un modèle de langage. Ce ne sont que quelques pistes pour encourager la réflexion.
Deuxièmement, il serait nécessaire d’examiner les différents éléments de mesure et de les transformer en une norme claire et utilisable que la communauté de l’IA pourrait facilement adopter. L’idée derrière cette norme serait d’assurer la transparence des évaluations, en empêchant chaque fabricant d’IA de créer ses propres critères (bien qu’il puisse toujours le faire, il serait alors tenu de rendre des comptes sur les mesures standardisées).
Troisièmement, une fois ces mesures standard disponibles, on pourrait commencer à voir des classements de l’IA qui prennent en compte ces critères de « vibes ». L’avantage de cette approche est qu’elle permettrait à des tiers indépendants de procéder aux mêmes évaluations. Les fabricants d’IA qui auraient exagéré leurs revendications sur ce critère pourraient ainsi être exposés. Les autres acteurs du secteur, quant à eux, accueilleraient sûrement cette méthode comme un moyen de « maintenir l’équité » sur le marché.
Une dernière réflexion pour clore cette discussion. Certains affirment que les « vibes » sont plus évocatrices que les mots. Chercher à transformer ces « vibes » en quelque chose de mesurable serait donc l’antithèse même de ce qu’elles représentent. Soit on les ressent, soit on ne les ressent pas. Pour ma part, je suis persuadé qu’il est possible de rendre les « vibes » de l’IA à la fois tangibles et mesurables, d’autant plus qu’il semble que cette tendance soit là pour durer, qu’on l’accepte ou non.
Une contribution de Lance Eliot pour Forbes US – traduit par Lisa Deleforterie
À lire également : À SUIVRE | Vsora lève 40 millions pour bâtir une alternative européenne aux géants de la puce IA

Abonnez-vous au magazine papier
et découvrez chaque trimestre :
- Des dossiers et analyses exclusifs sur des stratégies d'entreprises
- Des témoignages et interviews de stars de l'entrepreneuriat
- Nos classements de femmes et hommes d'affaires
- Notre sélection lifestyle
- Et de nombreux autres contenus inédits