On nous avait prévenus. Un an plus tard, les chiffres sont tombés.

En janvier 2025, un article annonçait que les LLMs n'étaient pas prêts pour la recherche. On l'a ignoré. Les données de 2026 lui donnent raison.

mars 28, 2026

Et si la solution n’était ni l’humain seul, ni l’IA seule ?

La prédiction que personne n’a écoutée

Ouvrez Google. Tapez n’importe quelle question.

Avant le moindre lien, un bloc Gemini occupe tout votre écran. Les résultats humains — articles, études, blogs — sont relégués en dessous de la ligne de flottaison. Ce n’est plus un moteur de recherche. C’est un oracle. Et le problème, c’est que cet oracle invente.

Pas par malveillance. Par conception.

En janvier 2025, James Hartree-Law publiait une analyse détaillée sur le Forum Effective Altruism. Son titre : “LLMs might not be the future of search: at least, not yet.”

Sa thèse tenait en trois points :

Les LLMs hallucinent par conception

Les LLMs hallucinent par conception — ce ne sont pas des bases de données, ce sont des générateurs de texte plausible

Google déployait Gemini sous pression concurrentielle, pas parce que la technologie était prête

Les citations affichées donnent une illusion de fiabilité que les données ne soutiennent pas

Il s’appuyait sur l’étude de Shahan Ali Memon (University of Washington) montrant que seulement 51,5% des phrases générées par les moteurs IA étaient réellement soutenues par leurs sources — et qu’une citation sur quatre ne disait pas du tout ce que le LLM prétendait.

Il citait Andrej Karpathy, cofondateur d’OpenAI :

“An LLM is 100% dreaming and has the hallucination problem. A search engine is 0% dreaming and has the creativity problem.”
— Andrej Karpathy, cofondateur d’OpenAI (décembre 2023)

À l’époque, on pouvait balayer ces inquiétudes. Les modèles allaient s’améliorer. Google allait corriger le tir. Ce n’était qu’une question de mois.

Quatorze mois plus tard, les données sont tombées.

***

Ce qui s’est passé depuis : un bilan accablant

Février 2025 — Columbia enfonce le clou

Le Tow Center for Digital Journalism de l’Université Columbia publie l’étude la plus rigoureuse à ce jour. Huit moteurs de recherche IA testés sur des requêtes factuelles liées à l’actualité.

Résultat : plus de 60% de réponses incorrectes.

Le détail par plateforme :

Perplexity (le “meilleur”) : 37% de réponses fausses

ChatGPT Search : “confidemment faux” dans 73% des cas de citation

Grok 3 : 94% de réponses incorrectes

Le constat le plus glaçant : ces outils ne déclinent presque jamais. Ils ne disent pas “je ne sais pas”. Ils répondent avec le ton assuré d’un expert — même quand ils fabriquent de toutes pièces.

L’article de Hartree-Law pointait exactement ce problème. Un an avant.

2025 — Le paradoxe du raisonnement

Un phénomène que personne n’avait prédit a émergé : les modèles conçus pour raisonner plus profondément hallucinent davantage sur les faits.

OpenAI o3 (modèle de raisonnement le plus avancé) : 33% d’hallucinations sur le benchmark PersonQA

Domaine juridique : les LLMs hallucinaient au moins 75% du temps, inventant plus de 120 affaires judiciaires fictives (Stanford)

GPT-5 sans accès web : 47% de taux d’erreur sur SimpleQA (9,6% avec accès web)

Explication : le raisonnement en chaîne pousse le modèle à construire des argumentations cohérentes. Quand un fait manque, il le fabrique pour maintenir la logique d’ensemble. Plus le raisonnement est long, plus les maillons inventés s’accumulent.

Les modèles sont devenus meilleurs pour paraître rigoureux. Pas pour être rigoureux.

Septembre 2025 — L’effondrement du trafic

Seer Interactive publie les chiffres que l’industrie du contenu redoutait :

CTR organique : -61% (de 1,76% à 0,61%)

CTR publicitaire : -68% (de 19,7% à 6,34%)

L’ironie est cruelle : les LLMs synthétisent le travail des créateurs de contenu, tout en les privant du trafic qui finançait ce travail. Sans eux, les modèles n’ont rien à résumer. Mais avec les AI Overviews, les utilisateurs n’ont plus besoin de les visiter.

C’est une boucle de destruction : moins de trafic → moins de revenus → moins de contenu original → des modèles qui se nourrissent de contenu de plus en plus dégradé.

Les procès qui s’accumulent

Février 2025 : Chegg attaque Google — les AI Overviews conduisent les étudiants vers des “résumés IA non vérifiés et de basse qualité”

Septembre 2025 : Penske Media Corporation poursuit Google — les AI Overviews “régurgitent illégalement” le contenu de leurs sites

Janvier 2026 — La santé, ligne rouge franchie

Google est contraint de retirer certaines requêtes de santé des AI Overviews après une enquête du Guardian sur la désinformation médicale.

Rappel : en mai 2024, les AI Overviews recommandaient déjà de “mettre de la colle sur la pizza” (source : un post Reddit humoristique) et de “manger une petite pierre par jour” (source : un article satirique). Vingt mois plus tard, le même type de problème persiste — cette fois sur des questions de santé.

***

Pourquoi rien n’a changé

Hartree-Law avait identifié la cause dès janvier 2025 : Google ne déployait pas cette technologie parce qu’elle était prête, mais parce que la concurrence l’y forçait.

“OpenAI était une menace pour leur activité. [...] C’est une compétition perturbatrice — d’un genre nouveau.”
— Kenneth Stanley, fondateur d’Uber AI Labs, ancien dirigeant OpenAI

Les chiffres de la course confirment l’urgence :

Perplexity : de 230M à 780M de requêtes/mois en un an (+340%)

Google Gemini : 18,2% de part de marché des chatbots IA, contre 5,4% un an plus tôt

ChatGPT : encore dominant (68%) mais en chute rapide depuis les 87,2% de début 2025

La stratégie de Google est limpide : occuper le terrain maintenant, corriger après. Le problème, c’est qu’un an après, le “après” n’est toujours pas arrivé.

***

La confiance : le vrai sujet

Selon le Reuters Institute et Oxford, seulement 20 à 25% des utilisateurs font autant confiance aux résumés IA qu’aux résultats classiques. L’Edelman Trust Barometer (2025) est encore plus net : plus de 60% des répondants s’inquiètent de la désinformation IA dans la recherche.

Mais la confiance mesurée n’est pas la confiance pratiquée. Les gens disent ne pas faire confiance — et ne vérifient pas quand même. Le design de ces outils (réponse unique, ton affirmatif, sources à peine visibles) fabrique de la crédulité à grande échelle.

C’est exactement ce que Memon décrivait dans son étude : le slogan de Google “Laissez Google chercher pour vous” revient en pratique à “vous donner une mauvaise réponse très rapidement.”

***

L’ère du Piloted Search

En 2005, un tournoi d’échecs freestyle a produit un résultat que personne n’attendait. Les vainqueurs n’étaient ni des grands maîtres, ni des superordinateurs. C’étaient deux amateurs américains assistés par trois programmes tournant sur des laptops ordinaires.

Leur avantage ? Ils savaient quand faire confiance à la machine et quand reprendre la main. Ils pilotaient l’IA. Ils ne la subissaient pas.

La recherche en ligne a besoin de son moment pilote.

Le modèle actuel est un cul-de-sac

Aujourd’hui, on a deux extrêmes :

Le vieux Google (pré-2024) : l’humain fait tout. Il tape une requête, trie dix liens bleus, évalue les sources, synthétise. C’est lent, mais c’est fiable — parce que le jugement humain est dans la boucle.

Le Google Gemini / ChatGPT Search (2024-2026) : l’IA fait tout. Elle interprète la requête, choisit les sources, synthétise, et vous livre une réponse prémâchée. C’est rapide, mais on a vu les résultats : 60% d’erreurs, citations fantômes, contexte détourné.

Les deux modèles échouent parce qu’ils excluent l’autre moitié de l’équation. L’humain seul est lent. L’IA seule est aveugle.

Le Piloted Search est un modèle hybride où l’humain pilote et l’IA exécute. Ni 100% humain, ni 100% machine — un cockpit partagé où chacun fait ce qu’il fait de mieux.

À quoi ressemble le Piloted Search ?

1. L’humain affine l’intention, l’IA élargit le champ.

Aujourd’hui, vous tapez une requête et priez. Dans un modèle piloté, l’IA vous pose des questions de clarification avant de chercher. “Tu cherches les effets de la nicotine dans un contexte médical, récréatif, ou de sevrage ?” Le résultat change radicalement selon la réponse. Perplexity a esquissé cette approche avec son mode Copilot — mais c’est encore embryonnaire.

2. L’IA propose des sources, l’humain les valide.

Au lieu de cacher les sources derrière une synthèse, le moteur les expose en premier. L’IA les classe par pertinence et fiabilité estimée. L’humain choisit lesquelles méritent d’être synthétisées. Le jugement éditorial reste humain — la puissance de traitement est machinale.

3. L’humain challenge, l’IA se corrige.

“D’où tu tires ce chiffre ?” devrait être un bouton, pas une prière. Dans un modèle piloté, chaque affirmation est traçable. L’utilisateur peut demander le passage exact de la source, comparer avec d’autres sources, et signaler une incohérence.

4. La transparence est native, pas optionnelle.

Chaque réponse affiche un score de confiance visible — comme un Nutri-Score de l’information. “Cette synthèse s’appuie sur 3 sources concordantes (confiance : haute)” vs “Cette réponse est basée sur une seule source non vérifiée (confiance : faible).” L’utilisateur voit immédiatement quand il peut faire confiance et quand il doit creuser.

Le signal existe déjà

Gartner prédit que 25% des requêtes mondiales passeront par des assistants IA d’ici fin 2026

La curation humaine est identifiée comme “la feature premium ultime de 2026” par les analystes du secteur

OpenAI parle de “Vibe Research” — la recherche collaborative humain-IA — comme nouveau paradigme

D’ici 2026, plus de 90% du contenu en ligne sera généré par l’IA — ce qui rend le filtre humain non pas optionnel, mais vital

Le marché est prêt. La technologie est prête. Ce qui manque, c’est la volonté de ralentir la course assez longtemps pour construire le bon modèle.

***

Le mot de la fin

Il y a quatorze mois, un article posait une question simple : les LLMs sont-ils prêts pour la recherche ?

La réponse était non.

Quatorze mois, des milliards de requêtes, des procès, des retraits de fonctionnalité et une enquête du Guardian plus tard, la réponse n’a pas changé.

Mais la bonne question n’a jamais été “faut-il retirer l’IA de la recherche ?”. C’est : qui pilote ?

Aujourd’hui, personne. L’IA génère, l’utilisateur subit, et les créateurs de contenu disparaissent. Le Piloted Search propose une alternative : l’IA comme instrument de vol, l’humain comme pilote.

L’IA n’a pas besoin de quitter le cockpit. Elle a juste besoin d’un pilote qui sait lire les instruments.

On nous avait prévenus. La question maintenant, c’est : est-ce qu’on écoute ?

***

Cet article s’appuie sur le post de James Hartree-Law publié sur le Forum EA en janvier 2025, enrichi de données de recherche complémentaires (2025-2026).

Sources

Article original — EA Forum, James Hartree-Law (janv. 2025)
Columbia Journalism Review — “We compared eight AI search engines” (fév. 2025)
Nieman Lab — “AI search engines fail in 60%+ of tests” (mars 2025)
Memon, S.A. — “Search Engines in an AI Era” (arXiv, 2024)
Suprmind — AI Hallucination Rates & Benchmarks 2026
All About AI — AI Hallucination Report 2026
Andrej Karpathy — “Hallucination is all LLMs do” (X, déc. 2023)
Fortune — “AI search engines confidently wrong” (mars 2025)
Euronews — “Google removes health queries from AI Overviews” (janv. 2026)
Dataslayer — “AI Overviews killed CTR 61%” (sept. 2025)
Jasmine Directory — “Human curation is the ultimate premium feature” (2026)

Youssef Jlidi

Discussion à propos de ce post

Tout à fait prêt. Qu'avez-vous pour moi ?