On nous avait prévenus. Un an plus tard, les chiffres sont tombés.
En janvier 2025, un article annonçait que les LLMs n'étaient pas prêts pour la recherche. On l'a ignoré. Les données de 2026 lui donnent raison.
Et si la solution n’était ni l’humain seul, ni l’IA seule ?
La prédiction que personne n’a écoutée
Ouvrez Google. Tapez n’importe quelle question.
Avant le moindre lien, un bloc Gemini occupe tout votre écran. Les résultats humains — articles, études, blogs — sont relégués en dessous de la ligne de flottaison. Ce n’est plus un moteur de recherche. C’est un oracle. Et le problème, c’est que cet oracle invente.
Pas par malveillance. Par conception.
En janvier 2025, James Hartree-Law publiait une analyse détaillée sur le Forum Effective Altruism. Son titre : “LLMs might not be the future of search: at least, not yet.”
Sa thèse tenait en trois points :
Les LLMs hallucinent par conception
Les LLMs hallucinent par conception — ce ne sont pas des bases de données, ce sont des générateurs de texte plausible
Google déployait Gemini sous pression concurrentielle, pas parce que la technologie était prête
Les citations affichées donnent une illusion de fiabilité que les données ne soutiennent pas
Il s’appuyait sur l’étude de Shahan Ali Memon (University of Washington) montrant que seulement 51,5% des phrases générées par les moteurs IA étaient réellement soutenues par leurs sources — et qu’une citation sur quatre ne disait pas du tout ce que le LLM prétendait.
Il citait Andrej Karpathy, cofondateur d’OpenAI :
“An LLM is 100% dreaming and has the hallucination problem. A search engine is 0% dreaming and has the creativity problem.”
— Andrej Karpathy, cofondateur d’OpenAI (décembre 2023)
À l’époque, on pouvait balayer ces inquiétudes. Les modèles allaient s’améliorer. Google allait corriger le tir. Ce n’était qu’une question de mois.
Quatorze mois plus tard, les données sont tombées.
***
Ce qui s’est passé depuis : un bilan accablant
Février 2025 — Columbia enfonce le clou
Le Tow Center for Digital Journalism de l’Université Columbia publie l’étude la plus rigoureuse à ce jour. Huit moteurs de recherche IA testés sur des requêtes factuelles liées à l’actualité.
Résultat : plus de 60% de réponses incorrectes.
Le détail par plateforme :
Perplexity (le “meilleur”) : 37% de réponses fausses
ChatGPT Search : “confidemment faux” dans 73% des cas de citation
Grok 3 : 94% de réponses incorrectes
Le constat le plus glaçant : ces outils ne déclinent presque jamais. Ils ne disent pas “je ne sais pas”. Ils répondent avec le ton assuré d’un expert — même quand ils fabriquent de toutes pièces.
L’article de Hartree-Law pointait exactement ce problème. Un an avant.
2025 — Le paradoxe du raisonnement
Un phénomène que personne n’avait prédit a émergé : les modèles conçus pour raisonner plus profondément hallucinent davantage sur les faits.
OpenAI o3 (modèle de raisonnement le plus avancé) : 33% d’hallucinations sur le benchmark PersonQA
Domaine juridique : les LLMs hallucinaient au moins 75% du temps, inventant plus de 120 affaires judiciaires fictives (Stanford)
GPT-5 sans accès web : 47% de taux d’erreur sur SimpleQA (9,6% avec accès web)
Explication : le raisonnement en chaîne pousse le modèle à construire des argumentations cohérentes. Quand un fait manque, il le fabrique pour maintenir la logique d’ensemble. Plus le raisonnement est long, plus les maillons inventés s’accumulent.
Les modèles sont devenus meilleurs pour paraître rigoureux. Pas pour être rigoureux.
Septembre 2025 — L’effondrement du trafic
Seer Interactive publie les chiffres que l’industrie du contenu redoutait :
CTR organique : -61% (de 1,76% à 0,61%)
CTR publicitaire : -68% (de 19,7% à 6,34%)
L’ironie est cruelle : les LLMs synthétisent le travail des créateurs de contenu, tout en les privant du trafic qui finançait ce travail. Sans eux, les modèles n’ont rien à résumer. Mais avec les AI Overviews, les utilisateurs n’ont plus besoin de les visiter.
C’est une boucle de destruction : moins de trafic → moins de revenus → moins de contenu original → des modèles qui se nourrissent de contenu de plus en plus dégradé.
Les procès qui s’accumulent
Février 2025 : Chegg attaque Google — les AI Overviews conduisent les étudiants vers des “résumés IA non vérifiés et de basse qualité”
Septembre 2025 : Penske Media Corporation poursuit Google — les AI Overviews “régurgitent illégalement” le contenu de leurs sites
Janvier 2026 — La santé, ligne rouge franchie
Google est contraint de retirer certaines requêtes de santé des AI Overviews après une enquête du Guardian sur la désinformation médicale.
Rappel : en mai 2024, les AI Overviews recommandaient déjà de “mettre de la colle sur la pizza” (source : un post Reddit humoristique) et de “manger une petite pierre par jour” (source : un article satirique). Vingt mois plus tard, le même type de problème persiste — cette fois sur des questions de santé.
***
Pourquoi rien n’a changé
Hartree-Law avait identifié la cause dès janvier 2025 : Google ne déployait pas cette technologie parce qu’elle était prête, mais parce que la concurrence l’y forçait.
“OpenAI était une menace pour leur activité. [...] C’est une compétition perturbatrice — d’un genre nouveau.”
— Kenneth Stanley, fondateur d’Uber AI Labs, ancien dirigeant OpenAI
Les chiffres de la course confirment l’urgence :
Perplexity : de 230M à 780M de requêtes/mois en un an (+340%)
Google Gemini : 18,2% de part de marché des chatbots IA, contre 5,4% un an plus tôt
ChatGPT : encore dominant (68%) mais en chute rapide depuis les 87,2% de début 2025
La stratégie de Google est limpide : occuper le terrain maintenant, corriger après. Le problème, c’est qu’un an après, le “après” n’est toujours pas arrivé.
***
La confiance : le vrai sujet
Selon le Reuters Institute et Oxford, seulement 20 à 25% des utilisateurs font autant confiance aux résumés IA qu’aux résultats classiques. L’Edelman Trust Barometer (2025) est encore plus net : plus de 60% des répondants s’inquiètent de la désinformation IA dans la recherche.
Mais la confiance mesurée n’est pas la confiance pratiquée. Les gens disent ne pas faire confiance — et ne vérifient pas quand même. Le design de ces outils (réponse unique, ton affirmatif, sources à peine visibles) fabrique de la crédulité à grande échelle.
C’est exactement ce que Memon décrivait dans son étude : le slogan de Google “Laissez Google chercher pour vous” revient en pratique à “vous donner une mauvaise réponse très rapidement.”
***
L’ère du Piloted Search
En 2005, un tournoi d’échecs freestyle a produit un résultat que personne n’attendait. Les vainqueurs n’étaient ni des grands maîtres, ni des superordinateurs. C’étaient deux amateurs américains assistés par trois programmes tournant sur des laptops ordinaires.
Leur avantage ? Ils savaient quand faire confiance à la machine et quand reprendre la main. Ils pilotaient l’IA. Ils ne la subissaient pas.
La recherche en ligne a besoin de son moment pilote.
Le modèle actuel est un cul-de-sac
Aujourd’hui, on a deux extrêmes :
Le vieux Google (pré-2024) : l’humain fait tout. Il tape une requête, trie dix liens bleus, évalue les sources, synthétise. C’est lent, mais c’est fiable — parce que le jugement humain est dans la boucle.
Le Google Gemini / ChatGPT Search (2024-2026) : l’IA fait tout. Elle interprète la requête, choisit les sources, synthétise, et vous livre une réponse prémâchée. C’est rapide, mais on a vu les résultats : 60% d’erreurs, citations fantômes, contexte détourné.
Les deux modèles échouent parce qu’ils excluent l’autre moitié de l’équation. L’humain seul est lent. L’IA seule est aveugle.
Le Piloted Search est un modèle hybride où l’humain pilote et l’IA exécute. Ni 100% humain, ni 100% machine — un cockpit partagé où chacun fait ce qu’il fait de mieux.
À quoi ressemble le Piloted Search ?
1. L’humain affine l’intention, l’IA élargit le champ.
Aujourd’hui, vous tapez une requête et priez. Dans un modèle piloté, l’IA vous pose des questions de clarification avant de chercher. “Tu cherches les effets de la nicotine dans un contexte médical, récréatif, ou de sevrage ?” Le résultat change radicalement selon la réponse. Perplexity a esquissé cette approche avec son mode Copilot — mais c’est encore embryonnaire.
2. L’IA propose des sources, l’humain les valide.
Au lieu de cacher les sources derrière une synthèse, le moteur les expose en premier. L’IA les classe par pertinence et fiabilité estimée. L’humain choisit lesquelles méritent d’être synthétisées. Le jugement éditorial reste humain — la puissance de traitement est machinale.
3. L’humain challenge, l’IA se corrige.
“D’où tu tires ce chiffre ?” devrait être un bouton, pas une prière. Dans un modèle piloté, chaque affirmation est traçable. L’utilisateur peut demander le passage exact de la source, comparer avec d’autres sources, et signaler une incohérence.
4. La transparence est native, pas optionnelle.
Chaque réponse affiche un score de confiance visible — comme un Nutri-Score de l’information. “Cette synthèse s’appuie sur 3 sources concordantes (confiance : haute)” vs “Cette réponse est basée sur une seule source non vérifiée (confiance : faible).” L’utilisateur voit immédiatement quand il peut faire confiance et quand il doit creuser.
Le signal existe déjà
Gartner prédit que 25% des requêtes mondiales passeront par des assistants IA d’ici fin 2026
La curation humaine est identifiée comme “la feature premium ultime de 2026” par les analystes du secteur
OpenAI parle de “Vibe Research” — la recherche collaborative humain-IA — comme nouveau paradigme
D’ici 2026, plus de 90% du contenu en ligne sera généré par l’IA — ce qui rend le filtre humain non pas optionnel, mais vital
Le marché est prêt. La technologie est prête. Ce qui manque, c’est la volonté de ralentir la course assez longtemps pour construire le bon modèle.
***
Le mot de la fin
Il y a quatorze mois, un article posait une question simple : les LLMs sont-ils prêts pour la recherche ?
La réponse était non.
Quatorze mois, des milliards de requêtes, des procès, des retraits de fonctionnalité et une enquête du Guardian plus tard, la réponse n’a pas changé.
Mais la bonne question n’a jamais été “faut-il retirer l’IA de la recherche ?”. C’est : qui pilote ?
Aujourd’hui, personne. L’IA génère, l’utilisateur subit, et les créateurs de contenu disparaissent. Le Piloted Search propose une alternative : l’IA comme instrument de vol, l’humain comme pilote.
L’IA n’a pas besoin de quitter le cockpit. Elle a juste besoin d’un pilote qui sait lire les instruments.
On nous avait prévenus. La question maintenant, c’est : est-ce qu’on écoute ?
***
Cet article s’appuie sur le post de James Hartree-Law publié sur le Forum EA en janvier 2025, enrichi de données de recherche complémentaires (2025-2026).
Sources
Article original — EA Forum, James Hartree-Law (janv. 2025)
Columbia Journalism Review — “We compared eight AI search engines” (fév. 2025)
Nieman Lab — “AI search engines fail in 60%+ of tests” (mars 2025)
Memon, S.A. — “Search Engines in an AI Era” (arXiv, 2024)
Suprmind — AI Hallucination Rates & Benchmarks 2026
All About AI — AI Hallucination Report 2026
Andrej Karpathy — “Hallucination is all LLMs do” (X, déc. 2023)
Fortune — “AI search engines confidently wrong” (mars 2025)
Euronews — “Google removes health queries from AI Overviews” (janv. 2026)
Dataslayer — “AI Overviews killed CTR 61%” (sept. 2025)
Jasmine Directory — “Human curation is the ultimate premium feature” (2026)
