On nous avait prévenus : les LLMs ne sont pas prêts pour la recherche

La prédiction que personne n'a écoutée

En janvier 2025, James Hartree-Law publiait une analyse détaillée sur le Forum Effective Altruism. Son titre : "LLMs might not be the future of search: at least, not yet."

Sa thèse tenait en trois points :

Les LLMs hallucinent par conception — ce ne sont pas des bases de données, ce sont des générateurs de texte plausible
Google déployait Gemini sous pression concurrentielle, pas parce que la technologie était prête
Les citations affichées donnent une illusion de fiabilité que les données ne soutiennent pas

Il s'appuyait sur l'étude de Shahan Ali Memon (University of Washington) montrant que seulement 51,5% des phrases généréespar les moteurs IA étaient réellement soutenues par leurs sources — et qu'une citation sur quatre ne disait pas du tout ce que le LLM prétendait.

"An LLM is 100% dreaming and has the hallucination problem. A search engine is 0% dreaming and has the creativity problem."
— Andrej Karpathy, cofondateur d'OpenAI (décembre 2023)

À l'époque, on pouvait balayer ces inquiétudes. Les modèles allaient s'améliorer. Google allait corriger le tir. Ce n'était qu'une question de mois.

Quatorze mois plus tard, les données sont tombées.

Ce qui s'est passé depuis : un bilan accablant

Février 2025 — Columbia enfonce le clou

Le Tow Center for Digital Journalism de l'Université Columbia publie l'étude la plus rigoureuse à ce jour. Huit moteurs de recherche IA testés sur des requêtes factuelles liées à l'actualité.

Résultat : plus de 60% de réponses incorrectes.

37%

d'erreurs Perplexity (le "meilleur")

73%

ChatGPT Search "confidemment faux"

94%

d'erreurs Grok 3

Le constat le plus glaçant : ces outils ne déclinent presque jamais.Ils ne disent pas "je ne sais pas". Ils répondent avec le ton assuré d'un expert — même quand ils fabriquent de toutes pièces.

2025 — Le paradoxe du raisonnement

Un phénomène que personne n'avait prédit a émergé : les modèles conçus pour raisonner plus profondément hallucinent davantage sur les faits.

OpenAI o3 (modèle de raisonnement avancé) : 33% d'hallucinations sur le benchmark PersonQA
Domaine juridique : les LLMs hallucinaient au moins 75% du temps, inventant plus de 120 affaires judiciaires fictives (Stanford)
GPT-5 sans accès web : 47%de taux d'erreur sur SimpleQA (9,6% avec accès web)

Septembre 2025 — L'effondrement du trafic

Seer Interactive publie les chiffres que l'industrie redoutait :

-61%

de CTR organique

-68%

de CTR publicitaire

90%

part de marché Google

L'ironie est cruelle : les LLMs synthétisent le travail des créateurs de contenu, tout en les privant du trafic qui finançait ce travail. Sans eux, les modèles n'ont rien à résumer. Mais avec les AI Overviews, les utilisateurs n'ont plus besoin de les visiter.

C'est une boucle de destruction : moins de trafic → moins de revenus → moins de contenu original → des modèles qui se nourrissent de contenu de plus en plus dégradé.

Les procès s'accumulent

Février 2025 : Chegg poursuit Alphabet — les AI Overviews dirigent les étudiants vers des « résumés IA non vérifiés et de faible qualité »
Septembre 2025 : Penske Media Corporation attaque Google — les AI Overviews « régurgitent illégalement » le contenu de leurs sites

Janvier 2026 — La santé, ligne rouge franchie

Google est contraint de retirer certaines requêtes de santé des AI Overviews après une enquête du Guardian sur la désinformation médicale.

Pourquoi rien n'a changé

Hartree-Law avait identifié la cause dès janvier 2025 : Google ne déployait pas cette technologie parce qu'elle était prête, mais parce que la concurrence l'y forçait.

"OpenAI était une menace pour leur activité. [...] C'est une compétition perturbatrice — d'un genre nouveau."
— Kenneth Stanley, fondateur d'Uber AI Labs

Plateforme	Évolution
Perplexity	230M → 780M requêtes/mois en 1 an (+340%)
Google Gemini	5,4% → 18,2% de part de marché chatbot IA
ChatGPT	87,2% → 68% (dominant mais en chute rapide)

L'ère du Piloted Search

En 2005, un tournoi d'échecs freestyle a produit un résultat que personne n'attendait. Les vainqueurs n'étaient ni des grands maîtres, ni des superordinateurs. C'étaient deux amateurs américains assistés par trois programmes tournant sur des laptops ordinaires.

Leur avantage ?Ils savaient quand faire confiance à la machine et quand reprendre la main. Ils pilotaient l'IA. Ils ne la subissaient pas.

Le modèle actuel est un cul-de-sac

Le Piloted Searchest un modèle hybride où l'humain pilote et l'IA exécute. Ni 100% humain, ni 100% machine — un cockpit partagé où chacun fait ce qu'il fait de mieux.

À quoi ressemble le Piloted Search ?

L'humain affine l'intention, l'IA élargit le champ. L'IA vous pose des questions de clarification avant de chercher.
L'IA propose des sources, l'humain les valide. Le jugement éditorial reste humain — la puissance de traitement est machinale.
L'humain challenge, l'IA se corrige. Chaque affirmation est traçable.
La transparence est native, pas optionnelle. Chaque réponse affiche un score de confiance visible.

Pourquoi le Piloted Search l'emporte

	Humain seul	IA seule	Piloted Search
Vitesse	Lent	Instantané	Rapide
Fiabilité	Haute	Basse (60%+)	Haute
Échelle	Limitée	Illimitée	Illimitée
Jugement	Fort	Absent	Fort
Traçabilité	Manuelle	Absente	Native

Le mot de la fin

Il y a quatorze mois, un article posait une question simple : les LLMs sont-ils prêts pour la recherche ?

La réponse était non.

Quatorze mois, des milliards de requêtes, des procès, des retraits de fonctionnalité et une enquête du Guardian plus tard, la réponse n'a pas changé.

L'IA n'a pas besoin de quitter le cockpit. Elle a juste besoin d'un pilote qui sait lire les instruments.

On nous avait prévenus. La question maintenant, c'est : est-ce qu'on écoute ?