Ressources
Recherche universitaire14 avril 2026

LLMs et recherche d'information : le papier de référence

LLMs et recherche d'information : le papier de référence

Source originale : Yutao Zhu, Huaying Yuan, Shuting Wang et al. — Large Language Models for Information Retrieval: A Survey (arXiv, 2023, mis à jour 2024). Cette page propose une synthèse en français des apports clés du papier.

Pourquoi ce papier est important

La recherche d'information (Information Retrieval, ou IR) est au cœur de tout ce que nous faisons en SEO et en GEO. Pendant des décennies, les moteurs de recherche ont fonctionné sur des modèles statistiques (TF-IDF, BM25). L'arrivée des modèles neuronaux a apporté la compréhension sémantique, mais avec des limites.

Les LLMs (ChatGPT, GPT-4, LLaMA, Claude) changent la donne. Ce survey analyse systématiquement comment ils améliorent — ou perturbent — chaque composant d'un système de recherche.

Les 5 composants d'un système IR moderne

ComposantRôleImpact des LLMs
Query RewriterReformuler la requête utilisateurExpansions de requête, reformulations hypothétiques (HyDE), clarifications contextuelles
RetrieverTrouver les documents pertinentsEmbeddings denses, recherche par similarité vectorielle, génération de pseudo-documents
RerankerRe-classer les résultats par pertinenceÉvaluation via prompting (pointwise, pairwise, listwise) sans fine-tuning
ReaderExtraire ou générer la réponse finaleRAG : le LLM synthétise une réponse à partir des documents retrouvés
Search AgentOrchestrer le processus de bout en boutAgents autonomes qui planifient, exécutent des requêtes, évaluent et itèrent

Query Rewriting : reformuler pour mieux chercher

La reformulation de requête est le premier levier. Les LLMs excellent à transformer une question vague en une requête précise :

  • Query expansion : le LLM génère des termes supplémentaires qui enrichissent la requête originale
  • HyDE (Hypothetical Document Embeddings) : le LLM génère un document hypothétique qui répond à la requête, puis utilise son embedding pour chercher des documents similaires
  • Query clarification : le LLM identifie les ambiguïtés et propose des reformulations explicites

Impact SEO/GEO :si les moteurs reformulent vos requêtes avant de chercher, le contenu qui répond à l'intention de recherche (pas seulement aux mots-clés exacts) sera favorisé. C'est la fin du keyword stuffing, définitivement.

Retrieval : la recherche vectorielle s'impose

  • Dense retrieval : documents et requêtes sont encodés en vecteurs denses via le LLM, puis comparés par similarité cosinus
  • Generative retrieval :le LLM génère directement l'identifiant du document pertinent, sans index vectoriel
  • LLM-augmented retrieval :le LLM enrichit les données d'entraînement du retriever

Reranking : le LLM comme juge de pertinence

Le reranking est peut-être le composant où les LLMs ont le plus d'impact immédiat. Le survey décrit trois stratégies :

  • Pointwise : le LLM évalue chaque document individuellement
  • Pairwise : le LLM compare deux documents
  • Listwise : le LLM ordonne une liste entière en une seule passe

GPT-4 en mode listwise atteint des performances comparables aux modèles fine-tunés spécialisés — sans aucun entraînement supplémentaire.

RAG : quand le LLM lit pour vous

Le pattern RAG (Retrieval-Augmented Generation) est devenu le standard pour les applications IA en production :

  1. Un retriever trouve les documents pertinents
  2. Le LLM lit ces documents et génère une réponse synthétique
  3. La réponse cite ses sources (idéalement)

C'est exactement ce que font Perplexity, les AI Overviews de Google, et ChatGPT avec browsing. Et c'est là que le GEO entre en jeu : pour être cité dans ces réponses générées, votre contenu doit être retrouvé par le retriever ET jugé pertinent par le reranker.

Search Agents : l'avenir de la recherche

Un search agent est un LLM qui :

  • Décompose une question complexe en sous-requêtes
  • Exécute plusieurs recherches séquentiellement
  • Évalue la qualité des résultats intermédiaires
  • Décide s'il a assez d'information ou s'il doit chercher davantage
  • Synthétise une réponse finale à partir de toutes les sources collectées

C'est le modèle utilisé par Perplexity Pro, le Deep Research de Google, et les agents de recherche de Claude.

Ce que ça change pour le SEO et le GEO

  • Le contenu sémantiquement riche gagne :les embeddings denses capturent le sens, pas les mots. Écrivez pour l'intention, pas pour les mots-clés
  • La structure compte plus que jamais : les LLMs rerankers évaluent la pertinence passage par passage
  • L'autorité des sources devient un signal de reranking : les contenus sourcés, factuels et d'experts sont favorisés
  • Le RAG impose d'être "retrievable" : l'indexation et la crawlabilité restent fondamentales
  • Les agents multi-étapes créent de nouvelles opportunités : un contenu qui répond à une sous-question spécifique peut être cité même s'il ne couvre pas le sujet entier

Référence complète

Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, Ji-Rong Wen. Large Language Models for Information Retrieval: A Survey. arXiv:2308.07107, 2023.

Lire le papier complet sur arXiv →

Youssef Jlidi

Youssef Jlidi

Fondateur de Neopulsion, expert SEO & GEO depuis 10 ans.