LLMs et recherche d'information : le papier de référence
Source originale : Yutao Zhu, Huaying Yuan, Shuting Wang et al. — Large Language Models for Information Retrieval: A Survey (arXiv, 2023, mis à jour 2024). Cette page propose une synthèse en français des apports clés du papier.
Pourquoi ce papier est important
La recherche d'information (Information Retrieval, ou IR) est au cœur de tout ce que nous faisons en SEO et en GEO. Pendant des décennies, les moteurs de recherche ont fonctionné sur des modèles statistiques (TF-IDF, BM25). L'arrivée des modèles neuronaux a apporté la compréhension sémantique, mais avec des limites.
Les LLMs (ChatGPT, GPT-4, LLaMA, Claude) changent la donne. Ce survey analyse systématiquement comment ils améliorent — ou perturbent — chaque composant d'un système de recherche.
Les 5 composants d'un système IR moderne
| Composant | Rôle | Impact des LLMs |
|---|---|---|
| Query Rewriter | Reformuler la requête utilisateur | Expansions de requête, reformulations hypothétiques (HyDE), clarifications contextuelles |
| Retriever | Trouver les documents pertinents | Embeddings denses, recherche par similarité vectorielle, génération de pseudo-documents |
| Reranker | Re-classer les résultats par pertinence | Évaluation via prompting (pointwise, pairwise, listwise) sans fine-tuning |
| Reader | Extraire ou générer la réponse finale | RAG : le LLM synthétise une réponse à partir des documents retrouvés |
| Search Agent | Orchestrer le processus de bout en bout | Agents autonomes qui planifient, exécutent des requêtes, évaluent et itèrent |
Query Rewriting : reformuler pour mieux chercher
La reformulation de requête est le premier levier. Les LLMs excellent à transformer une question vague en une requête précise :
- Query expansion : le LLM génère des termes supplémentaires qui enrichissent la requête originale
- HyDE (Hypothetical Document Embeddings) : le LLM génère un document hypothétique qui répond à la requête, puis utilise son embedding pour chercher des documents similaires
- Query clarification : le LLM identifie les ambiguïtés et propose des reformulations explicites
Impact SEO/GEO :si les moteurs reformulent vos requêtes avant de chercher, le contenu qui répond à l'intention de recherche (pas seulement aux mots-clés exacts) sera favorisé. C'est la fin du keyword stuffing, définitivement.
Retrieval : la recherche vectorielle s'impose
- Dense retrieval : documents et requêtes sont encodés en vecteurs denses via le LLM, puis comparés par similarité cosinus
- Generative retrieval :le LLM génère directement l'identifiant du document pertinent, sans index vectoriel
- LLM-augmented retrieval :le LLM enrichit les données d'entraînement du retriever
Reranking : le LLM comme juge de pertinence
Le reranking est peut-être le composant où les LLMs ont le plus d'impact immédiat. Le survey décrit trois stratégies :
- Pointwise : le LLM évalue chaque document individuellement
- Pairwise : le LLM compare deux documents
- Listwise : le LLM ordonne une liste entière en une seule passe
GPT-4 en mode listwise atteint des performances comparables aux modèles fine-tunés spécialisés — sans aucun entraînement supplémentaire.
RAG : quand le LLM lit pour vous
Le pattern RAG (Retrieval-Augmented Generation) est devenu le standard pour les applications IA en production :
- Un retriever trouve les documents pertinents
- Le LLM lit ces documents et génère une réponse synthétique
- La réponse cite ses sources (idéalement)
C'est exactement ce que font Perplexity, les AI Overviews de Google, et ChatGPT avec browsing. Et c'est là que le GEO entre en jeu : pour être cité dans ces réponses générées, votre contenu doit être retrouvé par le retriever ET jugé pertinent par le reranker.
Search Agents : l'avenir de la recherche
Un search agent est un LLM qui :
- Décompose une question complexe en sous-requêtes
- Exécute plusieurs recherches séquentiellement
- Évalue la qualité des résultats intermédiaires
- Décide s'il a assez d'information ou s'il doit chercher davantage
- Synthétise une réponse finale à partir de toutes les sources collectées
C'est le modèle utilisé par Perplexity Pro, le Deep Research de Google, et les agents de recherche de Claude.
Ce que ça change pour le SEO et le GEO
- Le contenu sémantiquement riche gagne :les embeddings denses capturent le sens, pas les mots. Écrivez pour l'intention, pas pour les mots-clés
- La structure compte plus que jamais : les LLMs rerankers évaluent la pertinence passage par passage
- L'autorité des sources devient un signal de reranking : les contenus sourcés, factuels et d'experts sont favorisés
- Le RAG impose d'être "retrievable" : l'indexation et la crawlabilité restent fondamentales
- Les agents multi-étapes créent de nouvelles opportunités : un contenu qui répond à une sous-question spécifique peut être cité même s'il ne couvre pas le sujet entier
Référence complète
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, Ji-Rong Wen. Large Language Models for Information Retrieval: A Survey. arXiv:2308.07107, 2023.
Youssef Jlidi
Fondateur de Neopulsion, expert SEO & GEO depuis 10 ans.