LLMs et recherche d'information : le papier de référence — Synthèse

Source originale : Yutao Zhu, Huaying Yuan, Shuting Wang et al. — Large Language Models for Information Retrieval: A Survey (arXiv, 2023, mis à jour 2024). Cette page propose une synthèse en français des apports clés du papier.

Pourquoi ce papier est important

La recherche d'information (Information Retrieval, ou IR) est au cœur de tout ce que nous faisons en SEO et en GEO. Pendant des décennies, les moteurs de recherche ont fonctionné sur des modèles statistiques (TF-IDF, BM25). L'arrivée des modèles neuronaux a apporté la compréhension sémantique, mais avec des limites.

Les LLMs (ChatGPT, GPT-4, LLaMA, Claude) changent la donne. Ce survey analyse systématiquement comment ils améliorent — ou perturbent — chaque composant d'un système de recherche.

Les 5 composants d'un système IR moderne

Composant	Rôle	Impact des LLMs
Query Rewriter	Reformuler la requête utilisateur	Expansions de requête, reformulations hypothétiques (HyDE), clarifications contextuelles
Retriever	Trouver les documents pertinents	Embeddings denses, recherche par similarité vectorielle, génération de pseudo-documents
Reranker	Re-classer les résultats par pertinence	Évaluation via prompting (pointwise, pairwise, listwise) sans fine-tuning
Reader	Extraire ou générer la réponse finale	RAG : le LLM synthétise une réponse à partir des documents retrouvés
Search Agent	Orchestrer le processus de bout en bout	Agents autonomes qui planifient, exécutent des requêtes, évaluent et itèrent

Query Rewriting : reformuler pour mieux chercher

La reformulation de requête est le premier levier. Les LLMs excellent à transformer une question vague en une requête précise :

Query expansion : le LLM génère des termes supplémentaires qui enrichissent la requête originale
HyDE (Hypothetical Document Embeddings) : le LLM génère un document hypothétique qui répond à la requête, puis utilise son embedding pour chercher des documents similaires
Query clarification : le LLM identifie les ambiguïtés et propose des reformulations explicites

Impact SEO/GEO :si les moteurs reformulent vos requêtes avant de chercher, le contenu qui répond à l'intention de recherche (pas seulement aux mots-clés exacts) sera favorisé. C'est la fin du keyword stuffing, définitivement.

Retrieval : la recherche vectorielle s'impose

Dense retrieval : documents et requêtes sont encodés en vecteurs denses via le LLM, puis comparés par similarité cosinus
Generative retrieval :le LLM génère directement l'identifiant du document pertinent, sans index vectoriel
LLM-augmented retrieval :le LLM enrichit les données d'entraînement du retriever

Reranking : le LLM comme juge de pertinence

Le reranking est peut-être le composant où les LLMs ont le plus d'impact immédiat. Le survey décrit trois stratégies :

Pointwise : le LLM évalue chaque document individuellement
Pairwise : le LLM compare deux documents
Listwise : le LLM ordonne une liste entière en une seule passe

GPT-4 en mode listwise atteint des performances comparables aux modèles fine-tunés spécialisés — sans aucun entraînement supplémentaire.

RAG : quand le LLM lit pour vous

Le pattern RAG (Retrieval-Augmented Generation) est devenu le standard pour les applications IA en production :

Un retriever trouve les documents pertinents
Le LLM lit ces documents et génère une réponse synthétique
La réponse cite ses sources (idéalement)

C'est exactement ce que font Perplexity, les AI Overviews de Google, et ChatGPT avec browsing. Et c'est là que le GEO entre en jeu : pour être cité dans ces réponses générées, votre contenu doit être retrouvé par le retriever ET jugé pertinent par le reranker.

Search Agents : l'avenir de la recherche

Un search agent est un LLM qui :

Décompose une question complexe en sous-requêtes
Exécute plusieurs recherches séquentiellement
Évalue la qualité des résultats intermédiaires
Décide s'il a assez d'information ou s'il doit chercher davantage
Synthétise une réponse finale à partir de toutes les sources collectées

C'est le modèle utilisé par Perplexity Pro, le Deep Research de Google, et les agents de recherche de Claude.

Ce que ça change pour le SEO et le GEO

Le contenu sémantiquement riche gagne :les embeddings denses capturent le sens, pas les mots. Écrivez pour l'intention, pas pour les mots-clés
La structure compte plus que jamais : les LLMs rerankers évaluent la pertinence passage par passage
L'autorité des sources devient un signal de reranking : les contenus sourcés, factuels et d'experts sont favorisés
Le RAG impose d'être "retrievable" : l'indexation et la crawlabilité restent fondamentales
Les agents multi-étapes créent de nouvelles opportunités : un contenu qui répond à une sous-question spécifique peut être cité même s'il ne couvre pas le sujet entier

Référence complète

Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, Ji-Rong Wen. Large Language Models for Information Retrieval: A Survey. arXiv:2308.07107, 2023.

Lire le papier complet sur arXiv →