Comprendre le RAG : la technique qui rend vos chatbots vraiment utiles

AI

Tutorial

Education

Comprendre le RAG : la technique qui rend vos chatbots vraiment utiles

Épisode 2 de la série "L'IA sans bullshit" — où on vous explique concrètement ce qui rend un chatbot utile vs inutile.

Le problème : des IA qui racontent n'importe quoi

Vous avez déjà eu cette expérience : vous posez une question à ChatGPT ou à un chatbot d'entreprise, et la réponse semble parfaitement construite, articulée, convaincante… mais complètement fausse.

C'est ce qu'on appelle les hallucinations. Et c'est le problème n°1 des LLMs (Large Language Models) en 2025. Une étude de Vectara (2024) a mesuré que les LLMs les plus populaires hallucinent dans 3 % à 27 % des cas selon le modèle et le type de question — même GPT-4 et Claude 3.5 ne sont pas épargnés.

LLM vanilla vs RAG-powered — la différence cruciale

À gauche : un LLM qui invente. À droite : un LLM RAG qui consulte ses sources avant de répondre.

⚠️ À retenir
Le problème fondamental : un LLM ne « sait » rien. Il prédit le mot le plus probable après le précédent. C'est un modèle de langage, pas une base de connaissances. Quand il n'a pas l'information, il invente — avec la même assurance que quand il dit la vérité.

C'est là qu'intervient le RAG — et c'est probablement la technique la plus importante à comprendre si vous voulez utiliser l'IA de façon fiable.

Qu'est-ce que le RAG, concrètement ?

RAG signifie Retrieval-Augmented Generation — en français : génération augmentée par la récupération. Le concept a été introduit en 2020 par des chercheurs de Facebook AI Research (FAIR) dans un paper fondateur (Lewis et al., 2020).

L'idée est simple mais puissante :

Au lieu de demander à l'IA de répondre "de mémoire"…

…on lui donne accès aux bons documents AVANT qu'elle réponde.

Le pipeline RAG expliqué visuellement

Le pipeline RAG : documents → chunking → embeddings → retrieval → génération augmentée

Les 4 étapes du pipeline RAG

1

Ingestion : préparer la base de connaissances

Vos documents (PDF, pages web, FAQ, manuels) sont découpés en petits morceaux (chunks) de 200-500 tokens. C'est comme découper une encyclopédie en fiches thématiques.

Chaque chunk est ensuite transformé en un vecteur numérique (embedding) via un modèle spécialisé comme OpenAI text-embedding-3-small ou le modèle open-source BGE-M3 de BAAI.

2

Stockage : la base vectorielle

Ces vecteurs sont stockés dans une base de données vectorielle (Pinecone, Weaviate, Chroma, pgvector). Chaque vecteur capture le « sens » sémantique du chunk, pas juste les mots.

Concrètement, un vecteur est une liste de 768 à 3072 nombres décimaux qui représente le « sens » du texte dans un espace mathématique multidimensionnel.

3

Retrieval : trouver les bons passages

Quand l'utilisateur pose une question, celle-ci est aussi convertie en vecteur, puis comparée aux vecteurs de la base pour trouver les chunks les plus proches sémantiquement.

La similarité cosinus est la mesure la plus courante : deux textes qui « parlent de la même chose » auront des vecteurs pointant dans la même direction, même s'ils utilisent des mots différents.

4

Generation : répondre avec contexte

Les chunks les plus pertinents (3 à 10 en général) sont injectés dans le prompt du LLM avec la consigne : « Réponds UNIQUEMENT en te basant sur ces documents. »

Le LLM devient alors un « rédacteur expert » qui synthétise l'information des documents fournis au lieu d'inventer. Résultat : moins d'hallucinations, des réponses traçables et vérifiables.

Pourquoi le RAG change tout

Critère❌ LLM seul ("vanilla")✅ LLM + RAG
Hallucinations3–27 % des réponses (Vectara, 2024)Réduites de 50-70 % selon les implémentations
Sources des réponsesDonnées d'entraînement statiques (date de cutoff)Vos documents actualisés en temps réel
TraçabilitéImpossible de savoir d'où vient l'infoChaque réponse cite ses sources exactes
Mise à jourNécessite un ré-entraînement coûteux ($$$)Ajoutez/modifiez des documents, c'est instantané
CoûtFine-tuning = $10K–$100K+Base vectorielle = $20–500/mois
Données privéesNon prises en compte (sauf fine-tuning)Intégrées naturellement dans la base
💡 Insight clé
Le RAG ne rend pas l'IA parfaite. Mais il réduit drastiquement les hallucinations en donnant au LLM un périmètre de vérité sur lequel s'appuyer. C'est la différence entre demander à quelqu'un de parler d'un sujet de mémoire… et lui donner le dossier complet avant l'oral.

Cas concret : le chatbot SupDeco Dakar

Pour illustrer le RAG en action, voici un projet réel que j'ai développé : un chatbot de service client de simultaion SupDeco Dakar, une grande école de commerce au Sénégal.

Le contexte

L'école recevait des centaines de questions récurrentes chaque mois : conditions d'admission, frais de scolarité, programmes disponibles, dates de rentrée, partenariats internationaux… Les équipes administratives passaient un temps considérable à répondre toujours aux mêmes questions.

La solution RAG

Ingestion

Tous les documents officiels (brochures, FAQ, grilles tarifaires, conventions de partenariat) ont été ingérés et découpés en chunks.

Vectorisation

Chaque chunk transformé en embedding et stocké dans une base vectorielle.

Prompt engineering

Le system prompt du chatbot a été calibré : « Tu es l'assistant officiel de SupDeco Dakar. Réponds UNIQUEMENT à partir des documents fournis. Si l'info n'est pas dans les documents, dis-le clairement. »

Interface

Un widget de chat intégré au site web de l'école, accessible 24/7.

Les résultats

~80%

Des questions courantes traitées automatiquement

< 3%

Taux d'hallucination grâce au périmètre documentaire

24/7

Disponibilité vs horaires de bureau limités

🔬 Détail technique
La beauté du RAG : quand l'école a mis à jour ses frais de scolarité, il a suffi de re-vectoriser le nouveau PDF. Pas de ré-entraînement du modèle, pas de code à modifier. Le chatbot a immédiatement donné les nouveaux tarifs.

Comment implémenter un RAG ? (Guide pratique)

Bonne nouvelle : le RAG est devenu accessible. Voici les principales stacks techniques en 2025 :

ComposantOptions populairesCoût indicatif
LLMGPT-4o, Claude 3.5, Gemini 2.0, Llama 3 (open-source)$0.01–$0.06 / 1K tokens
Modèle d'embeddingOpenAI text-embedding-3-small, BGE-M3, Cohere Embed v3$0.00002 / 1K tokens
Base vectoriellePinecone, Weaviate, Chroma (local), pgvector (PostgreSQL)Gratuit → $70/mois
Framework orchestrationLangChain, LlamaIndex, HaystackOpen-source (gratuit)
InterfaceVercel AI SDK, Streamlit, custom ReactGratuit → $20/mois
💡 Insight clé
Pour un premier projet RAG basique, le coût total peut être inférieur à 50 $/mois — LLM API + base vectorielle gratuite (Chroma ou pgvector) + hébergement. C'est accessible à une PME, un étudiant, ou un freelance.

Les 5 erreurs à éviter en RAG

1

Chunks trop grands

Visez 200-500 tokens par chunk. Trop grand = bruit. Trop petit = perte de contexte.

2

Pas de chevauchement entre chunks

Un overlap de 50-100 tokens entre chunks adjacents préserve les informations aux frontières.

3

Ignorer les métadonnées

Taguez vos chunks avec source, date, catégorie. Ça permet un filtrage intelligent au retrieval.

4

Trop ou trop peu de chunks retrieval

3-5 chunks est un bon point de départ. Trop = confusion pour le LLM. Trop peu = info manquante.

5

Pas de fallback pour les hors-sujet

Instruisez le LLM à dire « Je n'ai pas cette information dans mes documents » plutôt que d'inventer.

Conclusion : le RAG est le socle de l'IA fiable

🤝 Réponse honnête

Le RAG n'est pas une mode. C'est le pattern architectural dominant pour toute application IA qui touche à des données d'entreprise.

Gartner prédit que d'ici fin 2025, plus de 80% des applications d'IA d'entreprise utiliseront le RAG sous une forme ou une autre. Ce n'est plus une question de "si", mais de "comment bien le faire".

La prochaine fois qu'un chatbot vous donne une réponse parfaitement fausse, demandez-vous :

"Est-ce qu'il utilise le RAG ?" — La réponse sera probablement non. 🎯