IA générative

RAG (Retrieval-Augmented Generation) : le guide complet

Tout sur le RAG en 2026 : architecture, embeddings, vector DB, chunking, reranking. Tutoriel complet pour bâtir un assistant IA sur tes données.

Etienne Aubry

Développeur & Expert Automatisation IA

· 22 avril 2026 · 11 min de lecture · 2085 mots

Architecture visuelle d'un pipeline RAG avec base vectorielle

Tu as une base documentaire d’entreprise (procédures, contrats, FAQ produit) et tu rêves de la transformer en assistant IA qui répond à n’importe quelle question en quelques secondes. Tu as essayé de coller tes 200 pages de doc dans le prompt de ChatGPT ? Tu as vite buté sur les limites de contexte, le coût exorbitant, et les hallucinations. La solution s’appelle RAG, pour Retrieval-Augmented Generation. C’est la technique d’IA la plus déployée en entreprise en 2026, et probablement celle qui apportera le plus de valeur à ton activité dans les 12 prochains mois.

Dans ce guide complet en français, je décortique l’architecture d’un système RAG production-ready, les choix techniques à faire (embeddings, vector DB, chunking, reranking), et un tutoriel concret pour en construire un sur ta propre doc avec Make ou n8n.

Le problème que résout le RAG

Les LLM ont deux limitations majeures pour les usages d’entreprise. D’abord, ils ne connaissent pas tes données privées (tes contrats, ta base CRM, tes procédures internes). Ils ont été entraînés sur des données publiques jusqu’à une certaine date. Deuxièmement, ils hallucinent : si tu leur demandes une info qu’ils n’ont pas, ils inventent une réponse plausible mais fausse.

Le RAG résout les deux. Le principe : avant de poser la question au LLM, on cherche dans tes documents les passages les plus pertinents, puis on les colle dans le prompt avec la question. Le LLM répond en s’appuyant sur ces passages cités. Résultat : réponses ancrées sur tes vraies données, hallucinations divisées par 10, traçabilité des sources.

C’est l’approche standard en 2026 pour : chatbots client, assistants employés, recherche documentaire intelligente, génération de réponses commerciales personnalisées, agents juridiques internes. Pratiquement tous les projets IA d’entreprise sérieux incluent une couche RAG.

Architecture d’un système RAG

Un pipeline RAG complet comprend 6 étapes, divisées en deux phases : indexation (offline, périodique) et requête (online, en temps réel).

Phase indexation (à chaque ajout ou MAJ de doc) :

Ingestion : tu récupères tes documents source (PDF, Notion, Google Drive, base SQL)
Chunking : tu découpes en passages de 200-1500 tokens
Embedding : tu transformes chaque chunk en vecteur numérique
Stockage : tu sauvegardes les chunks et leurs vecteurs dans une vector DB

Phase requête (à chaque question utilisateur) :

Retrieval : tu transformes la question en vecteur, tu cherches les K chunks les plus similaires
Generation : tu passes la question + les chunks au LLM, qui formule la réponse

Cette architecture en deux phases est ce qui rend le RAG rapide en production : l’indexation, lente, est faite en batch. La requête, qui doit être rapide, ne fait qu’une recherche vectorielle (10-50ms) et un appel LLM (1-3 secondes).

Choisir son modèle d’embeddings

L’embedding est le processus qui transforme un texte en vecteur de nombres (typiquement 768 à 3072 dimensions). Deux textes proches sémantiquement auront des vecteurs proches.

Les modèles d’embeddings recommandés en 2026 :

OpenAI text-embedding-3-large : 3072 dimensions, excellent multilingue, 0.13 $/M tokens. Standard de l’industrie.
OpenAI text-embedding-3-small : 1536 dimensions, plus rapide et 5x moins cher. Bon compromis pour les volumes.
Voyage AI voyage-3 : nouveau en 2025, top sur les benchmarks, particulièrement bon en français et juridique.
Cohere embed-multilingual-v4 : très solide en multilingue, bon support de 100+ langues.
Open source : BGE-large, Jina v3 : à héberger soi-même, idéal pour confidentialité maximale.

Mon choix par défaut en 2026 : OpenAI text-embedding-3-small pour 90 % des projets. Bon rapport qualité-prix, intégration triviale avec Make et n8n, qualité largement suffisante pour des bases inférieures à 100 000 documents. Pour des bases plus grandes ou des domaines spécialisés (médical, juridique), je teste systématiquement Voyage AI qui creuse l’écart sur ces cas.

Choisir sa base vectorielle

La vector DB stocke tes chunks et leurs embeddings, et exécute la recherche de similarité (généralement par algorithme HNSW). Les options principales en 2026 :

Pinecone : SaaS premium, ultra-rapide, scaling automatique. Plan starter à 70 $/mois.
Qdrant Cloud : SaaS plus accessible, hébergement EU, plan gratuit jusqu’à 1M vecteurs.
Weaviate Cloud : SaaS avec capacités hybrides (BM25 + vectoriel), bonne option pour le multilingue.
Supabase pgvector : extension Postgres, parfait si tu utilises déjà Supabase. Gratuit jusqu’à 500 MB.
Chroma : open source local, parfait pour POC ou auto-hébergement simple.
Self-hosted Qdrant : top option si tu veux la confidentialité absolue, déployable sur VPS pour 10-30 €/mois.

Pour la plupart des PME françaises, je recommande Supabase pgvector (gratuit, simple, hébergement EU). Si tu pars sur un volume au-delà de 100 000 documents, passe à Qdrant Cloud. Pinecone reste l’option premium pour des cas exigeants en latence.

Le chunking : étape la plus sous-estimée

Le chunking, c’est la façon dont tu découpes tes documents avant indexation. C’est l’étape qui a le plus d’impact sur la qualité du RAG, et c’est celle où la plupart des projets ratent.

Trois stratégies de chunking :

Chunking fixe : chaque chunk fait N tokens (ex : 512). Simple mais peut couper en plein milieu d’une phrase ou d’un concept.
Chunking sémantique : tu coupes aux frontières naturelles (paragraphes, sections, titres). Bien meilleur pour les docs structurés.
Chunking récursif : tu coupes au plus grand séparateur disponible (titre H1, puis H2, puis paragraphe, puis phrase). Stratégie par défaut de LangChain, robuste.

Taille de chunk recommandée :

Courts (200-400 tokens) : pour des FAQ, des passages techniques précis. Plus de précision en retrieval mais moins de contexte au LLM.
Moyens (500-800 tokens) : sweet spot pour la plupart des cas. Bon équilibre précision/contexte.
Longs (1000-1500 tokens) : pour les documents narratifs (articles, mémoires juridiques). Moins de chunks à parcourir mais plus de bruit potentiel.

Bonne pratique 2026 : ajoute toujours un overlap de 10-20 % entre chunks consécutifs. Ça évite de perdre l’info qui se trouve à la frontière entre deux chunks. Et inclus toujours des métadonnées (titre du document, section, date, auteur) pour permettre du filtrage à la recherche.

Sur un projet client en 2026 (cabinet d’avocats, 4000 contrats indexés), passer d’un chunking fixe à un chunking sémantique avec overlap a fait gagner 18 points de précision en retrieval. C’est ce genre d’optimisation qui transforme un RAG médiocre en RAG fiable.

Retrieval : la qualité passe par le reranking

Une fois la question vectorisée et les K chunks retournés, tu pourrais les passer directement au LLM. Mais en 2026, la meilleure pratique inclut une étape supplémentaire : le reranking.

Le reranker prend la question et les top-K chunks (ex : 20), et les réordonne par pertinence réelle (pas juste similarité vectorielle). Tu ne gardes ensuite que le top-N (ex : 5) pour le LLM. Avantages :

Précision en hausse de 15-30 % sur la plupart des benchmarks
Tu peux récupérer plus de candidats (50 au lieu de 5) sans saturer le LLM
Tu filtres automatiquement les faux positifs de la recherche vectorielle

Rerankers recommandés en 2026 :

Cohere Rerank v3 : standard, API simple, 2 $/1000 requêtes
Voyage rerank-2 : excellent, particulièrement en multilingue
Self-hosted bge-reranker-v2 : open source, parfait sur GPU

Sur un workflow Make ou n8n, ajouter un reranker, c’est un module HTTP de plus. Investissement minime, gain de qualité massif. C’est typiquement le genre d’optimisation qu’on intègre dans une architecture complète d’automatisation où la précision du retrieval est critique.

Generation : prompt et grounding

L’étape finale, c’est l’appel au LLM avec la question + les chunks pertinents. Un prompt RAG type :

<role>Tu es un assistant qui répond aux questions sur les procédures internes.</role>

<consigne>
Réponds en t'appuyant UNIQUEMENT sur les extraits fournis ci-dessous.
Si l'information n'est pas dans les extraits, réponds "Je n'ai pas l'information dans la documentation."
Cite tes sources avec le format [Source: nom_doc, section X].
</consigne>

<extraits>
{chunk 1 avec métadonnées}
{chunk 2 avec métadonnées}
{chunk 3 avec métadonnées}
</extraits>

<question>
{user_question}
</question>

Cette instruction “réponds uniquement avec les extraits” est cruciale. Sans elle, le LLM va mélanger sa connaissance générale avec ta doc, et tu réintroduis des hallucinations. Combine ça avec les patterns de prompt engineering pour un système robuste.

Bonne pratique : demande explicitement la citation des sources. Ça améliore la qualité (le modèle se concentre sur les extraits) et ça permet à l’utilisateur de vérifier.

Tutoriel : RAG simple avec n8n et Supabase

Voici comment monter un RAG fonctionnel en 1 journée avec n8n + Supabase pgvector. Stack très accessible, totalement EU, coût quasi-nul pour des volumes raisonnables.

Étape 1 : préparer Supabase

Crée un projet Supabase gratuit, active l’extension pgvector via SQL :

create extension if not exists vector;

create table documents (
  id bigserial primary key,
  content text,
  metadata jsonb,
  embedding vector(1536)
);

create index on documents using hnsw (embedding vector_cosine_ops);

Étape 2 : workflow d’indexation dans n8n

Trigger : Google Drive watcher (ou webhook si tes docs viennent d’ailleurs)
Lecture du fichier (PDF, Docx, Markdown)
Module “Code” pour faire le chunking récursif (LangChain texte splitter en JS)
Iterator sur les chunks
Appel OpenAI embeddings API
Insert dans Supabase via le module Postgres

Étape 3 : workflow de requête dans n8n

Trigger : webhook (ton chatbot frontend)
Appel OpenAI embedding sur la question
Module Postgres : select content, metadata, embedding <=> $1 as distance from documents order by distance limit 5
Module Cohere Rerank (HTTP request) pour réordonner
Module Anthropic Claude avec le prompt RAG ci-dessus
Retour de la réponse au webhook

En 1 journée tu as un RAG fonctionnel sur ta doc. Couts mensuels typiques : 0 € Supabase, 5-15 € OpenAI (embeddings + Claude), 5 € Cohere reranking. Pour un PME, c’est négligeable.

Monitorer un RAG en production

Comme tout système IA, un RAG demande du monitoring. Mes métriques clés en 2026 :

Taux de “je ne sais pas” : si trop bas, le système hallucine ; si trop haut, il est trop restrictif
Latence p95 du retrieval + génération
Coût moyen par requête (embeddings + LLM)
Feedback utilisateur : 👍/👎 sur chaque réponse, stocké pour audit
Coverage : sur 100 questions, combien sont effectivement répondues correctement (à mesurer manuellement chaque mois)

Sur des cas business critiques, on construit un dataset d’évaluation de 50-200 questions+réponses idéales. Chaque modification du système (nouveau modèle, nouveau chunking) est testée contre ce dataset. Tu sais immédiatement si une modif améliore ou détériore.

Cas d’usage RAG qui marchent en entreprise

En 2026, voici les cas où le RAG génère vraiment de la valeur :

Assistant support N1 : répond automatiquement aux questions clients les plus fréquentes en s’appuyant sur la base de connaissances.
Chatbot interne RH : congés, paie, procédures. Économise 30 % du temps RH.
Recherche commerciale : un commercial pose une question sur un client/produit, le RAG fouille CRM + emails + docs pour répondre.
Veille réglementaire : RAG sur les textes de loi ou normes sectorielles.
Assistant juridique : recherche dans contrats, jurisprudence, mémos internes.
Aide à la rédaction marketing : RAG sur les case studies et la charte éditoriale.

Le ROI est souvent spectaculaire. Un client cabinet médical en 2026 : RAG sur 2000 protocoles internes, économise 8 heures de recherche manuelle par semaine pour 4 médecins. Coût total du système : 35 €/mois. ROI : >100x.

Conclusion : le RAG est devenu indispensable

Si tu construis un produit IA pour entreprise en 2026, tu vas faire du RAG. Que ce soit pour un chatbot client, un assistant interne, ou un outil de recherche, c’est devenu l’architecture par défaut. Les blocs techniques sont matures (embeddings, vector DB, rerankers), les coûts ont chuté de 80 % en 18 mois, et les outils no-code (n8n, Make) permettent de prototyper en quelques heures.

Mon conseil pour démarrer : commence petit. Un seul document source, 100 chunks, une seule question type. Mesure la qualité. Itère sur le chunking. Ajoute le reranking. Multiplie les sources. Tu construiras progressivement un système robuste, sans te perdre dans la complexité.

Tu veux qu’on monte un RAG sur ta doc d’entreprise ? Réserve un audit gratuit. On regarde tes documents, ton volume, tes contraintes (RGPD, latence, budget), et tu repars avec une architecture chiffrée et un plan d’implémentation sur 2-4 semaines. Pour creuser la partie IA en amont, va lire Claude vs GPT-4 en 2026 qui détaille les meilleurs modèles pour la couche generation du RAG.

#RAG #IA #Embeddings #Vector DB #Tutoriel

Partager cet article

Twitter LinkedIn Email