Parametric Memory vs. Retrieval-Augmented Generation (RAG)

Implementation Example

# Parametric vs. RAG: Hybrid Approach

from sentence_transformers import SentenceTransformer
import faiss
from sklearn.feature_extraction.text import TfidfVectorizer

class HybridRAG:
    def __init__(self, documents):
        self.documents = documents
        self.embedder = SentenceTransformer('all-MiniLM-L6-v2')

        # Dense retrieval (embeddings)
        self.dense_embeddings = self.embedder.encode(documents)
        self.dense_index = faiss.IndexFlatL2(self.dense_embeddings.shape[1])
        self.dense_index.add(self.dense_embeddings)

        # Sparse retrieval (BM25/TF-IDF)
        self.sparse_vectorizer = TfidfVectorizer()
        self.sparse_matrix = self.sparse_vectorizer.fit_transform(documents)

    def hybrid_retrieve(self, query, k=5, alpha=0.5):
        """Hybrid retrieval: dense + sparse with score fusion"""
        # Dense retrieval
        query_embedding = self.embedder.encode([query])
        dense_distances, dense_indices = self.dense_index.search(query_embedding, k * 2)

        # Sparse retrieval
        query_sparse = self.sparse_vectorizer.transform([query])
        sparse_distances, sparse_indices = self.sparse_search(query_sparse, k * 2)

        # Score fusion
        scores = {}
        for i, idx in enumerate(dense_indices[0]):
            scores[idx] = scores.get(idx, 0) + alpha * (1 - dense_distances[0][i])

        for i, idx in enumerate(sparse_indices):
            scores[idx] = scores.get(idx, 0) + (1 - alpha) * (1 - sparse_distances[i])

        # Get top-k
        top_k = sorted(scores.items(), key=lambda x: x[1], reverse=True)[:k]
        return [self.documents[idx] for idx, score in top_k]

    def rerank(self, query, retrieved_docs, reranker_model):
        """Cross-encoder re-ranking for improved precision"""
        pairs = [[query, doc] for doc in retrieved_docs]
        scores = reranker_model.predict(pairs)
        sorted_docs = [doc for _, doc in sorted(zip(scores, retrieved_docs), reverse=True)]
        return sorted_docs

# Usage
rag_system = HybridRAG(document_corpus)
relevant_docs = rag_system.hybrid_retrieve(user_query, k=10)
reranked_docs = rag_system.rerank(user_query, relevant_docs, reranker_model)

Parametric Memory vs. Retrieval-Augmented Generation (RAG)

Intent & Description

🎯 Intent

📋 Context

💡 Solution

Real-world Use Case

📌 TL;DR

Advantages

Disadvantages