Context Window vs. Speed vs. Cost

Implementation Example

# Context Window Optimization Strategies

import tiktoken
from sklearn.metrics.pairwise import cosine_similarity

class ContextOptimizer:
    def __init__(self, model_context_limit=4096):
        self.limit = model_context_limit
        self.encoding = tiktoken.encoding_for_model("gpt-4")

    def chunk_document(self, text, chunk_size=3000, overlap=300):
        """Split document into manageable chunks"""
        tokens = self.encoding.encode(text)
        chunks = []
        for i in range(0, len(tokens), chunk_size - overlap):
            chunk = tokens[i:i + chunk_size]
            chunks.append(self.encoding.decode(chunk))
        return chunks

    def retrieve_relevant_chunks(self, query, document_chunks, k=3):
        """RAG: Retrieve only relevant chunks"""
        query_embedding = self.embed(query)
        chunk_embeddings = [self.embed(chunk) for chunk in document_chunks]

        similarities = cosine_similarity([query_embedding], chunk_embeddings)[0]
        top_k_indices = similarities.argsort()[-k:][::-1]

        return [document_chunks[i] for i in top_k_indices]

    def compress_context(self, text, compression_ratio=0.3):
        """Summarize to fit within context limit"""
        target_length = int(len(text) * compression_ratio)
        summary = self.summarize_model.generate(text, max_tokens=target_length)
        return summary

    def build_efficient_context(self, query, long_document):
        """Combine strategies for maximum efficiency"""
        if len(self.encoding.encode(long_document)) <= self.limit:
            return long_document

        # Strategy 1: Retrieve relevant chunks
        chunks = self.chunk_document(long_document)
        relevant = self.retrieve_relevant_chunks(query, chunks)

        # Strategy 2: If still too long, compress
        combined = "\n\n".join(relevant)
        if len(self.encoding.encode(combined)) > self.limit:
            return self.compress_context(combined)

        return combined

    def estimate_tokens(self, text):
        """Estimate token count for cost calculation"""
        return len(self.encoding.encode(text))

Context Window vs. Speed vs. Cost

Intent & Description

🎯 Intent

📋 Context

💡 Solution

Real-world Use Case

📌 TL;DR

Advantages

Disadvantages