Exploration vs. Exploitation (Reinforcement Learning)

Implementation Example

# Exploration vs. Exploitation Strategies

import numpy as np
from scipy.stats import beta

class BanditAgent:
    def __init__(self, n_arms, strategy='epsilon_greedy'):
        self.n_arms = n_arms
        self.strategy = strategy
        self.counts = np.zeros(n_arms)
        self.values = np.zeros(n_arms)
        self.epsilon = 0.1  # For epsilon-greedy
        self.alpha = np.ones(n_arms)  # For Thompson sampling
        self.beta = np.ones(n_arms)   # For Thompson sampling

    def select_arm(self):
        if self.strategy == 'epsilon_greedy':
            if np.random.random() < self.epsilon:
                return np.random.randint(self.n_arms)
            else:
                return np.argmax(self.values)

        elif self.strategy == 'ucb':
            # Upper Confidence Bound
            ucb_values = self.values + np.sqrt(2 * np.log(sum(self.counts) + 1) / (self.counts + 1e-5))
            return np.argmax(ucb_values)

        elif self.strategy == 'thompson_sampling':
            # Sample from Beta distribution
            samples = [np.random.beta(self.alpha[i], self.beta[i]) for i in range(self.n_arms)]
            return np.argmax(samples)

        elif self.strategy == 'boltzmann':
            # Softmax exploration with temperature
            temperature = 0.1
            exp_values = np.exp(self.values / temperature)
            probs = exp_values / np.sum(exp_values)
            return np.random.choice(self.n_arms, p=probs)

    def update(self, arm, reward):
        self.counts[arm] += 1
        self.values[arm] += (reward - self.values[arm]) / self.counts[arm]

        if self.strategy == 'thompson_sampling':
            self.alpha[arm] += reward
            self.beta[arm] += (1 - reward)

Exploration vs. Exploitation (Reinforcement Learning)

Intent & Description

🎯 Intent

📋 Context

💡 Solution

Real-world Use Case

📌 TL;DR

Advantages

Disadvantages