Bias-Variance Tradeoff

Implementation Example

// Bias-Variance in practice: Regularization as the complexity dial

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler

# High Bias (Underfitting): Too simple
simple_model = LogisticRegression(C=0.01)  # Strong regularization
simple_score = cross_val_score(simple_model, X_train, y_train, cv=5)
print(f"High Bias: Train {simple_score.mean():.3f} (low)")

# High Variance (Overfitting): Too complex  
complex_model = RandomForestClassifier(n_estimators=1000, max_depth=None, min_samples_leaf=1)
complex_score_train = complex_model.score(X_train, y_train)  # Near 1.0
complex_score_val = cross_val_score(complex_model, X_train, y_train, cv=5)
print(f"High Variance: Train {complex_score_train:.3f}, Val {complex_score_val.mean():.3f} (gap)")

# Sweet Spot: Balanced complexity
balanced_model = RandomForestClassifier(
    n_estimators=200, 
    max_depth=10,           # Limit depth
    min_samples_leaf=5,     # Regularize
    max_features='sqrt'     # Decorrelate trees
)
balanced_score = cross_val_score(balanced_model, X_train, y_train, cv=5)
print(f"Balanced: {balanced_score.mean():.3f} (optimal)")

Intent & Description

🎯 Intent

📋 Context

💡 Solution

Real-world Use Case

Source

📌 TL;DR

Advantages

Disadvantages