Calibración de modelos
de predicción en fútbol
Un modelo puede acertar muchos resultados y aun así ser malo. La calibración mide algo más exigente: si las probabilidades que asigna el modelo son honestas. Esta guía explica qué es la calibración, cómo se mide y por qué importa más que el porcentaje de aciertos.
El problema con el porcentaje de aciertos
La forma más común de evaluar un modelo de predicciones es contar cuántas veces acierta el resultado más probable. Si el modelo dice "gana el local" y el local gana, ese partido suma un acierto. Sencillo, pero engañoso.
Considera este modelo trivial: predice siempre victoria local, con 100% de probabilidad. En las grandes ligas europeas, el local gana el 46% de los partidos. Este modelo tendría un 46% de aciertos — más que muchos modelos sofisticados. Y sin embargo, es completamente inútil: no distingue entre partidos, no incorpora calidad de equipos, no produce probabilidades creíbles.
La calibración hace una pregunta diferente: ¿son las probabilidades del modelo honestas? No si el resultado más probable ocurre, sino si las frecuencias reales de los eventos se corresponden con las probabilidades asignadas.
Calibración perfecta: la definición formal
Un modelo está bien calibrado si, entre todos los eventos a los que asigna probabilidad p, aproximadamente p×100% ocurren realmente.
Ejemplo de calibración perfecta
Esto no significa que el modelo deba acertar el 70% de las veces cuando dice "70%". Significa que, en el largo plazo, agregando todos los eventos a los que asigna 70%, exactamente el 70% deberían ocurrir. Un evento individual con 70% puede no ocurrir — eso es estadística normal, no error de calibración.
El diagrama de fiabilidad
La herramienta estándar para visualizar la calibración es el diagrama de fiabilidad (reliability diagram o calibration plot). Se construye así:
Agrupa todas las predicciones en bins de probabilidad: [0-10%, 10-20%, ..., 90-100%].
Para cada bin, calcula la probabilidad media asignada y la frecuencia real de los eventos en ese bin.
Grafica (probabilidad media del bin, frecuencia real). Si los puntos están sobre la diagonal y=x, la calibración es perfecta.
Interpretación de las desviaciones
Puntos sobre la diagonal (predicción < frecuencia)
Infraconfianza: el modelo es más conservador de lo necesario. Predice 40% cuando la frecuencia real es 55%.
Puntos bajo la diagonal (predicción > frecuencia)
Sobreconfianza: el modelo es más extremo de lo que los datos justifican. Predice 80% cuando la frecuencia real es 60%.
Curva en S
Miscalibración asimétrica: sobreconfiado en extremos, infraconfiado en el centro o viceversa.
Métricas de calibración: del gráfico al número
El diagrama de fiabilidad es visual. Para comparar modelos o monitorear la calibración en el tiempo se necesitan métricas escalares.
Expected Calibration Error (ECE)
Media ponderada de las diferencias absolutas entre probabilidad predicha y frecuencia observada por bin. ECE = 0 es calibración perfecta; ECE = 0.05 significa que las probabilidades se desvían en promedio 5pp de las frecuencias reales.
Brier Score (como proxy de calibración)
El Brier Score es el error cuadrático medio de las probabilidades: BS = (1/N) × Σ (pi − oi)². Puede descomponerse en componentes de calibración, resolución e incertidumbre. Un Brier Score bajo implica buena calibración, pero un buen Brier Score no garantiza calibración perfecta.
Guía completa del Brier Score →Causas de miscalibración en modelos de fútbol
Los modelos de predicción de fútbol presentan fuentes de miscalibración características que es útil identificar:
- Sobreajuste (overfitting): si el modelo tiene muchos parámetros libres y pocos datos, aprende el ruido de los datos de entrenamiento. Las probabilidades en datos nuevos serán más extremas de lo justificado — sobreconfianza sistemática.
- Cambio de dinámica de la liga: los parámetros estimados en una temporada reflejan la dinámica de esa temporada. Si el nivel competitivo cambia (refuerzos de invierno, descensos, cambios tácticos masivos), el modelo puede producir probabilidades desviadas.
- Overdispersión no capturada: si el modelo usa Poisson pero los datos presentan más variabilidad de la esperada, las probabilidades en los extremos estarán sesgadas. Los partidos inesperadamente volátiles ocurrirán con más frecuencia de la predicha.
- Base rate drift: las ligas tienen tasas medias de goles que evolucionan. Si la liga promedia 2.4 goles en vez de los 2.8 históricos, las probabilidades de Over/Under estarán sistemáticamente desviadas.
Walk-forward vs. backtesting: por qué importa la diferencia
La calibración solo tiene valor si se mide sin sesgo de datos futuros. Hay dos formas principales de evaluar un modelo sobre datos históricos, y producen resultados muy diferentes:
Backtesting (sesgado)
Entrena el modelo con todos los datos disponibles. Evalúa sobre los mismos datos.
Problema: el modelo ya "vio" los datos de evaluación durante el entrenamiento. Las métricas de calibración son optimistas — sobreestiman el rendimiento real.
Walk-forward (correcto)
Entrena hasta el momento T. Evalúa en T+1. Avanza T y repite.
El modelo predice datos que nunca vio. La calibración refleja cómo funcionaría en tiempo real. Es el estándar correcto para evaluar rendimiento.
Un modelo puede parecer bien calibrado en backtesting y mostrar miscalibración significativa en evaluación walk-forward. La diferencia revela cuánto del "buen rendimiento" era simplemente haber memorizado los datos de entrenamiento.
Estándar de POISSON FC
Las métricas de rendimiento del modelo se calculan exclusivamente con evaluación walk-forward. Las predicciones históricas son las predicciones que el modelo habría generado en el momento de cada partido, sin acceso a datos posteriores.
Ver el rendimiento real del modelo
La página de modelo de POISSON FC incluye las métricas de calibración walk-forward: Brier Score por liga, curvas de calibración y comparación con benchmarks.