¿Qué es la calibración de un modelo de predicciones?

Un modelo está bien calibrado si, entre todos los eventos a los que asigna probabilidad p, aproximadamente p×100% ocurren realmente. Si el modelo dice que algo tiene 70% de probabilidad 100 veces, en una muestra grande deberían ocurrir alrededor de 70 de esas cosas. La calibración mide si las probabilidades del modelo son honestas sobre la frecuencia real de los eventos.

¿Qué es un diagrama de fiabilidad (reliability diagram)?

Un diagrama de fiabilidad (o diagrama de calibración) agrupa las predicciones en bins por probabilidad (0-10%, 10-20%, etc.) y compara la probabilidad media asignada con la frecuencia real de los eventos en ese bin. Si los puntos caen sobre la diagonal perfecta (predicción = frecuencia), el modelo está perfectamente calibrado. Por encima de la diagonal indica infraconfianza; por debajo, sobreconfianza.

¿Cuál es la diferencia entre calibración y accuracy (porcentaje de aciertos)?

El porcentaje de aciertos (accuracy) mide si el resultado predicho como más probable ocurre realmente. La calibración mide si las probabilidades son correctas en toda su distribución. Un modelo puede tener buen porcentaje de aciertos pero mala calibración (ej: siempre predice el local como favorito, que gana el 46% del tiempo). Y un modelo bien calibrado puede tener peor accuracy que uno sobreconfiado, porque distribuye su incertidumbre honestamente.

¿Qué es el Expected Calibration Error (ECE)?

El ECE es una métrica escalar que cuantifica la miscalibración promedio. Se calcula como la suma ponderada de las diferencias absolutas entre probabilidad predicha y frecuencia real en cada bin: ECE = Σ (n_bin/N) × |p̄_bin − ō_bin|. Un ECE de 0.05 significa que, en promedio, la frecuencia real difiere un 5 puntos porcentuales de la probabilidad asignada.

¿Backtesting y walk-forward evaluation son lo mismo?

No. En backtesting, el modelo se entrena con todos los datos disponibles y luego se evalúa sobre el mismo conjunto — lo que introduce sesgo de datos futuros (data leakage). La evaluación walk-forward entrena el modelo hasta el momento T y evalúa sobre el período T+1, luego avanza T y repite. Esto simula el uso real del modelo y produce métricas de calibración sin sesgo. El backtesting sobreestima sistemáticamente el rendimiento.

Evaluación de Modelos

Calibración de modelos
de predicción en fútbol

Actualizado el 20 de mayo de 2026 · Por Marcelo Arancibia

Un modelo puede acertar muchos resultados y aun así ser malo. La calibración mide algo más exigente: si las probabilidades que asigna el modelo son honestas. Esta guía explica qué es la calibración, cómo se mide y por qué importa más que el porcentaje de aciertos.

El problema con el porcentaje de aciertos

La forma más común de evaluar un modelo de predicciones es contar cuántas veces acierta el resultado más probable. Si el modelo dice "gana el local" y el local gana, ese partido suma un acierto. Sencillo, pero engañoso.

Considera este modelo trivial: predice siempre victoria local, con 100% de probabilidad. En las grandes ligas europeas, el local gana el 46% de los partidos. Este modelo tendría un 46% de aciertos — más que muchos modelos sofisticados. Y sin embargo, es completamente inútil: no distingue entre partidos, no incorpora calidad de equipos, no produce probabilidades creíbles.

La calibración hace una pregunta diferente: ¿son las probabilidades del modelo honestas? No si el resultado más probable ocurre, sino si las frecuencias reales de los eventos se corresponden con las probabilidades asignadas.

Calibración perfecta: la definición formal

Un modelo está bien calibrado si, entre todos los eventos a los que asigna probabilidad p, aproximadamente p×100% ocurren realmente.

Ejemplo de calibración perfecta

Eventos con P=10% predicha100 partidos~10 ocurren

Eventos con P=30% predicha100 partidos~30 ocurren

Eventos con P=50% predicha100 partidos~50 ocurren

Eventos con P=70% predicha100 partidos~70 ocurren

Eventos con P=90% predicha100 partidos~90 ocurren

Esto no significa que el modelo deba acertar el 70% de las veces cuando dice "70%". Significa que, en el largo plazo, agregando todos los eventos a los que asigna 70%, exactamente el 70% deberían ocurrir. Un evento individual con 70% puede no ocurrir — eso es estadística normal, no error de calibración.

El diagrama de fiabilidad

La herramienta estándar para visualizar la calibración es el diagrama de fiabilidad (reliability diagram o calibration plot). Se construye así:

Agrupa todas las predicciones en bins de probabilidad: [0-10%, 10-20%, ..., 90-100%].

Para cada bin, calcula la probabilidad media asignada y la frecuencia real de los eventos en ese bin.

Grafica (probabilidad media del bin, frecuencia real). Si los puntos están sobre la diagonal y=x, la calibración es perfecta.

Interpretación de las desviaciones

Puntos sobre la diagonal (predicción < frecuencia)

Infraconfianza: el modelo es más conservador de lo necesario. Predice 40% cuando la frecuencia real es 55%.

Puntos bajo la diagonal (predicción > frecuencia)

Sobreconfianza: el modelo es más extremo de lo que los datos justifican. Predice 80% cuando la frecuencia real es 60%.

Curva en S

Miscalibración asimétrica: sobreconfiado en extremos, infraconfiado en el centro o viceversa.

Métricas de calibración: del gráfico al número

El diagrama de fiabilidad es visual. Para comparar modelos o monitorear la calibración en el tiempo se necesitan métricas escalares.

Expected Calibration Error (ECE)

ECE = Σ_bins (n_bin/N) × |p̄_bin − ō_bin|

Media ponderada de las diferencias absolutas entre probabilidad predicha y frecuencia observada por bin. ECE = 0 es calibración perfecta; ECE = 0.05 significa que las probabilidades se desvían en promedio 5pp de las frecuencias reales.

Brier Score (como proxy de calibración)

El Brier Score es el error cuadrático medio de las probabilidades: BS = (1/N) × Σ (p_i − o_i)². Puede descomponerse en componentes de calibración, resolución e incertidumbre. Un Brier Score bajo implica buena calibración, pero un buen Brier Score no garantiza calibración perfecta.

Guía completa del Brier Score →

Causas de miscalibración en modelos de fútbol

Los modelos de predicción de fútbol presentan fuentes de miscalibración características que es útil identificar:

Sobreajuste (overfitting): si el modelo tiene muchos parámetros libres y pocos datos, aprende el ruido de los datos de entrenamiento. Las probabilidades en datos nuevos serán más extremas de lo justificado — sobreconfianza sistemática.
Cambio de dinámica de la liga: los parámetros estimados en una temporada reflejan la dinámica de esa temporada. Si el nivel competitivo cambia (refuerzos de invierno, descensos, cambios tácticos masivos), el modelo puede producir probabilidades desviadas.
Overdispersión no capturada: si el modelo usa Poisson pero los datos presentan más variabilidad de la esperada, las probabilidades en los extremos estarán sesgadas. Los partidos inesperadamente volátiles ocurrirán con más frecuencia de la predicha.
Base rate drift: las ligas tienen tasas medias de goles que evolucionan. Si la liga promedia 2.4 goles en vez de los 2.8 históricos, las probabilidades de Over/Under estarán sistemáticamente desviadas.

Walk-forward vs. backtesting: por qué importa la diferencia

La calibración solo tiene valor si se mide sin sesgo de datos futuros. Hay dos formas principales de evaluar un modelo sobre datos históricos, y producen resultados muy diferentes:

Backtesting (sesgado)

Entrena el modelo con todos los datos disponibles. Evalúa sobre los mismos datos.

Problema: el modelo ya "vio" los datos de evaluación durante el entrenamiento. Las métricas de calibración son optimistas — sobreestiman el rendimiento real.

Walk-forward (correcto)

Entrena hasta el momento T. Evalúa en T+1. Avanza T y repite.

El modelo predice datos que nunca vio. La calibración refleja cómo funcionaría en tiempo real. Es el estándar correcto para evaluar rendimiento.

Un modelo puede parecer bien calibrado en backtesting y mostrar miscalibración significativa en evaluación walk-forward. La diferencia revela cuánto del "buen rendimiento" era simplemente haber memorizado los datos de entrenamiento.

Estándar de POISSON FC

Las métricas de rendimiento del modelo se calculan exclusivamente con evaluación walk-forward. Las predicciones históricas son las predicciones que el modelo habría generado en el momento de cada partido, sin acceso a datos posteriores.

Ver el rendimiento real del modelo

La página de modelo de POISSON FC incluye las métricas de calibración walk-forward: Brier Score por liga, curvas de calibración y comparación con benchmarks.

Ver rendimiento del modelo El Brier Score explicado →

Recibe los 5 partidos con más edge cada semana

El modelo Dixon-Coles analiza 25 ligas y selecciona los partidos donde su probabilidad supera a la del mercado. Sin spam — solo datos, una vez por semana.

Value bets semanales, gratis

Los 5 partidos con mayor edge del modelo cada lunes. Sin spam.