¿Qué es la overdispersión estadística?

La overdispersión ocurre cuando la varianza observada de los datos es mayor que la que el modelo asume. Para la distribución de Poisson, el supuesto es que varianza = media (ambas igualan λ). Si la varianza real de los goles marcados es mayor que la media, los datos presentan overdispersión respecto al modelo de Poisson.

¿Los datos de goles de fútbol presentan overdispersión?

Sí, en alguna medida. Cuando se ajusta una distribución de Poisson a los goles por equipo por partido en una liga, el índice de dispersión (varianza muestral / media muestral) suele ser ligeramente superior a 1. La overdispersión es más pronunciada en ligas de menor nivel con mayor variabilidad entre equipos, y menos notable en ligas muy competidas donde los equipos son más homogéneos.

¿Qué es la distribución binomial negativa y cuándo es preferible a Poisson?

La distribución binomial negativa es una generalización de Poisson que permite que la varianza sea mayor que la media: Var(Y) = μ + μ²/r, donde r es un parámetro de dispersión positivo. Cuando r → ∞, la binomial negativa converge a Poisson. Es preferible cuando hay overdispersión estadísticamente significativa y la mejora en calibración justifica el parámetro adicional.

¿Por qué Dixon-Coles usa Poisson si hay overdispersión?

Por tres razones: (1) Los parámetros de ataque y defensa de cada equipo ya capturan la mayor parte de la heterogeneidad entre partidos, reduciendo la overdispersión residual. (2) El parámetro adicional de la binomial negativa añade complejidad con mejora marginal en calibración. (3) La interpretación de λ como goles esperados conecta directamente con el xG, lo que hace el modelo más transparente.

¿Cómo se detecta la overdispersión en datos de fútbol?

El método más directo es el índice de dispersión: varianza muestral dividida entre la media muestral. Si es significativamente mayor que 1, hay overdispersión. También se puede usar el test de Cameron & Trivedi: regresar (Y − λ̂)²/λ̂ − 1 sobre 1/λ̂ y verificar si el coeficiente es estadísticamente diferente de cero. Un cociente de devianza / grados de libertad muy superior a 1 también es indicativo.

Modelos Matemáticos

Overdispersión en fútbol:
cuándo Poisson se queda corto

La distribución de Poisson tiene una propiedad muy conveniente: media y varianza son iguales. Pero los datos reales de goles de fútbol no siempre obedecen esta restricción. La overdispersión es la diferencia entre lo que el modelo asume y lo que los datos muestran — y entenderla determina cuándo Poisson es suficiente y cuándo no.

El supuesto crítico de Poisson: media = varianza

La distribución de Poisson tiene una característica matemática fundamental: si una variable sigue una distribución de Poisson con parámetro λ, entonces su media esperada y su varianza son ambas iguales a λ.

E[Y] = λ

Var[Y] = λ

Para datos que siguen Poisson exactamente, varianza / media = 1

Esta igualdad entre media y varianza es conveniente porque simplifica el modelo: un solo parámetro (λ) describe completamente la distribución. La overdispersión ocurre cuando la varianza real de los datos es mayor que la media — es decir, cuando el índice de dispersión (varianza/media) es significativamente mayor que 1.

En ese caso, Poisson subestima la variabilidad de los datos. Las predicciones de intervalo serán demasiado estrechas y el modelo puede parecer más seguro de lo que debería.

Por qué aparece la overdispersión en fútbol

La overdispersión en datos de goles no suele deberse a que el proceso de goles sea intrínsecamente "no-Poisson". La causa más frecuente es más sutil: la heterogeneidad no observada.

Imagina que cada partido tiene su propio λ verdadero — que varía según la calidad de los equipos ese día, la táctica, el estado de forma, las condiciones del campo. Si observas goles de cientos de partidos con λ diferentes, la distribución resultante es una mezcla de distribuciones de Poisson. Y una mezcla de Poissons tiene, por construcción, varianza mayor que la media.

Ejemplo numérico

Partido A: Arsenal vs Bournemouth → λ_real = 2.8 (partido abierto esperado)

Partido B: Atlético vs Juventus → λ_real = 0.9 (partido cerrado esperado)

Si promedias ambos: media aparente = 1.85, pero la varianza de la mezcla es mayor que 1.85 porque los λ verdaderos fluctúan alrededor de esa media.

La solución de Dixon-Coles es estimar parámetros individuales de ataque y defensa por equipo — lo que captura explícitamente mucha de esa heterogeneidad. Al hacerlo, la overdispersión residual (la que queda después de controlar por calidad de equipos) es sustancialmente menor.

Cómo detectar overdispersión

El diagnóstico más directo es el índice de dispersión (Variance-to-Mean Ratio, VMR):

VMR = s² / ȳ

s² = varianza muestral de los goles

ȳ = media muestral de los goles

VMR ≈ 1 → Poisson adecuada | VMR > 1 → overdispersión

Valores típicos en fútbol europeo

Goles en bruto (sin controlar calidad)

1.15–1.35Overdispersión moderada

Residuos del modelo Poisson (post-estimación)

1.02–1.10Overdispersión leve

Datos simulados de Poisson pura

~1.00Referencia teórica

Una vez ajustados los parámetros por equipo, la overdispersión residual en la mayoría de ligas importantes es relativamente pequeña. El modelo captura la mayor parte de la heterogeneidad.

La binomial negativa: el modelo alternativo

La distribución binomial negativa es la alternativa más natural a Poisson cuando hay overdispersión. Añade un parámetro de dispersión r que permite que la varianza sea mayor que la media:

E[Y] = μ

Var[Y] = μ + μ²/r

Cuando r → ∞: Var[Y] → μ, y la binomial negativa converge a Poisson

El parámetro r captura cuánta variabilidad extra existe en los datos. Un r pequeño indica mucha overdispersión; un r grande indica que la distribución se parece a Poisson.

Ventajas de la binomial negativa

• Más flexible: modela varianza > media
• Intervalos de predicción más honestos
• Mejor ajuste empírico en datos brutos
• Captura partidos de alta varianza

Costes del modelo NB

• Un parámetro adicional por liga
• Estimación más compleja
• Mejora marginal post-control por equipos
• Interpretación menos directa

Por qué Dixon-Coles mantiene Poisson

Dado que existe algo de overdispersión, ¿por qué Dixon-Coles —y la mayoría de modelos de predicción de fútbol— usan Poisson en lugar de binomial negativa? Hay tres razones concretas:

Los parámetros por equipo resuelven la mayor parte del problema

La heterogeneidad entre equipos es la principal fuente de overdispersión. Una vez que el modelo estima parámetros de ataque y defensa individuales para cada equipo, la overdispersión residual es pequeña. El coste de añadir un parámetro NB no compensa la mejora.

Conexión directa con el Expected Goals (xG)

Los parámetros λ de Poisson tienen una interpretación física directa: son los goles esperados del equipo. Esa conexión con el xG hace que el modelo sea transparente y verificable. La binomial negativa tiene un parámetro r de interpretación menos intuitiva.

Mejora empírica marginal

Estudios que comparan ambas distribuciones en ligas europeas encuentran mejoras de calibración pequeñas al usar binomial negativa una vez ajustados los efectos por equipo. El umbral de mejora no justifica la complejidad añadida para aplicaciones prácticas.

Esto no significa que Poisson sea perfecta. En ligas con mayor variabilidad — divisiones inferiores con grandes diferencias de presupuesto entre equipos — la overdispersión puede ser más significativa y la binomial negativa podría mejorar las predicciones de forma más relevante.

Implicaciones para los intervalos de predicción

La consecuencia más práctica de ignorar la overdispersión es que los intervalos de predicción son demasiado estrechos. Un modelo Poisson que no corrige overdispersión puede estar implícitamente afirmando más certeza de la que los datos justifican.

Implicación para la calibración

Si Poisson subestima la varianza real, las probabilidades en los extremos (resultados muy probables o muy improbables) estarán ligeramente sesgadas. Los partidos inesperadamente volátiles ocurrirán con más frecuencia de la que el modelo predice. Esto es una forma de sobreconfianza que los diagramas de fiabilidad pueden revelar.

Cómo medir la calibración real de un modelo de predicción →

El modelo en la práctica

POISSON FC usa la distribución de Poisson con parámetros individuales por equipo, que captura la mayor parte de la variabilidad entre partidos. Las predicciones reflejan la incertidumbre inherente al fútbol, no certezas.

Ver predicciones de hoy La distribución de Poisson explicada →