Overdispersión en fútbol:
cuándo Poisson se queda corto
La distribución de Poisson tiene una propiedad muy conveniente: media y varianza son iguales. Pero los datos reales de goles de fútbol no siempre obedecen esta restricción. La overdispersión es la diferencia entre lo que el modelo asume y lo que los datos muestran — y entenderla determina cuándo Poisson es suficiente y cuándo no.
El supuesto crítico de Poisson: media = varianza
La distribución de Poisson tiene una característica matemática fundamental: si una variable sigue una distribución de Poisson con parámetro λ, entonces su media esperada y su varianza son ambas iguales a λ.
E[Y] = λ
Var[Y] = λ
Para datos que siguen Poisson exactamente, varianza / media = 1
Esta igualdad entre media y varianza es conveniente porque simplifica el modelo: un solo parámetro (λ) describe completamente la distribución. La overdispersión ocurre cuando la varianza real de los datos es mayor que la media — es decir, cuando el índice de dispersión (varianza/media) es significativamente mayor que 1.
En ese caso, Poisson subestima la variabilidad de los datos. Las predicciones de intervalo serán demasiado estrechas y el modelo puede parecer más seguro de lo que debería.
Por qué aparece la overdispersión en fútbol
La overdispersión en datos de goles no suele deberse a que el proceso de goles sea intrínsecamente "no-Poisson". La causa más frecuente es más sutil: la heterogeneidad no observada.
Imagina que cada partido tiene su propio λ verdadero — que varía según la calidad de los equipos ese día, la táctica, el estado de forma, las condiciones del campo. Si observas goles de cientos de partidos con λ diferentes, la distribución resultante es una mezcla de distribuciones de Poisson. Y una mezcla de Poissons tiene, por construcción, varianza mayor que la media.
Ejemplo numérico
Partido A: Arsenal vs Bournemouth → λ_real = 2.8 (partido abierto esperado)
Partido B: Atlético vs Juventus → λ_real = 0.9 (partido cerrado esperado)
Si promedias ambos: media aparente = 1.85, pero la varianza de la mezcla es mayor que 1.85 porque los λ verdaderos fluctúan alrededor de esa media.
La solución de Dixon-Coles es estimar parámetros individuales de ataque y defensa por equipo — lo que captura explícitamente mucha de esa heterogeneidad. Al hacerlo, la overdispersión residual (la que queda después de controlar por calidad de equipos) es sustancialmente menor.
Cómo detectar overdispersión
El diagnóstico más directo es el índice de dispersión (Variance-to-Mean Ratio, VMR):
VMR = s² / ȳ
s² = varianza muestral de los goles
ȳ = media muestral de los goles
VMR ≈ 1 → Poisson adecuada | VMR > 1 → overdispersión
Valores típicos en fútbol europeo
Una vez ajustados los parámetros por equipo, la overdispersión residual en la mayoría de ligas importantes es relativamente pequeña. El modelo captura la mayor parte de la heterogeneidad.
La binomial negativa: el modelo alternativo
La distribución binomial negativa es la alternativa más natural a Poisson cuando hay overdispersión. Añade un parámetro de dispersión r que permite que la varianza sea mayor que la media:
E[Y] = μ
Var[Y] = μ + μ²/r
Cuando r → ∞: Var[Y] → μ, y la binomial negativa converge a Poisson
El parámetro r captura cuánta variabilidad extra existe en los datos. Un r pequeño indica mucha overdispersión; un r grande indica que la distribución se parece a Poisson.
Ventajas de la binomial negativa
- • Más flexible: modela varianza > media
- • Intervalos de predicción más honestos
- • Mejor ajuste empírico en datos brutos
- • Captura partidos de alta varianza
Costes del modelo NB
- • Un parámetro adicional por liga
- • Estimación más compleja
- • Mejora marginal post-control por equipos
- • Interpretación menos directa
Por qué Dixon-Coles mantiene Poisson
Dado que existe algo de overdispersión, ¿por qué Dixon-Coles —y la mayoría de modelos de predicción de fútbol— usan Poisson en lugar de binomial negativa? Hay tres razones concretas:
Los parámetros por equipo resuelven la mayor parte del problema
La heterogeneidad entre equipos es la principal fuente de overdispersión. Una vez que el modelo estima parámetros de ataque y defensa individuales para cada equipo, la overdispersión residual es pequeña. El coste de añadir un parámetro NB no compensa la mejora.
Conexión directa con el Expected Goals (xG)
Los parámetros λ de Poisson tienen una interpretación física directa: son los goles esperados del equipo. Esa conexión con el xG hace que el modelo sea transparente y verificable. La binomial negativa tiene un parámetro r de interpretación menos intuitiva.
Mejora empírica marginal
Estudios que comparan ambas distribuciones en ligas europeas encuentran mejoras de calibración pequeñas al usar binomial negativa una vez ajustados los efectos por equipo. El umbral de mejora no justifica la complejidad añadida para aplicaciones prácticas.
Esto no significa que Poisson sea perfecta. En ligas con mayor variabilidad — divisiones inferiores con grandes diferencias de presupuesto entre equipos — la overdispersión puede ser más significativa y la binomial negativa podría mejorar las predicciones de forma más relevante.
Implicaciones para los intervalos de predicción
La consecuencia más práctica de ignorar la overdispersión es que los intervalos de predicción son demasiado estrechos. Un modelo Poisson que no corrige overdispersión puede estar implícitamente afirmando más certeza de la que los datos justifican.
Implicación para la calibración
Si Poisson subestima la varianza real, las probabilidades en los extremos (resultados muy probables o muy improbables) estarán ligeramente sesgadas. Los partidos inesperadamente volátiles ocurrirán con más frecuencia de la que el modelo predice. Esto es una forma de sobreconfianza que los diagramas de fiabilidad pueden revelar.
El modelo en la práctica
POISSON FC usa la distribución de Poisson con parámetros individuales por equipo, que captura la mayor parte de la variabilidad entre partidos. Las predicciones reflejan la incertidumbre inherente al fútbol, no certezas.