¿Qué es la regresión de Poisson en fútbol?

La regresión de Poisson es un modelo estadístico (GLM) que estima los goles esperados de cada equipo como función de sus parámetros de ataque, defensa y ventaja de local. A diferencia de la distribución de Poisson, que describe la probabilidad de k goles dado un λ fijo, la regresión de Poisson estima ese λ a partir de los datos históricos de cada equipo.

¿Cuál es la diferencia entre distribución de Poisson y regresión de Poisson?

La distribución de Poisson describe la probabilidad de k eventos dado una tasa media λ fija: P(k;λ) = e^(−λ)·λ^k/k!. La regresión de Poisson es el marco estadístico que modela λ como función de covariables (ataque, defensa, ventaja local) y estima los coeficientes de ese modelo desde los datos. Son conceptos complementarios: la distribución es la pieza matemática; la regresión es el mecanismo de estimación.

¿Por qué se usa el logaritmo como función de enlace en la regresión de Poisson?

Porque garantiza que λ sea siempre positivo. El modelo especifica log(λ) = intercepto + parámetros, lo que equivale a λ = exp(intercepto + parámetros). Si los parámetros pudieran ser cualquier número real, λ siempre resultaría positivo (los goles no pueden ser negativos). El logaritmo es además el enlace canónico de la distribución de Poisson, lo que optimiza las propiedades estadísticas del estimador.

¿Qué mejora Dixon-Coles sobre la regresión de Poisson estándar?

Dixon-Coles añade tres mejoras: (1) ponderación temporal con decay exponencial para que los partidos recientes tengan más influencia que los antiguos; (2) corrección τ(ρ) para los cuatro marcadores más bajos (0-0, 1-0, 0-1, 1-1), que la regresión estándar subestima o sobreestima sistemáticamente; (3) estimación simultánea de todos los parámetros por máxima verosimilitud penalizada, garantizando identificabilidad del sistema.

Modelos Matemáticos

Regresión de Poisson en fútbol:
cómo se estiman los parámetros

Q: ¿Cómo se estiman los parámetros de ataque y defensa?

Los parámetros se estiman por máxima verosimilitud: se buscan los valores de ataque (αi), defensa (βj) y ventaja local (γ) que maximizan la probabilidad de haber observado los resultados históricos. En Dixon-Coles, cada partido histórico recibe un peso proporcional a exp(−ξ·Δt), donde Δt es el tiempo transcurrido desde ese partido.

La distribución de Poisson describe qué puede pasar dado un λ conocido. Pero en fútbol, λ no se conoce — se tiene que estimar desde datos. Eso es exactamente lo que hace la regresión de Poisson: el marco estadístico que convierte históricos de partidos en probabilidades de goles.

Distribución vs. regresión: la distinción clave

Son dos piezas del mismo sistema pero hacen cosas distintas:

Distribución de Poisson

Dada una tasa de goles λ, calcula la probabilidad de observar exactamente k goles.

P(k ; λ) = e^−λ · λ^k / k!

Pregunta: "¿Cuántos goles con λ=1.5?"

Regresión de Poisson

Dado un historial de resultados, estima el λ de cada equipo combinando parámetros de ataque, defensa y ventaja local.

log(λ) = μ + α_i + β_j + γ

Pregunta: "¿Qué λ explica los resultados observados?"

La regresión responde a la distribución: primero estimamos λ para cada equipo mediante regresión, luego usamos esa λ en la distribución de Poisson para generar las probabilidades de resultado. Son dos pasos que trabajan en secuencia.

El modelo lineal generalizado (GLM) para fútbol

La regresión de Poisson es un caso particular de los Modelos Lineales Generalizados (GLM). Para un partido entre el equipo local i y el visitante j, el modelo especifica:

log(λ_local) = μ + α_i + β_j + γ

log(λ_visitante) = μ + α_j + β_i

μ = intercept, tasa base de goles de la liga

α_i = parámetro de ataque del equipo i (positivo = buen ataque)

β_j = parámetro de defensa del equipo j (negativo = buena defensa)

γ = ventaja de local (siempre positivo)

El logaritmo como función de enlace garantiza que λ sea siempre positivo (los goles no pueden ser negativos). Las ecuaciones equivalentes en escala de goles son:

λ_local = exp(μ) · exp(α_i) · exp(β_j) · exp(γ)

λ_visitante = exp(μ) · exp(α_j) · exp(β_i)

Los parámetros son multiplicativos en la escala de goles: un equipo con exp(α_i) = 1.3 genera un 30% más de goles esperados que el equipo medio. Eso hace que los parámetros sean intuitivos — representan factores de escala sobre la tasa base de la liga.

Estimación por máxima verosimilitud

Los parámetros {α, β, γ, μ} se estiman encontrando los valores que maximizan la probabilidad de haber observado los resultados históricos. La función de log-verosimilitud para un conjunto de partidos es:

ℓ = Σ_partidos [x·log(λ) − λ + y·log(μ) − μ]

(ignorando el término constante log(k!) que no afecta la optimización)

Esta función se maximiza numéricamente — no existe solución analítica cerrada para sistemas con muchos equipos. En la práctica se usan algoritmos de gradiente como BFGS o L-BFGS, que convergen en decenas de iteraciones para ligas de 20 equipos.

Problema de identificabilidad

El sistema tiene infinitas soluciones equivalentes: si sumas una constante c a todos los α_i y restas c de todos los β_j, la log-verosimilitud no cambia. Se necesita una restricción de identificación: habitualmente se fija la suma de los parámetros de ataque a cero (Σα_i = 0) o se usa uno de los equipos como referencia. Dixon-Coles resuelve esto con una parametrización específica.

El decay temporal: no todos los partidos valen igual

La regresión de Poisson estándar asigna el mismo peso a todos los partidos históricos. Dixon-Coles introduce un factor de decay exponencial para que los partidos recientes tengan más influencia que los antiguos:

w(t) = exp(−ξ · (T − t))

T = fecha actual (o fecha del partido a predecir)

t = fecha del partido histórico

ξ = tasa de decay (parámetro estimado por liga)

La log-verosimilitud ponderada se convierte en:

ℓ_ξ = Σ_partidos w(t) · [x·log(λ) − λ + y·log(μ) − μ]

Tasa de decay por liga (ξ estimado)

Championship0.004Memoria corta — forma reciente importa mucho

Premier League0.0025Equilibrio entre historial y forma

La Liga0.002Memoria larga — equipos más estables

Bundesliga0.0025Similar a Premier

ξ alto → los partidos de hace 6 meses tienen muy poco peso. ξ bajo → el modelo tiene memoria más larga.

De la regresión estándar a Dixon-Coles

La regresión de Poisson con decay temporal ya produce predicciones razonables. Dixon-Coles (1997) añade una corrección adicional: el término τ(ρ) para los cuatro marcadores más bajos, que el modelo estándar sistemáticamente mal-estima.

El modelo observó que los resultados 0-0 son más frecuentes de lo que predice Poisson independiente, mientras que 1-1 también presenta desviaciones. El parámetro ρ se estima junto con el resto del modelo y corrige esta correlación entre los goles de ambos equipos en marcadores bajos.

Evolución del modelo

Regresión Poisson baseEstima α, β, γ, μ por MV

+ Decay temporalAñade peso w(t) a cada partido histórico

+ Corrección τ(ρ)Ajusta la correlación en marcadores bajos

= Dixon-Coles (1997)El modelo completo usado en POISSON FC

Por qué la independencia de goles es un supuesto problemático →

Limitaciones del marco de regresión

La regresión de Poisson es potente pero descansa sobre supuestos que no siempre se cumplen en fútbol:

Estacionariedad: el modelo asume que los parámetros de un equipo cambian suavemente en el tiempo. Fichajes clave, cambios de entrenador o lesiones importantes producen saltos bruscos que el decay exponencial no captura bien.
Equidrección de la forma: los parámetros de ataque y defensa se estiman como valores únicos. Un equipo puede tener un buen ataque pero una defensa errática — el modelo captura el promedio, no la variabilidad intra-equipo.
Información no incluida: lesiones de última hora, alineaciones específicas, condiciones climatológicas o motivación diferencial (un equipo ya clasificado vs. uno jugándose el descenso) no entran en el modelo.
Overdispersión: la regresión de Poisson asume que la varianza de los goles iguala la media. Empíricamente, la varianza observada es ligeramente superior, lo que puede afectar los intervalos de predicción.

Overdispersión en fútbol: cuándo Poisson subestima la varianza →

Ver los parámetros del modelo en acción

Cada predicción de POISSON FC es el resultado de aplicar este proceso de regresión: los λ de cada equipo se estiman por máxima verosimilitud con decay temporal y se usan para calcular las probabilidades de resultado.

Ver predicciones de hoy El modelo Dixon-Coles completo →Probar el simulador →