Regresión de Poisson en fútbol:
cómo se estiman los parámetros
La distribución de Poisson describe qué puede pasar dado un λ conocido. Pero en fútbol, λ no se conoce — se tiene que estimar desde datos. Eso es exactamente lo que hace la regresión de Poisson: el marco estadístico que convierte históricos de partidos en probabilidades de goles.
Distribución vs. regresión: la distinción clave
Son dos piezas del mismo sistema pero hacen cosas distintas:
Distribución de Poisson
Dada una tasa de goles λ, calcula la probabilidad de observar exactamente k goles.
P(k ; λ) = e−λ · λk / k!
Pregunta: "¿Cuántos goles con λ=1.5?"
Regresión de Poisson
Dado un historial de resultados, estima el λ de cada equipo combinando parámetros de ataque, defensa y ventaja local.
log(λ) = μ + αi + βj + γ
Pregunta: "¿Qué λ explica los resultados observados?"
La regresión responde a la distribución: primero estimamos λ para cada equipo mediante regresión, luego usamos esa λ en la distribución de Poisson para generar las probabilidades de resultado. Son dos pasos que trabajan en secuencia.
El modelo lineal generalizado (GLM) para fútbol
La regresión de Poisson es un caso particular de los Modelos Lineales Generalizados (GLM). Para un partido entre el equipo local i y el visitante j, el modelo especifica:
log(λlocal) = μ + αi + βj + γ
log(λvisitante) = μ + αj + βi
μ = intercept, tasa base de goles de la liga
αi = parámetro de ataque del equipo i (positivo = buen ataque)
βj = parámetro de defensa del equipo j (negativo = buena defensa)
γ = ventaja de local (siempre positivo)
El logaritmo como función de enlace garantiza que λ sea siempre positivo (los goles no pueden ser negativos). Las ecuaciones equivalentes en escala de goles son:
λlocal = exp(μ) · exp(αi) · exp(βj) · exp(γ)
λvisitante = exp(μ) · exp(αj) · exp(βi)
Los parámetros son multiplicativos en la escala de goles: un equipo con exp(αi) = 1.3 genera un 30% más de goles esperados que el equipo medio. Eso hace que los parámetros sean intuitivos — representan factores de escala sobre la tasa base de la liga.
Estimación por máxima verosimilitud
Los parámetros {α, β, γ, μ} se estiman encontrando los valores que maximizan la probabilidad de haber observado los resultados históricos. La función de log-verosimilitud para un conjunto de partidos es:
ℓ = Σpartidos [x·log(λ) − λ + y·log(μ) − μ]
(ignorando el término constante log(k!) que no afecta la optimización)
Esta función se maximiza numéricamente — no existe solución analítica cerrada para sistemas con muchos equipos. En la práctica se usan algoritmos de gradiente como BFGS o L-BFGS, que convergen en decenas de iteraciones para ligas de 20 equipos.
Problema de identificabilidad
El sistema tiene infinitas soluciones equivalentes: si sumas una constante c a todos los αi y restas c de todos los βj, la log-verosimilitud no cambia. Se necesita una restricción de identificación: habitualmente se fija la suma de los parámetros de ataque a cero (Σαi = 0) o se usa uno de los equipos como referencia. Dixon-Coles resuelve esto con una parametrización específica.
El decay temporal: no todos los partidos valen igual
La regresión de Poisson estándar asigna el mismo peso a todos los partidos históricos. Dixon-Coles introduce un factor de decay exponencial para que los partidos recientes tengan más influencia que los antiguos:
w(t) = exp(−ξ · (T − t))
T = fecha actual (o fecha del partido a predecir)
t = fecha del partido histórico
ξ = tasa de decay (parámetro estimado por liga)
La log-verosimilitud ponderada se convierte en:
Tasa de decay por liga (ξ estimado)
ξ alto → los partidos de hace 6 meses tienen muy poco peso. ξ bajo → el modelo tiene memoria más larga.
De la regresión estándar a Dixon-Coles
La regresión de Poisson con decay temporal ya produce predicciones razonables. Dixon-Coles (1997) añade una corrección adicional: el término τ(ρ) para los cuatro marcadores más bajos, que el modelo estándar sistemáticamente mal-estima.
El modelo observó que los resultados 0-0 son más frecuentes de lo que predice Poisson independiente, mientras que 1-1 también presenta desviaciones. El parámetro ρ se estima junto con el resto del modelo y corrige esta correlación entre los goles de ambos equipos en marcadores bajos.
Evolución del modelo
Limitaciones del marco de regresión
La regresión de Poisson es potente pero descansa sobre supuestos que no siempre se cumplen en fútbol:
- Estacionariedad: el modelo asume que los parámetros de un equipo cambian suavemente en el tiempo. Fichajes clave, cambios de entrenador o lesiones importantes producen saltos bruscos que el decay exponencial no captura bien.
- Equidrección de la forma: los parámetros de ataque y defensa se estiman como valores únicos. Un equipo puede tener un buen ataque pero una defensa errática — el modelo captura el promedio, no la variabilidad intra-equipo.
- Información no incluida: lesiones de última hora, alineaciones específicas, condiciones climatológicas o motivación diferencial (un equipo ya clasificado vs. uno jugándose el descenso) no entran en el modelo.
- Overdispersión: la regresión de Poisson asume que la varianza de los goles iguala la media. Empíricamente, la varianza observada es ligeramente superior, lo que puede afectar los intervalos de predicción.
Ver los parámetros del modelo en acción
Cada predicción de POISSON FC es el resultado de aplicar este proceso de regresión: los λ de cada equipo se estiman por máxima verosimilitud con decay temporal y se usan para calcular las probabilidades de resultado.