Modelos Matemáticos

Regresión de Poisson en fútbol:
cómo se estiman los parámetros

La distribución de Poisson describe qué puede pasar dado un λ conocido. Pero en fútbol, λ no se conoce — se tiene que estimar desde datos. Eso es exactamente lo que hace la regresión de Poisson: el marco estadístico que convierte históricos de partidos en probabilidades de goles.

Distribución vs. regresión: la distinción clave

Son dos piezas del mismo sistema pero hacen cosas distintas:

Distribución de Poisson

Dada una tasa de goles λ, calcula la probabilidad de observar exactamente k goles.

P(k ; λ) = e−λ · λk / k!

Pregunta: "¿Cuántos goles con λ=1.5?"

Regresión de Poisson

Dado un historial de resultados, estima el λ de cada equipo combinando parámetros de ataque, defensa y ventaja local.

log(λ) = μ + αi + βj + γ

Pregunta: "¿Qué λ explica los resultados observados?"

La regresión responde a la distribución: primero estimamos λ para cada equipo mediante regresión, luego usamos esa λ en la distribución de Poisson para generar las probabilidades de resultado. Son dos pasos que trabajan en secuencia.

El modelo lineal generalizado (GLM) para fútbol

La regresión de Poisson es un caso particular de los Modelos Lineales Generalizados (GLM). Para un partido entre el equipo local i y el visitante j, el modelo especifica:

log(λlocal) = μ + αi + βj + γ

log(λvisitante) = μ + αj + βi

μ = intercept, tasa base de goles de la liga

αi = parámetro de ataque del equipo i (positivo = buen ataque)

βj = parámetro de defensa del equipo j (negativo = buena defensa)

γ = ventaja de local (siempre positivo)

El logaritmo como función de enlace garantiza que λ sea siempre positivo (los goles no pueden ser negativos). Las ecuaciones equivalentes en escala de goles son:

λlocal = exp(μ) · exp(αi) · exp(βj) · exp(γ)

λvisitante = exp(μ) · exp(αj) · exp(βi)

Los parámetros son multiplicativos en la escala de goles: un equipo con exp(αi) = 1.3 genera un 30% más de goles esperados que el equipo medio. Eso hace que los parámetros sean intuitivos — representan factores de escala sobre la tasa base de la liga.

Estimación por máxima verosimilitud

Los parámetros {α, β, γ, μ} se estiman encontrando los valores que maximizan la probabilidad de haber observado los resultados históricos. La función de log-verosimilitud para un conjunto de partidos es:

ℓ = Σpartidos [x·log(λ) − λ + y·log(μ) − μ]

(ignorando el término constante log(k!) que no afecta la optimización)

Esta función se maximiza numéricamente — no existe solución analítica cerrada para sistemas con muchos equipos. En la práctica se usan algoritmos de gradiente como BFGS o L-BFGS, que convergen en decenas de iteraciones para ligas de 20 equipos.

Problema de identificabilidad

El sistema tiene infinitas soluciones equivalentes: si sumas una constante c a todos los αi y restas c de todos los βj, la log-verosimilitud no cambia. Se necesita una restricción de identificación: habitualmente se fija la suma de los parámetros de ataque a cero (Σαi = 0) o se usa uno de los equipos como referencia. Dixon-Coles resuelve esto con una parametrización específica.

El decay temporal: no todos los partidos valen igual

La regresión de Poisson estándar asigna el mismo peso a todos los partidos históricos. Dixon-Coles introduce un factor de decay exponencial para que los partidos recientes tengan más influencia que los antiguos:

w(t) = exp(−ξ · (T − t))

T = fecha actual (o fecha del partido a predecir)

t = fecha del partido histórico

ξ = tasa de decay (parámetro estimado por liga)

La log-verosimilitud ponderada se convierte en:

ξ = Σpartidos w(t) · [x·log(λ) − λ + y·log(μ) − μ]

Tasa de decay por liga (ξ estimado)

Championship0.004Memoria corta — forma reciente importa mucho
Premier League0.0025Equilibrio entre historial y forma
La Liga0.002Memoria larga — equipos más estables
Bundesliga0.0025Similar a Premier

ξ alto → los partidos de hace 6 meses tienen muy poco peso. ξ bajo → el modelo tiene memoria más larga.

De la regresión estándar a Dixon-Coles

La regresión de Poisson con decay temporal ya produce predicciones razonables. Dixon-Coles (1997) añade una corrección adicional: el término τ(ρ) para los cuatro marcadores más bajos, que el modelo estándar sistemáticamente mal-estima.

El modelo observó que los resultados 0-0 son más frecuentes de lo que predice Poisson independiente, mientras que 1-1 también presenta desviaciones. El parámetro ρ se estima junto con el resto del modelo y corrige esta correlación entre los goles de ambos equipos en marcadores bajos.

Evolución del modelo

Regresión Poisson baseEstima α, β, γ, μ por MV
+ Decay temporalAñade peso w(t) a cada partido histórico
+ Corrección τ(ρ)Ajusta la correlación en marcadores bajos
= Dixon-Coles (1997)El modelo completo usado en POISSON FC
Por qué la independencia de goles es un supuesto problemático →

Limitaciones del marco de regresión

La regresión de Poisson es potente pero descansa sobre supuestos que no siempre se cumplen en fútbol:

  • Estacionariedad: el modelo asume que los parámetros de un equipo cambian suavemente en el tiempo. Fichajes clave, cambios de entrenador o lesiones importantes producen saltos bruscos que el decay exponencial no captura bien.
  • Equidrección de la forma: los parámetros de ataque y defensa se estiman como valores únicos. Un equipo puede tener un buen ataque pero una defensa errática — el modelo captura el promedio, no la variabilidad intra-equipo.
  • Información no incluida: lesiones de última hora, alineaciones específicas, condiciones climatológicas o motivación diferencial (un equipo ya clasificado vs. uno jugándose el descenso) no entran en el modelo.
  • Overdispersión: la regresión de Poisson asume que la varianza de los goles iguala la media. Empíricamente, la varianza observada es ligeramente superior, lo que puede afectar los intervalos de predicción.
Overdispersión en fútbol: cuándo Poisson subestima la varianza →

Ver los parámetros del modelo en acción

Cada predicción de POISSON FC es el resultado de aplicar este proceso de regresión: los λ de cada equipo se estiman por máxima verosimilitud con decay temporal y se usan para calcular las probabilidades de resultado.

⚠ Las predicciones son estimaciones estadísticas, no consejo de apuestas ni garantía de resultados. Solo mayores de 18 años. Términos · Acerca