Selección de modelos#
La selección de modelos es una etapa esencial en el proceso de modelado estadístico y de series de tiempo.
Su objetivo es encontrar el modelo que mejor equilibra el ajuste a los datos y la complejidad del modelo, evitando tanto el subajuste (underfitting) como el sobreajuste (overfitting).
1. Criterios comunes para comparar modelos#
\(R^2_{ajustado}\) (Adjusted R-squared)
AIC (Akaike Information Criterion)
BIC (Bayesian Information Criterion)
HQIC (Hannan–Quinn Information Criterion)
Reglas generales:
Para AIC, BIC y HQIC, el mejor modelo es aquel con el valor más bajo.
Para \(R^2_{ajustado}\), el mejor modelo es el que tiene el valor más alto.
2. Coeficiente de determinación ajustado#
El coeficiente de determinación clásico, \(R^2\), mide la proporción de la variabilidad de la variable dependiente que es explicada por el modelo.
Sin embargo, \(R^2\) siempre aumenta (o se mantiene igual) al agregar más variables, aunque estas no aporten información útil.
Para corregir este problema, se utiliza el \(R^2_{ajustado}\), que penaliza la inclusión de predictores innecesarios.
Su fórmula es:
donde:
\(n\) = número de observaciones,
\(k\) = número de predictores incluidos en el modelo.
Interpretación:
Si una variable adicional mejora realmente el modelo, el \(R^2_{ajustado}\) aumentará.
Si la nueva variable no aporta valor explicativo, el \(R^2_{ajustado}\) disminuirá.
Por ello, el \(R^2_{ajustado}\) es una medida más fiable para comparar modelos con distinto número de variables.
El modelo con el mayor \(R^2_{ajustado}\) suele considerarse el mejor entre los candidatos.
En cualquier modelo estadístico, el número total de parámetros estimados se denota por:
El valor de \(k\) incluye todos los parámetros que el modelo ajusta a partir de los datos, tales como:
Los coeficientes de las variables explicativas (por ejemplo, \(\beta_1, \beta_2, \dots, \beta_k\)),
El intercepto o constante (\(\beta_0\)),
Y los parámetros de varianza o ruido, representados comúnmente como \(\sigma^2\) en regresión o en modelos ARIMA.
Por tanto, \(k\) refleja la complejidad o tamaño del modelo:
a medida que se estiman más parámetros, el modelo se vuelve más flexible, pero también se incrementa la penalización en criterios como el AIC o el BIC.
Este equilibrio entre ajuste y complejidad es lo que estos criterios buscan optimizar.
3. Criterio de información de Akaike (AIC)#
La fórmula general es:
donde:
\(k\) = número de parámetros estimados del modelo,
\(\hat{L}\) = valor máximo de la función de verosimilitud (likelihood) del modelo.
Interpretación:
Un modelo con un valor alto de \(\hat{L}\) (es decir, que se ajusta bien) tendrá un AIC menor.
Un modelo con muchos parámetros tendrá un término \(2k\) mayor, lo que aumenta el AIC.
Conclusión práctica:
El modelo con el AIC más bajo se considera el mejor entre los modelos comparados.
4. Función de verosimilitud#
La función de verosimilitud evalúa qué tan probable es que los datos observados provengan de un modelo dado.
Formalmente, mide la probabilidad de observar los datos bajo diferentes valores de los parámetros.
En práctica, se trabaja con la log-verosimilitud:
Ejemplo intuitivo:
En un modelo ARMA o ARIMA la verosimilitud mide qué tan probable es que la serie observada provenga de un modelo con ciertos parámetros \((p, q)\).
Cuanto mayor sea el valor de \(\hat{L}\), mejor se ajusta el modelo a los datos.
5. Criterio de información bayesiano (BIC)#
El BIC (Bayesian Information Criterion), también llamado criterio de Schwarz, es similar al AIC pero penaliza más fuertemente la complejidad del modelo.
Su fórmula general es:
donde:
\(n\) = número de observaciones,
\(k\) = número de parámetros del modelo,
\(\hat{L}\) = valor máximo de la función de verosimilitud.
Diferencias clave respecto al AIC:
Ambos buscan minimizarse.
El BIC penaliza más el número de parámetros porque incluye el término \(\ln(n)\) en lugar de un valor constante (2 en el AIC).
En consecuencia, el BIC tiende a seleccionar modelos más simples (con menos variables).
Interpretación práctica:
Si el objetivo es pronosticar, el AIC suele ser preferido porque favorece modelos con mejor ajuste.
Si el objetivo es interpretar o identificar el modelo más parsimonioso, el BIC suele ser más apropiado.
Ambos criterios son complementarios y suelen coincidir cuando el número de observaciones es grande.
6. Criterio de información de Hannan–Quinn (HQIC)#
donde:
\(n\) = número de observaciones,
\(k\) = número de parámetros estimados,
\(\hat{L}\) = máximo de la función de verosimilitud.
Comparación general#
Cr iterio |
Fórmula general |
Qué penaliza |
Qué se busca |
Tipo de decisión |
---|---|---|---|---|
R^2_{aj ustado} |
1 - (1 - R^2 )dfrac{n - 1 }{n - k - 1} |
Variables in necesarias |
Maximizar |
Evalúa el poder explicativo |
AIC |
\(2k - 2 \ln(\hat{L})\) |
C omplejidad (número de p arámetros) |
Minimizar |
Evalúa pérdida de información |
BIC |
:math :kln(n) - 2 ln(hat{L}) |
C omplejidad con pe nalización más fuerte |
Minimizar |
Favorece modelos más simples |
HQIC |
\(k\l n(\ln(n)) - 2 \ln(\hat{L})\) |
C omplejidad (i ntermedia) |
Minimizar |
Equilibrio entre AIC y BIC |
Conclusión
El \(R^2_{ajustado}\) evalúa el poder explicativo penalizando variables irrelevantes.
El AIC mide la pérdida relativa de información y busca minimizarla. Impone una penalización ligera.
El BIC penaliza con más fuerza la complejidad, privilegiando modelos más parsimoniosos. Impone una penalización fuerte (dependiente de \(\ln(n)\)).
El HQIC aplica una penalización moderada, basada en \(\ln(\ln(n))\), lo que lo convierte en una alternativa equilibrada entre ambos extremos.
En conjunto, estos criterios permiten seleccionar el modelo que mejor representa los datos sin sobreajustar y con una capacidad predictiva robusta.
En la práctica, los tres criterios de información (AIC, BIC, HQIC) suelen coincidir cuando el tamaño de muestra es grande. El modelo seleccionado debe ser aquel que minimice estos valores y que, al mismo tiempo, muestre residuales bien comportados (análisis posterior).