INDICE
- Educación
- Economía
- Econometría
- Cómo seleccionar variables independientes para su modelo econométrico
Libro Relacionado
Econometría para maniquíes
Por Roberto Pedace
Una de las decisiones más importantes que se toman al especificar el modelo econométrico es qué variables se deben incluir como variables independientes. Aquí, usted descubre qué problemas pueden ocurrir si incluye muy pocas o demasiadas variables independientes en su modelo, y ve cómo esta mala especificación afecta sus resultados.
Omisión de variables relevantes
Si una variable que pertenece al modelo se excluye de la función de regresión estimada, el modelo está mal especificado y puede causar sesgo en los coeficientes estimados.
Tienes un sesgo de variable omitido si una variable excluida tiene algún efecto (positivo o negativo) en tu variable dependiente y está correlacionada con al menos una de tus variables independientes.
La naturaleza matemática del sesgo de especificación puede expresarse utilizando un modelo simple. Supongamos que el verdadero modelo de población viene dado por
donde X1 y X2 son las dos variables que afectan a Y. Pero debido a la ignorancia o falta de datos, en su lugar se estima esta regresión:
que omite X2 de las variables independientes. El valor esperado de
en esta situación es
Pero esta ecuación viola el teorema de Gauss-Markov porque
La magnitud del sesgo puede expresarse de la siguiente manera
dónde
si el efecto de X2 en Y y
es la pendiente de esta regresión:
que recoge la correlación (positiva o negativa) entre la(s) variable(s) incluida(s) y excluida(s).
Resumen del sesgo variable omitido
Impacto de la variable omitida en la correlación de variables dependientes entre la variable incluida y la omitida: PositivaNegativaPositivaPositivaPositivaPositivaPositivaPositivaPositivaPositiva En
la práctica, es probable que tenga algún sesgo de variable omitida porque es imposible controlar todo lo que afecta a su variable dependiente. Sin embargo, puede aumentar sus posibilidades de minimizar el sesgo de variables omitidas evitando modelos de regresión simples (con una variable independiente) e incluyendo las variables que probablemente sean las más importantes teóricamente (y posiblemente, pero no necesariamente estadísticamente) para explicar la variable dependiente.
Incluir variables irrelevantes
Si una variable no pertenece al modelo y está incluida en la función de regresión estimada, el modelo está sobreespecificado. Si sobreespecifica el modelo de regresión incluyendo una variable irrelevante, los coeficientes estimados permanecen imparciales. Sin embargo, tiene un efecto indeseable de aumentar los errores estándar de sus coeficientes.
En un modelo de regresión simple (con una variable independiente), el error estándar estimado del coeficiente de regresión para X es
dónde
es la varianza estimada del error y
es la variación total en X.
Si se incluyen variables independientes adicionales en el modelo, el error estándar estimado para cualquier coeficiente de regresión dado viene dado por
dónde
es el R-cuadrado de la regresión de Xk en las otras variables independientes o Xs. Porque
el numerador disminuye. Una variable irrelevante no ayuda a explicar nada de la variación en Y, así que sin una disminución compensatoria en
el error estándar aumenta.
El hecho de que su coeficiente estimado no sea estadísticamente significativo no lo hace irrelevante. Un modelo bien especificado suele incluir algunas variables que son estadísticamente significativas y otras que no lo son. Además, las variables que no son estadísticamente significativas pueden aportar suficiente variación explicada para no tener un impacto perjudicial en los errores estándar.