Cómo seleccionar variables independientes para su modelo econométrico

INDICE

  1. Educación
  2. Economía
  3. Econometría
  4. Cómo seleccionar variables independientes para su modelo econométrico

Libro Relacionado

Econometría para maniquíes

Por Roberto Pedace

Una de las decisiones más importantes que se toman al especificar el modelo econométrico es qué variables se deben incluir como variables independientes. Aquí, usted descubre qué problemas pueden ocurrir si incluye muy pocas o demasiadas variables independientes en su modelo, y ve cómo esta mala especificación afecta sus resultados.

Omisión de variables relevantes

Si una variable que pertenece al modelo se excluye de la función de regresión estimada, el modelo está mal especificado y puede causar sesgo en los coeficientes estimados.

Tienes un sesgo de variable omitido si una variable excluida tiene algún efecto (positivo o negativo) en tu variable dependiente y está correlacionada con al menos una de tus variables independientes.

La naturaleza matemática del sesgo de especificación puede expresarse utilizando un modelo simple. Supongamos que el verdadero modelo de población viene dado por

donde X1 y X2 son las dos variables que afectan a Y. Pero debido a la ignorancia o falta de datos, en su lugar se estima esta regresión:

que omite X2 de las variables independientes. El valor esperado de

en esta situación es

Pero esta ecuación viola el teorema de Gauss-Markov porque

La magnitud del sesgo puede expresarse de la siguiente manera

dónde

si el efecto de X2 en Y y

es la pendiente de esta regresión:

que recoge la correlación (positiva o negativa) entre la(s) variable(s) incluida(s) y excluida(s).

Resumen del sesgo variable omitido
Impacto de la variable omitida en la correlación de variables dependientes entre la variable incluida y la omitida: PositivaNegativaPositivaPositivaPositivaPositivaPositivaPositivaPositivaPositiva En

la práctica, es probable que tenga algún sesgo de variable omitida porque es imposible controlar todo lo que afecta a su variable dependiente. Sin embargo, puede aumentar sus posibilidades de minimizar el sesgo de variables omitidas evitando modelos de regresión simples (con una variable independiente) e incluyendo las variables que probablemente sean las más importantes teóricamente (y posiblemente, pero no necesariamente estadísticamente) para explicar la variable dependiente.

Incluir variables irrelevantes

Si una variable no pertenece al modelo y está incluida en la función de regresión estimada, el modelo está sobreespecificado. Si sobreespecifica el modelo de regresión incluyendo una variable irrelevante, los coeficientes estimados permanecen imparciales. Sin embargo, tiene un efecto indeseable de aumentar los errores estándar de sus coeficientes.

En un modelo de regresión simple (con una variable independiente), el error estándar estimado del coeficiente de regresión para X es

dónde

es la varianza estimada del error y

es la variación total en X.

Si se incluyen variables independientes adicionales en el modelo, el error estándar estimado para cualquier coeficiente de regresión dado viene dado por

dónde

es el R-cuadrado de la regresión de Xk en las otras variables independientes o Xs. Porque

el numerador disminuye. Una variable irrelevante no ayuda a explicar nada de la variación en Y, así que sin una disminución compensatoria en

el error estándar aumenta.

El hecho de que su coeficiente estimado no sea estadísticamente significativo no lo hace irrelevante. Un modelo bien especificado suele incluir algunas variables que son estadísticamente significativas y otras que no lo son. Además, las variables que no son estadísticamente significativas pueden aportar suficiente variación explicada para no tener un impacto perjudicial en los errores estándar.

Entradas recientes

Categorías