lunes, 12 de febrero de 2018

Modelos Lineales de Datos Longitudinales: Efectos Fijos vs Efectos Aleatorios

Introducción

Stata 15 nos proporciona la capacidad de trabajar con datos longitudinales de manera eficiente, aprovechando las capacidades de análisis descriptivo e inferencial. La gama de modelos con los cuales los investigadores pueden decir trabajar sus datos depende de la naturaleza de los mismos, por lo cual habría que distinguir entre dos tipos de análisis en el modelaje lineal de la información. 

Una de las ventajas de trabajar con datos panel es la de capturar la heterogeneidad de la información entre unidades individuales de muestreo (personas, empresas, estados, países, etc.). El análisis aprovecha variables que no se pueden observar o medir, como factores culturales o diferencias entre la práctica de los negocios de las distintas empresas; o variables que cambian con el tiempo pero no entre individuos, como las políticas públicas, regulaciones de comercio, acuerdos internacionales, etc.). 

En esta entrada nos enfocaremos a dos técnicas para analizar los datos panel: efectos fijos y efectos aleatorios; así como en distinguir cuál es la mejor técnica para nuestros datos.


Datos

Los datos que se usaron para realizar el análisis son los presentados por Cameron y Trivedi (2010) del Estudio Panel de la Dinámica del Ingreso, PSID por sus siglas en inglés; mismos que presentaron Baltagi y Khanti-Akon en 1990 dentro del Journal of Applied Econometrics. 

La totalidad de los datos en por Cameron y Trivedi (2010) se pueden obtener directamente al ejecutar alguno de los siguientes comandos:

  • net from http://www.stata-press.com/data/musr
  • net install musr
  • net get musr


La base de datos que usaremos la podemos cargar con el siguiente comando:

  • use mus08psidextract.dta, clear


Misma que contiene la siguiente información:


Tenemos 4,165 observaciones. Las etiquetas de las variables describen bien cada una de ellas, pero es conveniente observar que lwage es el logaritmo del salario por hora medido en centavos, fem toma el valor de 1 si el individuo es mujer, id es el identificador individual, t es el año y exp2 es el valor de exp al cuadrado.

Podemos observar más de la naturaleza descriptiva de los datos a través del comando summarize:


No tenemos valores perdidos dentro de la base de datos, la muestra incluye tanto hombres como mujeres, aunque sólo 11% son mujeres. La base se restringe a individuos que trabajaron los 7 años completos que cubre la muestra, pues los datos de salarios y semanas trabajadas están sin datos faltantes.

Antes de empezar el modelado de los datos tenemos que especificar que estamos trabajando con una base de datos panel con el comando xtset, donde indicaremos las variables que identifican las unidades individuales y al tiempo.

En este caso “id” representa la variable identificadora de los individuos y “t” representa la variable tiempo. La nota “(strongly balanced)” se refiere al hecho de que todos los individuos tienen datos para todos los años.


Modelos lineales

La especificación general de un modelo de regresión con datos panel es la siguiente:


En donde nuestras principales hipótesis se refieren al tratamiento del término de error u, tomando así, la siguiente forma:

Tenemos que hacer otra restricción al suponer delta igual a cero, así tendremos la oportunidad de trabajar con los modelos de tipo “one way”, en los cuales los supuestos se realizan sobre los efectos no observables que difieren entre los individuos pero no en el tiempo. Para este caso supondremos que el efecto puede ser: 1) fijo, para cada individuo y; 2) una variable aleatoria.


Efectos Fijos (Fixed Effects, FE)

En este modelo el efecto fijo para cada individuo produce que la heterogeneidad se incorpore a la constante del modelo (alpha). Quedando un modelo como el siguiente:


Este modelo explora la relación entre la variable dependiente y los predictores dentro de una unidad de estudio, por lo cual asumimos que algo dentro de la unidad individual puede afectar o sesgar el predictor, por lo cual tenemos que controlar esta interacción, es decir, se admite la correlación entre los términos de error de las entidades y las variables predictoras. Como cada entidad es diferente, el término de error de la entidad y la constante (que captura las características individuales) no deben correlacionarse. En dado caso de que los errores estuvieran correlacionados, significaría que nuestro modelo FE no es adecuado ya que las inferencias pueden no ser correctas, haciendo necesario modelar dicha relación. Asimismo, FE se usa sólo cuando se esté interesado en analizar el impacto de variables que varían con el tiempo, implicando que las características o variables invariantes en el tiempo no incidan en la variable independiente.

Para realizar este modelo Stata procede a estimar los modelos con el comando xtreg, en este caso, añadiendo la opción fe.


La sintaxis del comando s la siguiente: en primer término el comando xtreg seguido de la variable de resultado lwage y de las variables predictoras exp exp2 wks ed, seguidos de una coma que nos indica el comienzo de las opciones del comando para poder indicar que se estime el modelo de efectos fijos con la opción fe.

La salida de Stata nos provee del número de observaciones, el número de grupos (individuos). Una prueba F para verificar si los coeficientes del modelo son diferentes de cero en conjunto, por lo que si Prob>F es menor a 0.05 es un indicativo de que el modelo está bien. En estos modelos los errores están correlacionados con las variables explicativas, por lo cual se nos arroja una medición de esta relación (corr(u_i, Xb)). Los coeficientes de los regresores  indican cuánto cambia lwage cuando las demás variables cambian en una unidad, además de proveer una prueba de dos colas para el p-value que verifica la significancia estadística  de los coeficientes, donde normalmente un p-value menor a 0.05 nos quiere decir que la variable tiene influencia significativa en la variable dependiente. Mientras que sigma_u y sigma_e miden la desviación estándar de los residuales entre los grupos y sobre todo el término de error, respectivamente; rho, indica que 97% de la varianza se debe a diferencias entre los individuos. Por último, hay una nota donde nos indica que la variable ed es omitida debido a que la variable educación no varía en el tiempo, por lo cual, como se mencionó anteriormente, el modelo de efectos fijos no es viable para analizar la interacción entre este tipo de variables y la variable dependiente.

Procedemos a guardar nuestros resultados del modelo para análisis posterior con el siguiente comando:
  • estimates store FE

Efectos Aleatorios (Random Effects, RE)

En este modelo donde se supone que los efectos individuales no son independientes entre sí, sino que están distribuidos aleatoriamente alrededor de un valor dado; por lo que el efecto se incorpora al término de error. Quedando un modelo como el siguiente:


Este modelo asume que la variación entre los individuos es aleatoria y no está correlacionada con el predictor o variables independientes incluidas en el modelo. Si existen razones para creer que las diferencias entre los individuos tienen influencia en la variable dependiente, entonces es una buena opción usar RE, además que en estos modelos se pueden incluir variables que no cambian con el tiempo, como el género. 
Para realizar este modelo solo tenemos que añadir la opción re al comando xtreg.


La sintaxis del comando para estimar este modelo es la misma que el modelo de efectos fijos, sólo tenemos que cambiar a la opción re de efectos aleatorios.
Las diferencias entre los modelos que nos arroja Stata se hacen visibles en la prueba conjunta de los coeficientes, donde ahora tenemos una distribución Chi cuadrada, donde valores menores a 0.05 son indicativos que un buen modelo. Se asume que la correlación entre el término de error por individuos y los predictores es igual a cero. Además, la interpretación de los coeficientes es engañosa dado que se incluyen los efectos de variación entre individuos y dentro del mismo individuo a través del tiempo; en general, podrían interpretarse como el efecto promedio de los predictores sobre la dependiente cuando la independiente cambia en el tiempo y entre individuos por una unidad.

Procedemos a guardar nuestros resultados del modelo con el siguiente comando:
  • estimates store RE


Fijos vs Aleatorios

Para efectuar una buena decisión sobre qué modelo usar se debe de tener en cuenta ciertos aspectos, tales como los objetivos del investigador, el entorno del cual provienen los datos y el número mismo de datos disponibles. 

Cuando se trabaja con una muestra aleatoria con la cual se requieran hacer inferencias poblacionales, lo mejor es trabajar con modelos aleatorios; si la muestra fue seleccionada a conveniencia o bien se está trabajando con la población, el mejor modelo es de efectos fijos. Si el interés está puesto en conocer los parámetros y no las diferencias individuales, la mejor opción son los efectos aleatorios. 

Se debe considerar la estructura de los datos, es decir, los tamaños relativos al número de individuos (N) y al número de periodos (T); pues en bases de datos donde T es menor a N, los resultados obtenidos con efectos fijos difieren sustancialmente de los obtenidos con efectos aleatorios, ya que el gran número de parámetros calculados en FE provoca perdida de grados de libertad y estimaciones ineficientes. 

Una herramienta practica que nos ofrece Stata es la prueba Hausman, que tiene por hipótesis nula que el modelo preferido es el de efectos aleatorios contra la alternativa que es el de efectos fijos. 

Se puede implementar la prueba debido a que ya hemos guardado las estimaciones de cada modelo, además, se utilizará la opción sigmamore, la cual especifica que ambas matrices de covarianza están basadas en la misma varianza estimada del estimador eficiente.


La prueba realizada conduce a rechazar la hipótesis nula de que el modelo de efectos aleatorios provea estimadores consistentes. Siendo, para este caso, mejor el modelo de efectos fijos.


Conclusión

En esta entrada se desarrolló u breve análisis de datos panel y las dos técnicas para modelar los datos, dejando claro cuáles son las herramientas que Stata nos provee para realizar un trabajo eficiente, a través de los comandos describe, summarize, xtset, xtreg, fe, re y hausman.


Referencias

Cameron A. Colin, Trivedi Pravin K. 2010. Microeconometrics Using Stata. College Station: Stata Press.
Mayorga M. Mauricio, Muñoz S. Evelyn. 2000. La técnica de datos panel. Una guía para su uso e interpretación. Documento de trabajo: Banco Central de Costa Rica.


Si desea mayor información acerca de Stata, escríbanos a info@multion.com 

Este blog es administrado por MultiON Consulting S.A. de C.V.