lunes, 7 de mayo de 2018

Modelos de Equilibrio General Dinámico y Estocástico para análisis de políticas

El siguiente texto es una traducción al español del artículo original "Dynamic stochastic general equilibrium models for policy analysis" realizado por David Schenck, Econometra Senior.


¿Qué son los modelos DSGE?

Los modelos de equilibrio general dinámico y estocástico (DSGE, por sus siglas en inglés, Dynamic Stochastic General Equilibrium) son usados por macroeconometristas para modelar múltiples series de tiempo. Un modelo DSGE está basado en teoría económica. Una teoría tendrá ecuaciones sobre cómo se comportan los individuos o sectores de la economía y cómo interactúan estos sectores. Lo que surge es un sistema de ecuaciones cuyos parámetros pueden vincularse a las decisiones de los actores económicos. En muchas teorías económicas, los individuos toman acciones basadas, en parte, en los valores que esperan que las variables tomen en el futuro, y no solo en los valores que toman esas variables en el período actual. La fortaleza de los modelos de DSGE es que incorporan estas expectativas explícitamente, a diferencia de otros modelos con múltiples series de tiempo.

Los modelos DSGE a menudo se usan en el análisis de choques o contrafactuales. Un investigador puede someter el modelo económico a un cambio inesperado en la política o en el ambiente y ver cómo responden las variables. Por ejemplo, ¿cuál es el efecto de un aumento inesperado de las tasas de interés en el producto? O un investigador podría comparar las respuestas de las variables económicas con diferentes regímenes de política. Por ejemplo, un modelo podría usarse para comparar resultados bajo un régimen de impuestos altos versus impuestos bajos. Un investigador exploraría el comportamiento del modelo bajo diferentes configuraciones para los parámetros de tasa impositiva, manteniendo constantes otros parámetros.

En esta publicación, mostraré cómo estimar los parámetros de un modelo de DSGE, cómo crear e interpretar un impulso-respuesta, y cómo comparar el impulso-respuesta estimado a partir de los datos con un impulso-respuesta generado por un régimen de política contrafactual.


Estimar los parámetros del modelo

Tengo datos mensuales sobre la tasa de crecimiento de la producción industrial y las tasas de interés. Usaré estos datos para estimar los parámetros de un pequeño modelo DSGE. Mi modelo tiene solo dos agentes: empresas que generan producto (ip) y un banco central que establece tasas de interés (r). En mi modelo, el crecimiento de la producción industrial depende de la tasa de interés esperada en un período en el futuro y de otros factores exógenos. A su vez, la tasa de interés depende del crecimiento de la producción industrial contemporánea y de otros factores latentes. Llamo a los factores latentes que afectan la producción e y a los factores latentes que afectan las tasas de interés m.

En la jerga, los factores latentes se conocen como "variables de estado". Podemos imponer un choque a las variables de estado y rastrear cómo afecta ese choque al sistema. Especifico la evolución de m como un proceso AR (1). Para darle al modelo algunas dinámicas adicionales, especifico la evolución de e como un proceso AR (2). Mi modelo completo es:


Antes de discutir estas ecuaciones a mayor detalle, vamos a estimar los parámetros con dsge.


La primera ecuación es la ecuación de producción. Escribimos (1) en Stata como (ip = {alpha} * E (F.r) + e). Esta ecuación especifica el crecimiento de la producción industrial en función de las tasas de interés futuras esperadas. Esta tasa de interés aparece en esta ecuación dentro de un operador E(); E(F.r) representa el valor esperado de la tasa de interés un período por delante. Piense en alpha como un parámetro establecido por las empresas y tomado como dado por los hacedores de política. El valor estimado de alpha es negativo, lo que implica que el crecimiento de la producción industrial disminuye cuando las empresas esperan enfrentar un período de mayores tasas de interés.

La segunda ecuación es la ecuación de la tasa de interés. Escribimos (2) en Stata como (r = {beta} * ip + m). Piense en beta como un parámetro establecido por los hacedores de política; mide qué tan fuertemente los hacedores de política reaccionan a los cambios en la producción. Vemos que la estimación de beta es positiva. Los hacedores de política tienden a aumentar las tasas de interés cuando la producción es alta y recortar las tasas de interés cuando la producción es baja. Sin embargo, el coeficiente de respuesta estimado es bastante pequeño. Pensaremos en el coeficiente de ip como representación de una política sistemática (cómo los hacedores de política responden directamente a la producción industrial) y pensemos que la variable de estado m representa la política discrecional (u otros factores que afectan las tasas de interés además de la política).

La tercera ecuación es una ecuación autorregresiva de primer orden para m, la variable que captura la política discrecional que afecta las tasas de interés. Escribimos (3) en Stata como (F.m = {rho} * m, state). Las variables de estado están predeterminadas, por lo que la convención temporal en dsge es que las ecuaciones de estado se especifican en términos del valor de la variable de estado un período por delante (F.m). Las ecuaciones de estado también se marcan con la opción state. El error v(t+1) está incluido por defecto. El parámetro rho autorregresivo estimado es positivo y captura la persistencia de la tasa de interés.

El modelo tiene cuatro ecuaciones, pero el comando dsge incluye cinco ecuaciones. La ecuación (4) especifica un proceso AR (2) para factores exógenos que afectan el crecimiento de la producción industrial. Para especificar esta ecuación al dsge, necesito dividirla en dos partes, y esas dos piezas se convierten en las dos últimas ecuaciones en el modelo. Para obtener más información, consulte la nota al pie al final de esta publicación. Los parámetros en estas ecuaciones theta1 y theta2 capturan la persistencia en el crecimiento de la producción industrial.


Explorar un choque en el modelo: impulso-respuestas

A continuación, agregamos los choques al modelo y rastreamos sus efectos en la producción industrial. Para hacer esto, necesitamos establecer un archivo de función impulso-respuesta (IRF) y almacenar las estimaciones en él. El comando irf set crea un archivo, dsge_irf.irf, para contener nuestros IRF. El comando irf create estimated crea un conjunto de impulso-respuesta usando las estimaciones actuales de dsge. El comando irf create crea un conjunto completo de todas las respuestas a todos los impulsos posibles. En nuestro modelo, esto significa que ambas variables de estado e y m están impactadas, y la respuesta se registra para ip y r. Finalmente, usaremos el comando irf graph irf para elegir qué respuestas trazar y qué impulsos dirigen esas respuestas. Solo graficamos la respuesta de ip para cada uno de los impulsos e y m.


Cada panel muestra la respuesta de la producción industrial a un choque. Debido a que nuestros datos se miden en tasas de crecimiento, el eje vertical también se mide en tasas de crecimiento. Por lo tanto, un valor de "4" en el panel de la izquierda significa que después de un choque de una desviación estándar, la producción industrial crece cuatro puntos porcentuales más rápido de lo que lo haría. El eje horizontal es el tiempo; ya que usamos datos mensuales, el tiempo está en meses, y 12 pasos representan 1 año.

El panel de la izquierda muestra la respuesta de la producción industrial a un aumento en e, el factor latente que afecta la producción. La producción industrial aumenta, alcanzando su máximo un período después del choque, para después volver a establecerse en el equilibrio a largo plazo. El efecto del shock desaparece rápidamente; la producción industrial vuelve al equilibrio de largo plazo dentro de 12 períodos (1 año de observaciones mensuales).

El panel de la derecha muestra la respuesta de la producción industrial a un aumento en m, que tiene una interpretación natural como un alza inesperada en las tasas de interés. El tamaño de un choque es de una desviación estándar, que a partir de la tabla de estimaciones dsge anterior es un aumento inesperado en las tasas de interés de alrededor de 0.546, o alrededor de la mitad de un punto porcentual. En respuesta, vemos en el gráfico que el crecimiento de la producción industrial cae en aproximadamente un tercio de un punto porcentual y permanece bajo durante más de 24 períodos. Todas las variables en un modelo DSGE son estacionarias, por lo que, en el largo plazo, el efecto de un choque desaparece y las variables vuelven a su media de largo plazo que es cero.


Explorar política sistemática: un cambio en el régimen

A continuación, contemplamos un cambio en el régimen de políticas. Supongamos que los hacedores de políticas reciben instrucciones para suavizar las fluctuaciones en la producción industrial que resultan de los choques a e. En términos del modelo, esta instrucción estaría representada por un cambio del coeficiente de respuesta beta, visto en los datos como relativamente bajo, a uno mayor.

El comando dsge con las opciones from() y solve  permite rastrear un impulso-respuesta desde cualquier conjunto de parámetros arbitrarios. Aprovecharemos esta característica ahora. Primero, almacenamos el vector de parámetro estimado en una matriz de Stata:


A continuación, reemplazamos el coeficiente beta con un coeficiente de respuesta más grande. Para fines ilustrativos, uso un coeficiente de respuesta de 0.8 en lugar de 0.02. Los vectores de parámetros viejos y nuevos son:


Como se esperaba, son idénticos excepto por la entrada beta. A continuación, volvemos a correr el dsge con el nuevo vector de parámetros usando from() y resolve.


Utilizamos este nuevo vector de parámetros para crear un nuevo conjunto de IRFs que llamaremos contrafactual.


Finalmente, graficamos las respuestas bajo los vectores de parámetros estimados y contrafácticos con irf ograph:


La política más agresiva ha amortiguado la respuesta de la producción industrial al choque. El hacedor de políticas podría experimentar con otros valores de beta hasta que encuentre un valor que amortigüe la respuesta de la producción industrial en la cantidad deseada.


Apéndice

Datos

Utilicé datos sobre la tasa de crecimiento de la producción industrial y sobre la tasa de interés de los fondos federales. Ambas series están disponibles mensualmente en la base de datos de la Reserva Federal de St. Louis, FRED. El comando import fred de Stata importa datos FRED. Los códigos son INDPRO para producción industrial y FEDFUNDS para la tasa de fondos federales.

Genero la variable ip como la tasa de crecimiento trimestral anualizada de la producción industrial y utilizo una muestra de 1954 a 2006.



Especificando ecuaciones de estado con rezagos largos

Ver también [DSGE] intro 4c.

Observe que las variables de estado se escriben en forma espacio-estado en términos de sus valores de un período por delante. Para un proceso AR (1), esto es fácil. La ecuación


Se convierte de la siguiente forma en Stata:


Pero para un proceso AR (2), la ley de movimiento para la variable de estado es


Que dividimos en dos ecuaciones:


Estas dos ecuaciones se convierten, en Stata,


Donde la opción nonshock en la última ecuación especifica que es exacta.

Ver también  [TS] sspace example 5, donde un truco similar es usado.



¡Gracias por entrar a nuestro Blog!



>>> Accede al artículo original aquí.
>>> Accede a nuestro micrositio Stata aquí.


Este blog es administrado por MultiON Consulting S.A. de C.V.

miércoles, 25 de abril de 2018

Análisis de Componentes Principales dentro del Análisis de Preferencias

Introducción

El análisis de componentes principales (PCA, por sus siglas en inglés) es una técnica estadística útil para la reducción de datos. Ayuda a reducir el número de variables en un análisis al describir una serie de combinaciones lineales no correlacionadas de las variables que contienen la mayor parte de la varianza. Además de la reducción de datos, los eigenvectores de un PCA a menudo se inspeccionan para conocer más sobre la estructura subyacente de los datos. Por lo tanto, el PCA es una herramienta estadística exploratoria que no permite, en general, someter hipótesis a prueba.

El objetivo del PCA es encontrar combinaciones lineales de las variables con mayor varianza. El primer componente principal tiene una varianza general máxima, el segundo componente principal tiene una varianza máxima entre todas las combinaciones lineales que no están correlacionadas con el primer componente principal; mientras que el último componente principal tiene la varianza más pequeña entre todas las combinaciones lineales de las variables. Esto hace del PCA una transformación lineal de los datos. Es importante recalcar que no se está suponiendo que los datos satisfagan un modelo estadístico específico.

En esta entrada haremos un PCA sobre la calificación que dan un grupo de expertos a 10 distintas marcas de papas fritas, con la finalidad de apoyar en la decisión sobre las características que debe tener un nuevo producto para ser del agrado de los consumidores según la opinión de los expertos. Dicho proceso es conocido por ser parte del análisis de preferencias que usualmente realizan en algunos estudios de mercado cuantitativos.


Datos

Los datos corresponden a una base ficticia, donde se reporta por parte de un grupo de expertos su calificación para distintas características de 10 marcas distintas de papas fritas en el mercado, cierta empresa quiere reconocer las fortalezas y las debilidades del producto según el gusto de los expertos para posicionar una nueva marca en el mercado.
Realizamos una inspección sobre la correlación entre características analizadas.

  • use expertos
  • corr crujiente-dulzor



Como podría esperarse tenemos correlaciones positivas entre lo crujiente del producto con otras características como la dureza, la sensación de estar sobre cocido y el de ser un producto poco natural (artificial). Así como una correlación negativa con características opuestas como la fragilidad y la frescura del producto, pues se observa que hay una percepción de que un producto crujiente es menos fresco y más artificial.

Estamos trabajando con variables que no se pueden medir de una forma convencional, pues no tienen una unidad de medida específica, por lo cual el PCA se fundamentará en la matriz de correlaciones.


  • sum crujiente-dulzor, sep(0)




PCA

Parar realizar el análisis en Stata sólo tenemos que teclear la siguiente línea en la barra de comandos:


  • pca crujiente-dulzor



El primer panel que nos muestra Stata corresponde a los eigenvalores de la matriz de correlación, ordenados de mayor a menor; los eigenvectores correspondientes a dichos valores propios están en el siguiente panel.


Los loadings de nuestros (9) componentes principales, se encuentran normalizados a 1, lo que significa que la suma columna del cuadrado de los loadings es igual a 1.

Como estamos analizando una matriz de correlación, las variables están estandarizadas para tener una varianza unitaria, por lo que la varianza total es 11. Los valores propios son las varianzas de los componentes principales. Los eigenvalores son las varianzas de los componentes principales. El primer componente principal tiene una varianza de 4.83, que explica el 43% (4.83 / 11) de la varianza total. El segundo componente principal tiene una varianza de 2.78 o 25% (2.78 / 11) de la varianza total. Estos componentes principales no están correlacionados. 

Asimismo, podemos decir que los primeros dos componentes explican la suma de las varianzas individuales de los mismos, 43%+25%=69%, del total de la varianza. Los 11 componentes principales combinados explican el total de la varianza de las variables, por lo tanto, las varianzas no explicadas enlistadas en el segundo panel son igual a cero con un Rho=1.00, tal como se observa en el primer panel. Además, podemos observar que a partir del noveno componente principal el total de nuestra varianza está explicada, sin embargo, debemos de tomar en cuenta las 11 variables para el calculo de las varianzas explicadas por cada componente.


Observamos que en los primeros 4 componentes se logra explicar el 92% de la varianza total, por lo cual podemos enfocarnos sólo a estos componentes al solicitarlo a través del comando siguiente:


  • pca crujiente-dulzor, components(4)




Podemos ver como sólo el segundo panel presentado se ve afectado, pues dimos la indicación a Stata que sólo se calcularan 4 componentes principales, obteniendo también, un componente no explicado de la varianza, el cual es igual a la suma de cuadrados de los loadings ponderados por sus respectivos eigenvalores, la cual es aproximadamente del 8% (1-0.92).

A manera de nota, hay literatura y algunos softwares que tratan el PCA en combinación con el análisis factorial y tienden a mostrar los loadings de los componentes principales con una normalización asociada a los propios eigenvalores en vez de normalizarlos a 1. Para realizar esto, basta con escribir el siguiente comando:

  • estat loadings, cnorm(eigen)

Ahora podemos definir cuáles son las características de los productos que tienen un mayor peso en algunos componentes, con la finalidad de observar qué características dentro del nuevo producto deben ser las más cuidadas.


  • loadingplot



De manera predeterminada, Stata gráfica los loadings de los componentes 1 y 2. En este gráfico podemos notar que las características dureza, artificial y salado, son las preponderantes en ambos componentes, por lo que debe ponerse especial atención en dichas características en el proceso de elaboración del producto; en donde tal vez el producto deba tener la dureza que tienen ya algunas marcas o mayor, donde el sabor sea lo menos artificial posible y donde el sabor salado sea preponderante.

Dentro de estas observaciones, la marca que cumple mejor estos criterios dentro de los dos componentes principales es la marca 8. Misma que serviría de referencia para la elaboración de un nuevo producto, y donde se tendría que mejorar ciertas características como la sensación de ser un producto muy artificial. Esto lo podemos visualizar con el siguiente comando:

  • scoreplot, mlabel(Papas)




Conclusión

Gracias a las herramientas que ofrece Stata para realizar PCA, se pueden analizar y tomar decisiones en el ámbito de la mercadotecnia para realizar análisis de preferencias, tal como lo vimos en este ejemplo.


Referencias

Stata Press. 2017. STATA Multivariate Statistics Refrence Manual, Release 15. College Station, Texas.

Para cotizaciones e información sobre Stata, escríbenos a: info@multion.com

Este blog es administrado por MultiON Consulting S.A. de C.V.

viernes, 16 de marzo de 2018

Modelo Minceriano para los jefes de hogares en México

¡Hola! Gracias por entrar a nuestro blog dedicado a usuarios Stata de habla hispana. A continuación una entrada más:


Introducción.

Jacob Mincer, considerado por muchos como el padre de la economía laboral moderna, desarrolló en 1974 un estudio a través de la cual se estima el impacto de un año adicional de estudios en los ingresos laborales de los individuos.


La ecuación tradicional de Mincer, se estima por mínimos cuadrados ordinarios (MCO) en un modelo semilogarítmico, usando como variable dependiente el logaritmo de los ingresos y como variables independientes los años de educación, la experiencia laboral y el cuadrado de dicha experiencia. Los datos utilizados para su estimación son de carácter transversal. Dicho modelo sigue la siguiente especificación:


Donde:

Salario: es el salario del individuo i.
Educación: es el número de años de educación formal completada.
Experiencia: son los años de experiencia laboral.
e: es el término de perturbación aleatoria que se distribuye como una Normal.
En esta entrada nos ocuparemos de estimar dicha relación con datos de la Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) del año 2016 para los jefes de hogar en México, utilizando las herramientas que Stata nos ofrece para hacer un análisis de regresión lineal múltiple.



Datos

Los datos corresponden a los reportados por el Instituto Nacional de Estadística y Geografía (INEGI) en la ENIGH 2016. A diferencia del estudio de Mincer, en este ejemplo utilizaremos los ingresos corrientes trimestrales de los jefes de hogar como variable proxy de sus salarios.

Para definir las variables del modelo minceriano, ya que no se encuentran de forma explícita en la base de datos, se creo la variable educación, la cual sumaba los años completos de educación de los jefes de hogar capturados en la variable “nivelaprob”.

. generate educación=0
. replace educacion=1  if nivelaprob==1
. replace educacion=7  if nivelaprob==2
. replace educacion=10 if nivelaprob==3
. replace educacion=13 if nivelaprob==4
. replace educacion=16 if nivelaprob==5
. replace educacion=15 if nivelaprob==6
. replace educacion=18 if nivelaprob==7
. replace educacion=20 if nivelaprob==8

. replace educacion=23 if nivelaprob==9

Para determinar la experiencia laboral de la persona se trabajo bajo el supuesto que después de su último grado de estudios terminado, inmediatamente ingresó al mercado laboral; por lo cual la experiencia se definió de la siguiente manera:

. gen exper=edad_jefe-educacion-6
. gen exper2=exper*exper

En nuestra base de datos se consideró sólo a jefes de hogar que reunían ciertas características necesarias para poder catalogarlos dentro del sector laboral de carácter formal e informal. Por lo que nuestra base de datos quedó de la siguiente manera.

. describe


Podemos observar más de la naturaleza descriptiva de los datos a través del comando summarize, al cual le añadiremos la especificación de que haga los cálculos a nivel poblacional a través de aplicar el factor de expansión.


. summarize [fweight = factor]

Nos percatamos de que la muestra que estamos trabajando contiene 26 millones 406 mil 417 hogares; estos no son la totalidad de hogares en México, por lo cual no podemos decir que estamos haciendo el cálculo poblacional sino sólo aplicando el factor de expansión a nuestra muestra.

Los ingresos van desde cero a los 35 millones trimestrales, los años de educación van de cero a los 23 años -indicando a quienes tienen doctorado-, y la variable experiencia alcanza los 91 años pues nuestra base contiene a jefes de hogar mayores a los 97 años.



Regresión lineal múltiple

Para realizar la regresión múltiple en Stata, primero lo haremos con nuestras series en niveles sin expandir los resultados con el factor de expansión, después lo haremos expandiendo los resultados con nuestro factor y por último lo haremos con la forma funcional propuesta por Mincer.
Para el primer ejemplo escribiremos en Stata el siguiente comando:

. regress ing_cor educacion exper exper2


Obtenemos un modelo estadísticamente significativo en general (Prob > F = 0.0000), y de igual forma para cada uno de nuestros parámetros (P>|t|=0.000). Encontramos los signos esperados: una relación positiva entre el ingreso corriente y los años de educación y de experiencia, indicándonos que, si los individuos incrementan en un año su nivel educativo y su experiencia laboral, percibirán un incremento en sus ingresos corrientes trimestrales de $5,327 y $1,294, respectivamente. El signo negativo de la variable experiencia al cuadrado nos confirma que después de cierto número de años de experiencia laboral los ingresos corrientes comienzan a decrecer.


Ampliaremos el análisis aplicando el factor de expansión de la muestra:

. regress ing_cor ducación exper exper2 [pw=factor]

Al igual que la primera regresión, tenemos un modelo y unos parámetros estadísticamente significativos. Inmediatamente después del comando Stata nos notifica la suma del factor de expansión, coincidiendo con los 26 millones de hogares dentro de la muestra expandida. En este caso, las remuneraciones por cada año de estudio y de experiencia laboral se incrementan a $6,756 y $1,605, respectivamente. El signo negativo de la experiencia al cuadrado nos sigue confirmando lo visto anteriormente.


Para nuestro tercer ejemplo, generaremos una nueva variable que contenga los logaritmos de la variable ingreso corriente, por lo cual escribiremos en la barra de comandos de Stata:

. gener lic= log( ing_cor )

Stata nos informa que se generaron dos valores perdidos, lo cual es normal si recordamos que teníamos dos observaciones con el ingreso corriente igual a cero. Ahora escribimos el siguiente comando:


. regress lic educacion exper exper2 [pw=factor]

Esta es la forma funcional logarítmica-lineal calculada por Mincer en su estudio, aplicada a nuestros datos muestrales expandidos. En este caso encontramos que tanto el modelo como los parámetros son estadísticamente significativos. Los coeficientes de nuestra regresión deben ser multiplicados por cien para poder hacer una lectura correcta de los mismos.

Si los individuos incrementan un año su nivel educativo, el ingreso corriente trimestral crecerá en promedio 9.7 por ciento; mientras que, si los individuos incrementan su experiencia laboral en un año, su ingreso corriente se incrementará en promedio 2.3 por ciento y, después de pasar determinados años de experiencia, un año más de experiencia implicaría que el ingreso corriente caiga en 0.02 por ciento. 



Conclusión

A través del ejercicio utilizamos las herramientas que nos brinda Stata para administrar bases de datos y para elaborar reportes de estas (generate, replace, summarize, describe). Además de utilizar la herramienta básica de análisis estadístico inferencial regress, con la cual pudimos elaborar una regresión lineal múltiple con datos reales de la economía mexicana, encontrando una relación teorizada por Jacob Mincer.

Gracias por leernos.



Referencias

Mincer, Jacob. 1974. Schooling, Experience and Earnings.  National Bureau of Economic Research, New York.

Instituto Nacional de Estadística y Geografía (INEGI). 2016. Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH).  México. Consultar en: 




Este blog es administrado por MultiON Consulting S.A. de C.V.

lunes, 12 de febrero de 2018

Modelos Lineales de Datos Longitudinales: Efectos Fijos vs Efectos Aleatorios

Introducción

Stata 15 nos proporciona la capacidad de trabajar con datos longitudinales de manera eficiente, aprovechando las capacidades de análisis descriptivo e inferencial. La gama de modelos con los cuales los investigadores pueden decir trabajar sus datos depende de la naturaleza de los mismos, por lo cual habría que distinguir entre dos tipos de análisis en el modelaje lineal de la información. 

Una de las ventajas de trabajar con datos panel es la de capturar la heterogeneidad de la información entre unidades individuales de muestreo (personas, empresas, estados, países, etc.). El análisis aprovecha variables que no se pueden observar o medir, como factores culturales o diferencias entre la práctica de los negocios de las distintas empresas; o variables que cambian con el tiempo pero no entre individuos, como las políticas públicas, regulaciones de comercio, acuerdos internacionales, etc.). 

En esta entrada nos enfocaremos a dos técnicas para analizar los datos panel: efectos fijos y efectos aleatorios; así como en distinguir cuál es la mejor técnica para nuestros datos.


Datos

Los datos que se usaron para realizar el análisis son los presentados por Cameron y Trivedi (2010) del Estudio Panel de la Dinámica del Ingreso, PSID por sus siglas en inglés; mismos que presentaron Baltagi y Khanti-Akon en 1990 dentro del Journal of Applied Econometrics. 

La totalidad de los datos en por Cameron y Trivedi (2010) se pueden obtener directamente al ejecutar alguno de los siguientes comandos:

  • net from http://www.stata-press.com/data/musr
  • net install musr
  • net get musr


La base de datos que usaremos la podemos cargar con el siguiente comando:

  • use mus08psidextract.dta, clear


Misma que contiene la siguiente información:


Tenemos 4,165 observaciones. Las etiquetas de las variables describen bien cada una de ellas, pero es conveniente observar que lwage es el logaritmo del salario por hora medido en centavos, fem toma el valor de 1 si el individuo es mujer, id es el identificador individual, t es el año y exp2 es el valor de exp al cuadrado.

Podemos observar más de la naturaleza descriptiva de los datos a través del comando summarize:


No tenemos valores perdidos dentro de la base de datos, la muestra incluye tanto hombres como mujeres, aunque sólo 11% son mujeres. La base se restringe a individuos que trabajaron los 7 años completos que cubre la muestra, pues los datos de salarios y semanas trabajadas están sin datos faltantes.

Antes de empezar el modelado de los datos tenemos que especificar que estamos trabajando con una base de datos panel con el comando xtset, donde indicaremos las variables que identifican las unidades individuales y al tiempo.

En este caso “id” representa la variable identificadora de los individuos y “t” representa la variable tiempo. La nota “(strongly balanced)” se refiere al hecho de que todos los individuos tienen datos para todos los años.


Modelos lineales

La especificación general de un modelo de regresión con datos panel es la siguiente:


En donde nuestras principales hipótesis se refieren al tratamiento del término de error u, tomando así, la siguiente forma:

Tenemos que hacer otra restricción al suponer delta igual a cero, así tendremos la oportunidad de trabajar con los modelos de tipo “one way”, en los cuales los supuestos se realizan sobre los efectos no observables que difieren entre los individuos pero no en el tiempo. Para este caso supondremos que el efecto puede ser: 1) fijo, para cada individuo y; 2) una variable aleatoria.


Efectos Fijos (Fixed Effects, FE)

En este modelo el efecto fijo para cada individuo produce que la heterogeneidad se incorpore a la constante del modelo (alpha). Quedando un modelo como el siguiente:


Este modelo explora la relación entre la variable dependiente y los predictores dentro de una unidad de estudio, por lo cual asumimos que algo dentro de la unidad individual puede afectar o sesgar el predictor, por lo cual tenemos que controlar esta interacción, es decir, se admite la correlación entre los términos de error de las entidades y las variables predictoras. Como cada entidad es diferente, el término de error de la entidad y la constante (que captura las características individuales) no deben correlacionarse. En dado caso de que los errores estuvieran correlacionados, significaría que nuestro modelo FE no es adecuado ya que las inferencias pueden no ser correctas, haciendo necesario modelar dicha relación. Asimismo, FE se usa sólo cuando se esté interesado en analizar el impacto de variables que varían con el tiempo, implicando que las características o variables invariantes en el tiempo no incidan en la variable independiente.

Para realizar este modelo Stata procede a estimar los modelos con el comando xtreg, en este caso, añadiendo la opción fe.


La sintaxis del comando s la siguiente: en primer término el comando xtreg seguido de la variable de resultado lwage y de las variables predictoras exp exp2 wks ed, seguidos de una coma que nos indica el comienzo de las opciones del comando para poder indicar que se estime el modelo de efectos fijos con la opción fe.

La salida de Stata nos provee del número de observaciones, el número de grupos (individuos). Una prueba F para verificar si los coeficientes del modelo son diferentes de cero en conjunto, por lo que si Prob>F es menor a 0.05 es un indicativo de que el modelo está bien. En estos modelos los errores están correlacionados con las variables explicativas, por lo cual se nos arroja una medición de esta relación (corr(u_i, Xb)). Los coeficientes de los regresores  indican cuánto cambia lwage cuando las demás variables cambian en una unidad, además de proveer una prueba de dos colas para el p-value que verifica la significancia estadística  de los coeficientes, donde normalmente un p-value menor a 0.05 nos quiere decir que la variable tiene influencia significativa en la variable dependiente. Mientras que sigma_u y sigma_e miden la desviación estándar de los residuales entre los grupos y sobre todo el término de error, respectivamente; rho, indica que 97% de la varianza se debe a diferencias entre los individuos. Por último, hay una nota donde nos indica que la variable ed es omitida debido a que la variable educación no varía en el tiempo, por lo cual, como se mencionó anteriormente, el modelo de efectos fijos no es viable para analizar la interacción entre este tipo de variables y la variable dependiente.

Procedemos a guardar nuestros resultados del modelo para análisis posterior con el siguiente comando:
  • estimates store FE

Efectos Aleatorios (Random Effects, RE)

En este modelo donde se supone que los efectos individuales no son independientes entre sí, sino que están distribuidos aleatoriamente alrededor de un valor dado; por lo que el efecto se incorpora al término de error. Quedando un modelo como el siguiente:


Este modelo asume que la variación entre los individuos es aleatoria y no está correlacionada con el predictor o variables independientes incluidas en el modelo. Si existen razones para creer que las diferencias entre los individuos tienen influencia en la variable dependiente, entonces es una buena opción usar RE, además que en estos modelos se pueden incluir variables que no cambian con el tiempo, como el género. 
Para realizar este modelo solo tenemos que añadir la opción re al comando xtreg.


La sintaxis del comando para estimar este modelo es la misma que el modelo de efectos fijos, sólo tenemos que cambiar a la opción re de efectos aleatorios.
Las diferencias entre los modelos que nos arroja Stata se hacen visibles en la prueba conjunta de los coeficientes, donde ahora tenemos una distribución Chi cuadrada, donde valores menores a 0.05 son indicativos que un buen modelo. Se asume que la correlación entre el término de error por individuos y los predictores es igual a cero. Además, la interpretación de los coeficientes es engañosa dado que se incluyen los efectos de variación entre individuos y dentro del mismo individuo a través del tiempo; en general, podrían interpretarse como el efecto promedio de los predictores sobre la dependiente cuando la independiente cambia en el tiempo y entre individuos por una unidad.

Procedemos a guardar nuestros resultados del modelo con el siguiente comando:
  • estimates store RE


Fijos vs Aleatorios

Para efectuar una buena decisión sobre qué modelo usar se debe de tener en cuenta ciertos aspectos, tales como los objetivos del investigador, el entorno del cual provienen los datos y el número mismo de datos disponibles. 

Cuando se trabaja con una muestra aleatoria con la cual se requieran hacer inferencias poblacionales, lo mejor es trabajar con modelos aleatorios; si la muestra fue seleccionada a conveniencia o bien se está trabajando con la población, el mejor modelo es de efectos fijos. Si el interés está puesto en conocer los parámetros y no las diferencias individuales, la mejor opción son los efectos aleatorios. 

Se debe considerar la estructura de los datos, es decir, los tamaños relativos al número de individuos (N) y al número de periodos (T); pues en bases de datos donde T es menor a N, los resultados obtenidos con efectos fijos difieren sustancialmente de los obtenidos con efectos aleatorios, ya que el gran número de parámetros calculados en FE provoca perdida de grados de libertad y estimaciones ineficientes. 

Una herramienta practica que nos ofrece Stata es la prueba Hausman, que tiene por hipótesis nula que el modelo preferido es el de efectos aleatorios contra la alternativa que es el de efectos fijos. 

Se puede implementar la prueba debido a que ya hemos guardado las estimaciones de cada modelo, además, se utilizará la opción sigmamore, la cual especifica que ambas matrices de covarianza están basadas en la misma varianza estimada del estimador eficiente.


La prueba realizada conduce a rechazar la hipótesis nula de que el modelo de efectos aleatorios provea estimadores consistentes. Siendo, para este caso, mejor el modelo de efectos fijos.


Conclusión

En esta entrada se desarrolló u breve análisis de datos panel y las dos técnicas para modelar los datos, dejando claro cuáles son las herramientas que Stata nos provee para realizar un trabajo eficiente, a través de los comandos describe, summarize, xtset, xtreg, fe, re y hausman.


Referencias

Cameron A. Colin, Trivedi Pravin K. 2010. Microeconometrics Using Stata. College Station: Stata Press.
Mayorga M. Mauricio, Muñoz S. Evelyn. 2000. La técnica de datos panel. Una guía para su uso e interpretación. Documento de trabajo: Banco Central de Costa Rica.


Si desea mayor información acerca de Stata, escríbanos a info@multion.com 

Este blog es administrado por MultiON Consulting S.A. de C.V.