miércoles, 12 de julio de 2017

Consistencia y Normalidad Asintótica: Una Explicación con Simulaciones

David M. Drukker, Director Ejecutivo de Econometría - Stata Corp.

Resumen

En la estadística frecuentista, los estimadores son variables aleatorias porque son funciones de datos aleatorios. Las distribuciones de muestra finita de la mayoría de los estimadores que utilizamos en nuestras labores empíricas no son conocidas, dado que los estimadores son funciones complejas y no lineales de los datos. Sin embargo, estos estimadores tienen propiedades de convergencia en muestras grandes, que podemos utilizar para aproximar su comportamiento en muestras finitas.

Dos propiedades clave de la convergencia son la consistencia y la normalidad asintótica. Un estimador consistente se acerca cada vez más en probabilidad al valor verdadero. La distribución de un estimador asintóticamente normal se acerca cada vez más a la distribución normal conforme aumenta el tamaño de la muestra. Podemos utilizar una versión recentrada y escalada de esta distribución normal para aproximar la distribución de muestra finita de nuestros estimadores.

Aquí ilustraré el significado de la consistencia y la normalidad asintótica utilizando simulación Monte Carlo.

Estimador consistente

Un estimador consistente se acerca cada vez más en probabilidad al valor verdadero conforme aumenta el tamaño de la muestra. En otras palabras, la probabilidad de que un estimador consistente esté fuera del vecindario del valor verdadero converge a cero conforme aumenta el tamaño de la muestra. La Figura 1 ilustra esta convergencia para un estimador $theta$, con muestras de 100, 1000 y 5000 observaciones, cuando el valor verdadero es 0. Conforme aumenta el tamaño de la muestra, la densidad se distribuye de manera más y más compacta alrededor del valor verdadero. Con una muestra infinita, la densidad se colapsa a un solo pico sobre el valor verdadero.

Figura 1. Distribuciones de estimador con muestras de 100, 1000, 5000 y $\infty$


Ahora ilustraremos esto mostrando que la media muestral es un estimador consistente de la media de una variable aleatoria, siempre que nuestra muestra sea independiente e idénticamente distribuida (i.i.d.), y que la media y la varianza sean finitas. En este ejemplo, los datos provienen de una distribución $\chi^2$ con 1 grado de libertad. El valor verdadero es 1, puesto que la media de la distribución $\chi^2(1)$ es 1.

Este primer bloque de código (Bloque 1) implementa una simulación Monte Carlo de las medias muestrales de 1,000 muestras de 1,000 observaciones i.i.d. con distribución $\chi^2(1)$.

Bloque 1. Código de media1000.do


La línea 1 limpia la memoria de Stata y la línea 2 determina el seed del generador de números aleatorios. La línea 3 utiliza el comando postfile para crear un espacio en la memoria con nombre sim, en donde se almacenarán las observaciones de la variable m1000, y que será una base de datos llamada sim1000. Note que la palabra using separa el nombre de la nueva variable y el nombre de la nueva base de datos. La opción replace especifica que el archivo sim1000.dta se debe reemplazar, en caso de que ya exista.

Las líneas 5 y 11 utilizan un ciclo forvalues para repetir el código de las líneas 6 a 10 un total de 1,000 veces. En cada vuelta del ciclo forvalues, la línea 6 elimina la variable y, la línea 7 abre 1,000 observaciones, la línea 8 genera una muestra de 1,000 observaciones i.i.d. $\chi^2(1)$, la linea 9 estima la media de esa muestra, y la línea 10 utiliza el comando post para almacenar la media estimada en lo que será la nueva variable m1000. La línea 12 pasa todo lo almacenado en sim a una base de datos llamada sim100.dta.

En el Ejemplo 1, corremos el archivo media1000.do y hacemos un resumen de los resultados.

Ejemplo 1. Salida al ejecutar media1000.do. Resumen de la variable.


La media de nuestros 1,000 estimados es cercana al número 1. La desviación estándar de nuestros 1,000 estimados es de 0.442, y esta medida nos indica qué tan dispersa es la distribución alrededor del valor verdadero 1.

El código del Bloque 2 es el archivo media100000.do, que implementa la misma simulación Monte Carlo pero con muestras de 100,000 observaciones...

Bloque 2. Código de media100000.do.


...y el Ejemplo 2 muestra la salida que resulta de ejecutar este archivo. Luego, se genera un resumen de los datos.

Ejemplo 2. Salida al ejecutar media100000.do. Resumen de la variable.


La desviación estándar de 0.0043 indica que la distribución del estimador con un tamaño de muestra de 100,000 está mucho más concentrada alrededor del valor verdadero 1 que la distribución del estimador con tamaño de muestra 1,000.

El código del Ejemplo 3 combina las dos bases de datos de estimados, para graficar las distribuciones que resultan con estos dos tamaños de muestra (Figura 2). La distribución del estimador con muestras de 100,000 observaciones está mucho más concentrada alrededor del valor verdadero 1 que la distribución del estimador con muestras de 1,000.

Ejemplo 3. Código para combinar bases y generar la Figura 2.


Figura 2. Densidades del estimador media muestral, con N=1,000 y N=100,000.


La media muestral es un estimador consistente de la media de una variable aleatoria $\chi^2(1)$ gracias a la ley débil de los grandes números. De acuerdo a ese teorema, la media muestral converge en probabilidad a la media verdadera si los datos son i.i.d., la media es finita y la varianza es finita. Otras versiones de este teorema relajan el supuesto i.i.d. o los supuestos de los momentos (ver Cameron & Trivedi (2005, sec. A.3), Wasserman (2003, sec. 5.3), y Wooldridge (2010, 41-42) para más detalles).

Normalidad asintótica

Así que la buena noticia es que la distribución de un estimador consistente tiende a concentrase alrededor del valor verdadero. La mala noticia es que la distribución del estimador cambia con el tamaño de la muestra, como se puede apreciar en las Figuras 1 y 2.

Si conociéramos la distribución de nuestro estimador para cualquier tamaño de muestra, podríamos utilizarla para realizar inferencia con su distribución de muestra finita, también conocida como la distribución exacta. Pero la distribución exacta de la mayoría de los estimadores que utilizamos en nuestros análisis no es conocida. Afortunadamente, la distribución de una versión recentrada y escalada de estos estimadores converge hacia la distribución normal conforme aumenta el tamaño de la muestra; a los estimadores que tienen esta propiedad les llamamos estimadores asintóticamente normales, y utilizamos esta distribución de muestra grande para aproximar la distribución de muestra finita.

En la Figura 2 se observa que la distribución de la media muestral se colapsa hacia el valor verdadero conforme el tamaño de la muestra aumenta. En vez de enfocarnos en la distribución del estimador $\hat{\theta}_N$ para un tamaño de muestra $N$, consideremos ahora la distribución de $\sqrt{N}(\hat{\theta}_N-\theta_0)$, donde $\theta_0$ es el valor verdadero hacia el que colapsa $\hat{\theta}_N$.

El Ejemplo 4 estima las distribuciones de estos estimadores recentrados y escalados, que se muestran en la Figura 3.

Ejemplo 4. Densidades del estimador recentrado y escalado.


Figura 3. Densidades del estimador recentrado y escalado, con N=1,000 y N=100,000.


Las densidades de los estimadores recentrados y escalados en la Figura 3 son prácticamente iguales, y cercanos a la distribución normal. El teorema del límite central de Lindberg-Levy garantiza que la distribución de la media muestral recentrada y escalada de variables aleatorias i.i.d. con media finita $\mu$ y varianza finita $\sigma^2$ converge hacia una distribución normal con media 0 y varianza $\sigma^2$ conforme aumenta el tamaño de la muestra. En otras palabras, la distribución de $\sqrt{N}(\hat{\theta}_N-\mu)$ converge hacia la distribución $N(0,\theta^2)$ conforme $N\rightarrow\infty$, donde $\hat{\theta}_N=1/N\sum_{i=1}^{N}y_i$, siendo $y_i$ observaciones i.i.d. de la variable aleatoria. Esta convergencia en distribución justifica nuestro uso de la distribución $\hat{\theta}_N\sim N\left(\mu,\frac{\sigma^2}{N}\right)$ en la práctica.

Dado que $\sigma^2=2$ para la distribución $\chi^2(1)$, en el Ejemplo 5 agregamos a la gráfica una densidad Normal con media 0 y varianza 2 para comparar.

Ejemplo 5. Densidades del estimador recentrado y escalado.


Vemos que las densidades de estos estimadores recentrados y escalados son prácticamente idénticas a la distribución normal con media 0 y varianza 2, tal como lo predice la teoría.

Figura 4. Densidades de estimadores recentrados y escalados, y distribución Normal(0,2).


Otras versiones del teorema del límite central relajan el supuesto i.i.d. o los supuestos de los momentos. Ver Cameron & Trivedi (2005, sec. A.3), Wasserman (2003, sec. 5.3) y Wooldrige (2010, 41-42) para más detalles).

¡Listo!

Utilizamos simulación Monte Carlo para ilustrar el hecho de que la media muestral es un estimador consistente y asintóticamente normal, siempre que los datos sean observaciones i.i.d. de una variable con media y varianza finitas.

Muchos estimadores de método de momentos, máxima verosimilitud, y estimadores tipo M son consistentes y asintóticamente normales bajo ciertos supuestos sobre el proceso generador de información y sobre los estimadores mismos. Ver Cameron & Trivedi (2005, sec. 5.3), Newey & McFadden (1994), Wasserman (2003, cap. 9), y Wooldridge (2010, cap. 12) para más información.

Referencias

Cameron, A. C., y P. K. Trivedi. 2005. Microeconometrics: Methods and Applications. Cambridge: Cambridge University Press.

Newey, W. K., y D. McFadden. 1994. Large sample estimation and hypothesis testing. En Handbook of Econometrics, ed. R. F. Engle y D. McFadden, vol. 4, 2111–2245. Amsterdam: Elsevier.

Wasserman, L. A. 2003. All of Statistics: A Concise Course in Statistical Inference. New York: Springer.

Wooldridge, J. M. 2010. Econometric Analysis of Cross Section and Panel Data. 2da ed. Cambridge, Massachusetts: MIT Press.

1 comentario: