12. Introducción. Obtención de muestras#
En este apartado se mostrarán una serie de ejercicios sobre muestreo que tienen por objeto entender el concepto que se esconde detrás de este término.
12.1. Ejercicio 1.#
En una urna se dispone un conjunto de cuatro bolas, \(U=\{U_1, U_2, U_3, U_4\}\), cada bola tiene los siguientes pesos: \(U_1=12Kg, U_2=18Kg, U_3=15Kg, U_4=6Kg\). Entonces utilizando diferentes tipos de muestreo, se desea estimar el peso medio de las bolas, considerando como población las cuatro bolas y extrayendo una muestra de dos bolas.
Click aquí para ver la solución!
Solución
En este caso N (tamaño de la población)= 4, mientras que n (tamaño de la muestra) = 2. entonces dependiendo del muestreo que utilicemos, tendremos lo siguiente:
a) \(N^n=4^2 = 16\) muestras en muestreo con reemplazamiento y teniendo en cuenta el orden (\(VR_N^n\)).
b) \(n!\binom{N}{n}=2!\binom{4}{2}=12\) muestras en un muestreo sin reemplazamiento y teniendo en cuenta el orden (\(V_N^n\)).
c) \(\binom{N+n-1}{n}=\binom{4+2-1}{2}=10\) muestras en muestreo con reemplazamiento sin tener en cuenta el orden (\(CR_N^n\))
d) \(\binom{N}{n}=\binom{4}{2}=6\) muestras sin reemplazamiento sin tener en cuenta el orden (\(C_N^n\))
Entonces dependiendo de las bolas elegidas tendremos una estimación u otra de peso medio de las bolas en la población. En la siguiente tabla, se muestran las posibles muestras obtenidas dependiendo de los diferentes tipos de muestreo y la media obtenida en cada caso (observar que en este caso la media poblacional sería \(\overline{y}=\frac{12+18+15+6}{4}=12.75\) ).
Muestras posibles |
Media muestral obtenida |
|
---|---|---|
(a) |
(1,1);(1,2);(1,3);(1,4); |
12,15,13.5,9 |
(b) |
(1,2);(1,3);(1,4); |
15,13.5,9 |
(c) |
(1,1);(1,2);(1,3);(1,4); |
12,15,13.5,9, |
(d) |
(1,2);(1,3);(1,4); |
15,13.5,9, |
Como puede observarse, con cada tipo de muestreo obtenemos una serie de estimaciones con una determinada probabilidad, lo que puede constituir un espacio muestral y por lo tanto poder calcular sobre él por ejemplo una media, varianza, etc.
En este sentido y por ver con más claridad esta situación, supongamos que el muestreo se lleva a cabo con reemplazamiento y con probabilidades iguales y además se tiene en cuenta el orden de colocación de los elementos (caso a). Entonces la probabilidad de aparición de cada muestra es la misma e igual a \(p_i=1/16\) para cada una de las 16 muestras posibles. Como cada muestra lleva asociada una media muestral se puede construir la variable aleatoria \(\hat{\overline{Y}}\)=”media muestral” que asocia una probabilidad 1/16 a cada uno de los valores de la muestra 12,15,13.5,9,15,18,16.5,12,13.5,16.5,15,10.5,9,12,10.5,6. Como hay valores repetidos, éstos se pueden agrupar (sumando las probabilidades correspondientes al mismo valor) y entonces la tabla de probabilidades de la variable aleatoria así definida quedaría de la siguiente manera:
\(\hat{\overline{Y}}\) |
6 |
9 |
10.5 |
12 |
13.5 |
15 |
16.5 |
19 |
---|---|---|---|---|---|---|---|---|
\(P\left(\hat{\overline{Y}}\right)\) |
1/16 |
2/16 |
2/16 |
3/16 |
2/16 |
3/16 |
2/16 |
1/16 |
En consecuencia, se tiene que los procesos aleatorios de selección muestral llevan a la construcción de variables aleatorias y por lo tanto se podrán realizar técnicas de inferencia adecuadas a los procesos de muestreo.
12.2. Ejercicio 2#
En una población con N=3 unidades Ui(i=1,2,3), la variable Ti medida sobre cada unidad toma los valores (1,3,5). Se considera un proceso de muestreo sin reposición con probabilidades iniciales de selección Pi=(1/5, 2/5, 2/5) y tamaño de la muestra n=2 sin tener en cuenta el orden de colocación de las unidades en las muestras. Se pide:
1) Distribución en el muestreo de los estimadores X=Ti+Tj, Y=min(Ti,Tj), Z=(Ti+Tj)/2. Si con X estimamos el total poblacional, con Y el menor valor de la población y con Z la media poblacional ¿cual de los tres estimadores es mejor? Razona la respuesta y cuantifica las ganancias en precisión.
2) Hallar intervalos de confianza para los estimadores X, Y y Z basados en la muestra de mayor probabilidad para un nivel de confianza del 2 por mil (\(F^{-1}(0.999)=3\ con\ F\rightarrow N(0,1)\)). Comentar los resultados.
Click aquí para ver la solución!
Solución
Por lo datos del problema se tiene que
\(U_{1}\) |
\(U_{2}\) |
\(U_{3}\) |
|
---|---|---|---|
\(T_{i}\) |
1 |
3 |
5 |
\(P_{i}\) |
1/5 |
2/5 |
2/5 |
Generamos las diferentes muestras juntos con probabilidades correspondientes y los valores de estimadores
S(x) |
Pi |
X |
Y |
Z |
---|---|---|---|---|
(U1,U2) |
7/30=0.233333 |
4 |
1 |
2 |
(U1,U3) |
7/30=0.233333 |
6 |
1 |
3 |
(U2,U3) |
8/15=0.533333 |
8 |
3 |
4 |
Las probabilidades se obtienen de la siguiente manera:
P(U1,U2)=P(U1)P(U2|U1)+P(U2)P(U1|U2)=\(\frac{1}{5}\cdot\frac{2/5}{1-1/5}+\frac{2}{5}\cdot\frac{1/5}{1-2/5}=\frac{7}{30}\approx0.233333\)
P(U1,U3)=P(U1)P(U3|U1)+P(U3)P(U1|U3)=\(\frac{1}{5}\cdot\frac{2/5}{1-1/5}+\frac{2}{5}\cdot\frac{1/5}{1-2/5}=\frac{7}{30}\approx0.233333\)
P(U2,U3)=P(U2)P(U3|U2)+P(U3)P(U2|U3)=\(\frac{2}{5}\cdot\frac{2/5}{1-2/5}+\frac{2}{5}\cdot\frac{2/5}{1-2/5}=\frac{8}{15}\approx0.533333\)
Calculemos ahora las esperanzas matemáticas, que recordemos se obtiene mediante la suma de los valores que toma por la probabilidad con que los toma.
\(E(X)=4\cdot7/30+6\cdot7/30+8\cdot8/15=198/30=6.6\)
\(E(Y)=1\cdot7/30+1\cdot7/30+3\cdot16/30=62/30=2.066666\)
\(E(Z)=2\cdot7/30+3\cdot7/30+4\cdot16/30=99/30=3.3\)
Ahora procedemos a calcular las varianzas.
\(V(X)=E(X-E(X))^{2}=(4-6.6)^{2}\cdot7/30+(6-6.6)^{2}\cdot7/30+(8-6.6)^{2}\cdot8/15=2.7\)
\(V(Y)=(1-2.06666)^{2}\cdot7/30+(1-2.06666)^{2}\cdot7/30+(3-2.06666)^{2}\cdot0.533333=0.995554859\)
\(V(Z)=(2-3.3)^{2}\cdot7/30+(3-3.3)^{2}\cdot7/30+(4-3.3)^{2}\cdot8/15=0.676666667\)
Por lo tanto las desviaciones típicas serán
DT(X)= 1.64
DT(Y)=0.997778
DT(Z)=0.822597
El total poblacional es 9 por lo tanto X no es un estimador insesgado del total poblacional pues su media no coincide con el valor del total poblacional. Su sesgo es B(X)=6.6-9=-2.4
El menor valor poblacional es 1 y por lo tanto el estimador Y no es insesgado y tiene como sesgo B(Y)=2.06666-1=1.06666
La media poblacional es 3 y por lo tanto Z tampoco es un estimador insesgado de la media poblacional. Su sesgo vale B(Z)=3.3-3=0.3
Por otro lado se tiene que
Podemos ver que todos los cocientes anterior son mayores que 0.1 y por lo tanto tampoco podemos asumir la insesgadez de los estimadores. En estas circunstancias podríamos asumir que el mejor estimador es Z ya que es el que presenta menor valor del módulo de la razón del sesgo a la desviación típica, seguido del estimador Y y quedando al final el estimador X.
Podemos corroborar los resultados anteriores calculando el error cuadrático medio (ECM) (\(ECM(\hat{\theta})=E(\hat{\theta}-\theta)^{2}=\sigma^{2}(\hat{\theta})+B^{2}(\hat{\theta})\)). Por lo tanto
\(ECM(X)=2.7+(-2.4)^{2}=8.46\)
\(ECM(Y)=0.995554859+1.06666^{2}=2.1333\)
\(ECM(Z)=0.67666667+0.3^{2}=0.7666667\)
La ganancia en precisión se calcula utilizando el ECM como \(\left(\frac{ECM(\hat{\theta_{1}})}{ECM(\hat{\theta_{2}})}-1\right)*100\)
Fórmula similar se obtiene si se utiliza el coeficiente de variación o la desviación típica. En este ejemplo vamos a utilizar el ECM
\(GP(Y-Z)=(\frac{2.1333}{0.766667}-1)*100=180\%\)
\(GP(X-Z)=(\frac{8.46}{0.766667}-1)*100=1013\%\)
Para calcular los intervalos de confianza, cuando el sesgo no es despreciable se utiliza la siguiente expresión
Cambiando los parámetros de la fórmula anterior por los valores correspondientes se obtienen los tres intervalos cada uno correspondiente a una muestra diferente. Si elegimos la muestra de mayor probabilidad que sería la tercera, es decir (U2,U3). Entonces obtenemos los siguiente intervalos de confianza
para el total \(\left[8-3\cdot1.64-(-2.4);8+3\cdot1.64-(-2.4)\right]\)
Para el mínimo \(\left[3-3\cdot0.997778-1.06666;3+3\cdot0.997778-1.06666\right]\)
Para la media \(\left[4-3\cdot0.822597-0.3;4+3\cdot0.822597-0.3\right]\)