1. Formulario estadística#
1.1. Tema 1#
Leyes de Morgan:
\(\overline{A\cup B}= \overline{A}\cap \overline{B}\);
\(\overline{A\cap B} = \overline{A} \cup \overline{B}\).
Probabilidad condicionada: \(P(A|B)=\frac{P(A\cap B)}{P(B)}\).
Ley Multiplicativa para probabilidades condicionadas:
\(P(A\cap B)= P(B)P(A|B)=P(A)P(B|A)\).
Sucesos independientes: \(P(A|B)=P(A)\); \(P(A\cap B)=P(A)P(B)\).
Teorema probabilidades totales: \(P(B)=\sum_{j=1}^{k}P(B/A_{j})\cdot P(A_{j})\qquad A_{1},A_{2},...,A_{k}\ partici\acute{o}n\ de\ \omega\)
Teorema de Bayes : \(P(A_{i}/B)=\frac{P(B/A_{i})\cdot P(A_{i})}{\sum_{j=1}^{k}P(B/A_{j})\cdot P(A_{j})}\)
1.2. Tema 2#
Para variables aleatorias discretas se define la función de probabilidad \(P_i= P(X=i), i\in I\), que satisface
\(P_i= P(X=i)\geq 0, i\in I\) y
\(\sum_{i \in I} P_i= \sum_{i \in I} P(X=i) = P(\Omega)=1\).
Para variables aleatorias continuas cuando su función de distribución \(F(x)\) es continua. En ese caso, existe una función de densidad \(f(x)\) tal que \(\forall x \in \mathbb{R}\) \(F(x)= \int_{-\infty}^x f(s)ds \Leftrightarrow \frac{\partial}{\partial x}F(x)=f(x)\) y verifica
1)\(f(x)\geq 0\), \(\forall x \in \mathbb{R}\) y
2)\(\int_{-\infty}^{\infty} f(x)dx =1\).
Para ver diferentes distribuciones de variables estadísticas, consultar este enlace .
1.3. Tema 3#
Esperanza de una distribución discreta: \(E(X)=\sum_{i \in I} iP(X=i)\).
Esperanza de una distribución continua: \(E(X)= \int_{-\infty}^{\infty}xf(x)dx\).
Propiedades de la esperanza matemática:
1)Sea \(Y=aX+b\) entonces \(E(Y)=aE(X)+b\) y
2)\(E(XY)\neq E(X)E(Y)\), a excepción de que X e Y sean independientes.
Varianza: \(Var(X)=E(X^2)-E^2(X) =E(X-E(X))^2\)
Propiedades de la varianza: 1)\(Var(X)=0\Leftrightarrow\) existe una constante \(c\) tal que \(P(X=c)=1\),
2)sea \(Y=aX+b\) entonces \(Var(Y)=a^2Var(X)\) y
3)\(Var(-X)=Var(X)\).
Momento de orden k respecto del origen: \(E(X^k)\)
Función generatriz: considerando una variable aleatoria X, para cada número real \(t\) se define \(\Psi (t)=E(e^{tX})\). Donde \(\Psi'(0)=E(X)\), \(\Psi''(0)=E(X^2)\), …\
Propiedades función genratriz de momentos:
\(Y=a+bX;\Rightarrow\Psi_{Y}(t)=e^{bt}\Psi_{X}(at)\)
si las funciones generatrices de \(X_1\) y \(X_2\) son idénticas alrededor del punto t=0, entonces las distribuciones de probabilidad de \(X_1\) y \(X_2\) son idénticas.
Función característica: considerando una variable aleatoria X, para cada número real \(t\) se define la función compleja \(\varphi_X (t)=E(e^{itX})\).
Saber que la función característica es función generatriz de momentos: \(EX^n= \frac{\varphi^{n)}_X(0)}{i^n}\).
Desigualdad de Markov: \(P(X\geqq0)\Rightarrow P(X\geqq t)=\frac{E(X)}{t}\)
Desigualdad de Chebyshev:\(P(\left|X-E(X)\right|\geq t)\le\frac{Var(X)}{t^{2}}\Rightarrow P(\left|X-E(X)\right|\geq3\sigma)\le\frac{1}{9}\)
1.4. Tema 4#
Función de probabilidad conjunta:
\(P_{i,j}=P(X=i, Y=j), i\in I, j\in J\).
Propiedades de la función de probabilidad conjunta: 1)
\(P_{i,j}=P(X=i, Y=j)\geq 0, i\in I, j\in J\) y 2)
\(\sum_{i\in I}\sum_{j\in J}P(X=i, Y=j)=1\).
Probabilidades marginales: \(P(X=i)=\sum_{j\in J}P(X=i, Y=j)\) si
\(i \in I\) y \(P(Y=j)=\sum_{i\in I}P(X=i, Y=j)\) si \(j \in J\).
Distribución condicionada:
\(P(X=i|Y=j_0)=\frac{P(X=i, Y=j_0)}{P(Y=j_0)}\).
Independencia de X e Y: X e Y son independientes si y solo si
\(\forall i \in I, \forall j \in J, P(X=i, Y=j)=P(X=i)P(Y=j)\).
Función de densidad/distribución conjunta:
\(F(x,y)= \int_{-\infty}^x \int_{-\infty}^y f(s,t)dsdt \Leftrightarrow \frac{\partial^2}{\partial x \partial y}F(x,y)=f(x,y)\).
Propiedades: 1) \(f(x,y)\geq 0, \forall x,y \in \mathbb{R}\) y 2)
\(\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x,y)dxdy=1\).
Probabilidades marginales: \(f(x)=\int_{-\infty}^{\infty} f(x,y)dy\) y
\(f(y)=\int_{-\infty}^{\infty} f(x,y)dx\).
Distribución condicionada: \(f_{X|Y=y_0}(x)=\frac{f(x,y_0)}{f(y_0)}\).
Independencia de X e Y: X e Y son independientes si y solo si
\(\forall x,y \in \mathbb{R}, F(x,y)=F(x)F(y)\) y \(f(x,y)=f(x)f(y)\).\
1.5. Tema 5#
Covarianza: Cov(X,Y)=EXY-EXEY.
Propiedades de la covarianza: 1)es simétrica \(Cov(X,Y)=Cov(Y,X)\), 2)si X
e Y son independientes \(Cov(X,Y)=0\) (su recíproco no es cierto), 3)la
covarianza es bilineal
\(Cov(aX_1+bX_2+c, dX_3+eX_4+f)=adCov(X1,X3)+aeCov(X_1,X_4)+bdCov(X_2,X_3)+beCov(X_2,X_4)\),
4)\(Cov(X,X)=Var(X)\),
5)\(Var(aX+bY)=Cov(aX+bY,aX+bY)=a^2Var(X)+b^2Var(Y)+2abCov(X,Y)\) y
6)\(Cov(X,Y)\) toma valores positivos, negativos y nulos.
Coeficiente de correlación:
\(\rho (X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(x)}\sqrt{Var(Y)}}\).
Propiedades de la correlación: 1)\(|\rho(aX+b, cY+d)|=\rho(X,Y)\),
positiva si \(ac>0\) y negativa si \(ac<0\), 2)\(\rho(X,Y) \in [-1,1]\) y 3)si
X e Y son independientes \(\rho(X,Y)=0\) (su recíproco no es cierto).
Razón de correlación:
\(\eta^2=\frac{b^2}{S^2}=\frac{\sum_{i=1}^n (\bar{y}_i-\bar{y})^2}{\sum_{i=1}^n(y_i-\bar{y})^2}\).
Propiedades: 1) \(\eta^2 \in (0,1)\), 2) \(\eta_{Y|X}^2=0\) si y solo si la
curva de regresión \(Y\) sobre \(X\) es \(y=E(Y)\), 3) \(\eta_{Y|X}^2=1\) si y
solo si \(Y\) depende funcionalmente de \(X\) y 4)
\(\eta_{Y|X}^2=\eta_{x|Y}^2\) si y solo si hay dependencia funcional
recíproca entre \(X\) e \(Y\).
Relación con el coeficiente de correlación lineal:
1)\(0\leq\rho^2_{x,y}\leq\eta^2_{Y|X}\leq1\) y 2) si
\(\rho^2_{y,x}=\eta^2_{Y|X}\) entonces la curva de regresión \(Y\) sobre \(X\)
y recta de regresión \(Y\) sobre \(X\).
*NOTA: lo mismo ocurre, tanto en las propiedades como en la relación,
con la curva \(X\) sobre \(Y\).
1.6. Tema 6#
Reproductividad de una distribución:
\(\varphi_{X-1+X_2+...+X_n}(t)=E(e^{it(X_1+X_2+...+X_n)})=\prod_{j=1}^n E(e^{itx_j})=\prod_{j=1}^n \varphi _{X_j}(t)\).
Distribución \(\chi^2\): Si \(X \rightarrow N(0,1)\) e \(Y=X^2\) entonces
\(Y \rightarrow \chi^2_1 \equiv \Gamma(\frac{1}{2},\frac{1}{2})\).
Generalizando la última equivalencia, si \(Y=\sum_{i=1}^n X_i^2\) entonces
\(Y \rightarrow \chi ^2_n \equiv \Gamma(\frac{n}{2}, \frac{1}{2})\).
Distribución T de Student: si \(X \rightarrow N(0,1)\) e
\(Y \rightarrow \chi^2_n\) se puede contruir
\(T=\frac{X}{\sqrt{\frac{Y}{n}}}\) que por definición \(T\rightarrow t_n\).
Distribución F de Snedecor: si \(X_1 \rightarrow \chi^2_n\) y
\(X_2 \rightarrow \chi^2_m\) se puede construir
\(F=\frac{\frac{X_1}{n}}{\frac{X_2}{m}}\) que por definición
\(F \rightarrow F_{m,n}\). Saber que si \(T \rightarrow t_n\) entonces
\(T^2 \rightarrow F_{1,n}\).
1.7. Tema 7#
Estadístico suficiente, criterio de factorización: sea \(X_1...X_n\)
una muestra aleatoria simple con \(f(x,\theta)\) con \(\theta \in \Theta\) y
desconocida, \(T=T(X_1...X_n)\) es un estadistico suficiente para \(\theta\)
si \(f(x_1...x_n,\theta)=h(x_1...x_n)g(x_1...x_n,\theta)\).
Estadísticos conjuntamente suficientes: \(T_1...T_k\) son estadísticos
suficientes para \(\theta\) si, y solo sí,
\(f(x_1...x_n,\theta)=h(x_1...x_n)g[T_1(x_1...x_n)...T_k(x_1...x_n),\theta]\).
Estadístico suficiente minimal: T es un estadístico minimal suficiente
si es un estadístico suficiente y es una función de cualquier otro
estadístico suficiente.
1.8. Tema 8#
Propiedades de los estimadores: 1) sesgo, 2)consistencia y 3)
eficiencia.
Estimador invariante: \(\hat{f(\theta)}=f(\hat{\theta})\).
Estimación máximo verosímil, ecuación de verosimilitud:
\(\frac{\partial}{\partial\theta}ln f(x_1...x_n, \theta)=0\). En el caso
de la invarianza del EMV podemos decir que el EMV de \(g(\theta)\) es \(g\)
del EMV de \(\theta\).
1.9. Tema 9#
Estimador insesgado: sea T un estimador de \(\theta\), este será
insesgado si \(ET=\theta\).
Error cuadrático medio: \(ECM(T)= E(T-\theta)^2\)
Estimador suficiente, Criterio de factorización de Neyman y Fisher: sea
\(X_1...X_n\) mas de \(X\) con distribución \(f(X,\theta)\),
\(\theta desconocido\). T es es un estadístico suficiente para estimar
\(\theta\) si \(f(x_1..x_n, \theta)=g(t, \theta)h(x_1..x_n, \theta)\).
Cota de Cramèr-Rao: \(VarT \geq \frac{(1+b'(\theta))^2}{I_n(\theta)}\)
donde
\(I_n(\theta)=-E[\frac{\partial^2}{\partial^2 \theta}lnL(x, \theta)]\).
1.10. Tema 10#
Contraste de hipótesis simple:
\(H_0: \theta=\theta_0; H_1: \theta=\theta_1\).
Sea una regla de decisión para este contraste y C la correspondiente
región crítica se tiene:
Error de tipo I: rechazar \(H_0\) siendo cierta \(\alpha=p_{H_0}(C)\).
Error de tipo II: rechazar \(H_1\) siendo cierta
\(\beta=p_{H_1}(\bar{C})\).
Contrastes de hipótesis compuestos: unilaterales y no unilaterales.
Contraste unilateral: \(H_0: \theta<\theta_0; H_1: \theta>\theta_0\) o
bien \(H_0: \theta>\theta_0; H_1: \theta<\theta_0\).
Sea una regla de decisión para este contraste y C la correspondiente
región crítica se tiene:
Potencia del test: \(\pi(\theta)=1-\beta(\theta)\).
Contraste no unilateral:
\(H_0: \theta \in \Theta_0; H_1: \theta \in \Theta_1\).
Principales contrastes de hipótesis:
\(H_0: \mu=\mu_0\) con \(\sigma\) conocida:
\(C=\{| \bar{X}-\mu_0|>z_\frac{\alpha}{2}\frac{\sigma}{\sqrt{n}}\}\).
\(H_0: \mu=\mu_0\) con \(\sigma\) desconocida:
\(C=\{| \bar{X}-\mu_0|>t_{n-1;\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\}\).
\(H_0: \mu\leq \mu_0\) con \(\sigma\) conocida:
\(C=\{\bar{X}-\mu_0>z_\frac{\alpha}{2}\frac{\sigma}{\sqrt{n}}\}\).
\(H_0: \mu\leq\mu_0\) con \(\sigma\) desconocida:
\(C=\{\bar{X}-\mu_0>t_{n-1;\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\}\).
\(H_0: \mu\geq \mu_0\) con \(\sigma\) conocida:
\(C=\{\bar{X}-\mu_0<z_\frac{\alpha}{2}\frac{\sigma}{\sqrt{n}}\}\).
\(H_0: \mu\geq\mu_0\) con \(\sigma\) desconocida:
\(C=\{\bar{X}-\mu_0<t_{n-1;\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\}\).
\(H_0: \sigma= \sigma_0\):
\(C=\{\frac{n-1}{\sigma^2_0}S^2 \notin (\chi^2_{n-1; 1-\frac{\alpha}{2}}, \chi^2_{n-1;\frac{\alpha}{2}})\}\).
\(H_0: \sigma \leq \sigma_0\):
\(C=\{\frac{n-1}{\sigma^2_0}S^2 > \chi^2_{n-1; \alpha}\}\).
\(H_0: \sigma \geq \sigma_0\):
\(C=\{\frac{n-1}{\sigma^2_0}S^2 < \chi^2_{n-1; 1-\alpha}\}\).
Poblaciones normales independientes: \(H_0: \mu_1=\mu_2\) con
\(\sigma_1, \sigma_2\) conocidas:
\(C=\{|\bar{X}-\bar{Y}|>z_\frac{\alpha}{2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}\}\).
\(H_0: \mu_1=\mu_2\) con \(\sigma_1= \sigma_2\):
\(C=\{|\bar{X}-\bar{Y}|>t_{n_1+n_2-2;\frac{\alpha}{2}}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\}\)
con \(s_p=\frac{(n_1-1)s^2_1+(n_2-1)s^2_2}{n_1+n_2-2}\).
\(H_0: \mu_1=\mu_2\) con \(\sigma_1 \neq \sigma_2\):
\(C=\{|\bar{X}-\bar{Y}|>t_{f;\frac{\alpha}{2}}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}\}\)
con f=entero mas cercano a
\(\frac{(\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2})^2}{\frac{(\frac{s^2_1}{n_1})^2}{n_1-1}+\frac{(\frac{s^2_2}{n_2})^2}{n_2-1}}\).
\(H_0: \sigma_1=\sigma_2\):
\(C=\{ \frac{s^2_1}{s^2_2} \notin (F_{n_1-1, n_2-1,1-\frac{\alpha}{2}}, F_{n_1-1, n_2-1,\frac{\alpha}{2}})\}\).
\(H_0: \sigma_1\leq \sigma_2\):
\(C=\{ \frac{s^2_1}{s^2_2} > F_{n_1-1, n_2-1,\alpha}\}\).
\(H_0: \sigma_1\geq \sigma_2\):
\(C=\{ \frac{s^2_1}{s^2_2} < F_{n_1-1, n_2-1,1-\alpha}\}\).
Comparación de proporciones.
\(H_0: p_1=p_2\):
\(C=\{|\bar{X}-\bar{Y}|> z_\frac{\alpha}{2}\sqrt{\bar{p}(1-\bar{p})(\frac{1}{n_1}+\frac{1}{n_2})}\}\).
1.11. Tema 11#
Intervalos de confianza para \(\mu\).
Con \(\sigma\) conocida:
\(I=(\bar{x}\pm z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}})\).
Con \(\sigma\) desconocida:
\(I=(\bar{x}\pm t_{n-1;\frac{\alpha}{2}} \frac{s}{\sqrt{n}})\).
Intervalo de confianza para \(\sigma^2\).
Con \(\mu\) conocida:
\(I=(\frac{\sum_{i=1}^n (X_i-\mu_0)^2}{\chi_{n; \frac{\alpha}{2}}}, \frac{\sum_{i=1}^n (X_i-\mu_0)^2}{\chi_{n;1- \frac{\alpha}{2}}})\)
Con \(\mu\) desconocida:
\(I=(\frac{(n-1)s^2}{\chi^2_{n-1; \frac{\alpha}{2}}}, \frac{(n-1)s^2}{\chi^2_{n-1; 1- \frac{\alpha}{2}}})\).
Intervalo de confianza para \(\mu_1=\mu_2\).
Con \(\sigma_1, \sigma_2\) conocidas:
\(I=(\bar{x}-\bar{y} \pm z_\frac{\alpha}{2}\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}})\).
Con \(\sigma_1, \sigma_2\) desconocidas e iguales:
\(I=(\bar{x}-\bar{y} \pm t_{n_1+n_2-2;\frac{\alpha}{2}}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}})\).
Con \(\sigma_1, \sigma_2\) desconocidas y diferntes:
\(I=(\bar{x}-\bar{y} \pm t_{f;\frac{\alpha}{2}}\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}})\).
Intervalo de confianza para \(\frac{\sigma_1^2}{\sigma_2^2}\):
\(I=(\frac{\frac{s^2_1}{s^2_2}}{F_{n_1-1;n_2-1;\frac{\alpha}{2}}}, \frac{\frac{s^2_1}{s^2_2}}{F_{n_1-1;n_2-1;1-\frac{\alpha}{2}}})\).
Intervalo de confianza para \(p_1-p_2\):
\(I=(\hat{p_1}-\hat{p_2}\pm z_\frac{\alpha}{2}\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+{\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}})\).
1.12. Tema 12#
Variable cualitativa: toman valores de \(x\) que no se pueden ordenar
de forma lógica o natural.
Variable cuantitativa: representa cantidades que se pueden medir, se
pueden ordenar de forma lógica y natural.
Escala nominal: los valores de una variable nominal no se pueden
ordenar. Por ejemplo: sexo (H/M)
Escala ordinal: los valores de una variable ordinal sí se pueden
ordenar. Por ejemplo: nivel educativo (ninguno, Primaria, ESO,
Bachillerato, Universidad).
Elementos de una distribución de frecuencias
Frecuencia absoluta \(n_j\): nº de observaciones en una categoría.
(\(n_1+...+n_i=n\))
Frecuencia relativa \(f_j\): peso de la categoría. (\(f_i=n_i/n\))
Frecuencia acumulada \(F_j\): suma sucesiva de frecuencia absoluta o
relativa, desde el menor al mayor de sus valores.
Función de distribución para variables continuas:
\(F(x)= \left\{ \begin{array}{lcc}
0 & si & x < e_0 \\
\\ F(e_j)+\frac{f_j}{d_j}(x-e_{j-1}) & si & x \in [e_{j-1}, e_j) \\
\\ 1 & si & x \geq e_k
\end{array}
\right.\) Donde \(d_j=e_j-e_{j-1}\) es la amplitud del intervalo y,
\(e_{j-1}\) y \(e_j\) son los límites inferior y superior respectivamente.
Representación gráfica\
Gráfico de barras. Herramienta sencilla para la visualización de frecuencias absolutas o relativas. Se puede usar tanto para variables nominales como ordinales, siempre y cuando el nº de categorías no sea muy grande.\
Gráfico de sectores. Visualización de frecuencias absolutas o relativas de variables nominales y ordinales. El tamaño del sector viene dado por \(f_j*360\)º. Tener en cuenta que cada sector no es proporcional a la frecuencia absoluta de cada sector, pero el ángulo sí.\
Histograma. Usado especialmente en la discretización de variables continuas, ya que el número de categorías resultantes probablemente sea muy alto y el gráfico de barras no sea la mejor opción. La altura de cada barra viene dada por \(h_j=\frac{n_j}{d_j}\).
1.13. Tema 13#
Medidas de posición\
Media aritmética. \(\bar{x}=\frac{\sum_{i=1}^n x_i}{n}\).
Media aritmética ponderada (tabla de distribución de frecuencias). \(\bar{x}=\frac{\sum_{i=1}^n n_im_i}{n}=\sum_{i=1}^n f_im_i\) donde \(m_i\) es el valor medio de clase \(m_i=\frac{e_j-e_{j-1}}{2}\).\Media geométrica. \(\bar{x}_G= \sqrt[n]{\prod_{i=1}^n x_i}= (\prod_{i=1}^n x_i)^{\frac{1}{n}}=\sqrt[n]{x_1*x_2*...*x_n}\). Tener cuidado con si alguna observación es 0.
Usos: formalización de porcentajes, por ejemplo rentabilidad de una empresa, factor de crecimiento, tasa de crecimiento.\Media armónica. \(\bar{x}_H= \frac{n}{\sum_{i=1}^n \frac{1}{x_i}}\).
Uso: típicamente cuando hay diferentes valores \(x_i\) que contribuyan a la media cada uno de ellos con diferentes pesos \(w_i\).
1.14. Tema 14#
Medidas de posición robustas\
Mediana. Es aquel número tal que, ordenados los datos de forma creciente, la mitad son inferiores a dicho valor y la otra mitad son superiores.
Distribución de frecuencias unitarias. Si N es par Me será \(X_{(N/2)}\), si N es impar entonces Me será la media aritmética de los valores centrales.
Distribución de frecuencias no unitarias. Si \(N_i\) es la primera frecuencia absoluta acumulada igual o superior a N/2, entonces: \(\left\{\begin{array}{lcc} Me=x_i & si & N_{i-1}<\frac{N}{2}<N_i\\ \\ Me= \frac{x_i+x_{i+1}}{2} & si & N_i=N/2 \end{array} \right.\)
Distribución de frecuencias agrupadas. \(Me= L_{i-1}+c_i\frac{\frac{N}{2}-N_{i-1}}{n_i}\).
2. Moda. Es el valor de la variable con mayor frecuencia.
Distribución de frecuencias sin agrupar. Se calcula la moda fijándose en el valor de la variable que más se repite (es decir, el de mayor frecuencia).
Distribución de frecuencias agrupadas. \(Mo= L_{i-1}+c_i\frac{h_{i+1}}{h_{i-1}+h_{i+1}}\) siendo \(h_j=\frac{n_j}{c_j}\).
3. Cuantiles. Son aquellos valores de la disrbución que dividen la distribución en \(k\) partes, conteniendo en cada uno de ellas la misma proporción de observaciones, habiendo sido previamente ordenadas las observaciones.
Distribución de frecuencias sin agrupar. \(\left\{\begin{array}{lcc} C_\frac{s}{k}=x_i & si & N_{i-1}<\frac{sN}{k}<N_i\\ \\ C_\frac{s}{k}= \frac{x_i+x_{i+1}}{2} & si & N_i=\frac{sN}{k} \end{array} \right.\)
Distribución de frecuencias agrupadas. \(C_\frac{s}{k}=L_{i-1}+c_i\frac{\frac{sN}{k}-N_{i-1}}{n_i}\).
Los cuantiles maás usados son los cuartiles(\(Q_1=25\%, Q_2=50\%, Q_3=75\%\)), los deciles (\(D_1=10\%, D_2=20\%,...,D_9=90\%\)) y los percentiles (\(P_10=10\%, P_20=20\%,...,P_90=90\%\)).
1.15. Tema 15#
Medidas de dispersión absoluta
Rango/ recorrido. Diferencia entre los valores máximo y mínimo de la variable, \(Re=x_{max}-x_{min}\).\
Varianza. media aritmética de los cuadrados de las desviaciones de los datos respecto a su media aritmética, \(S^2=\frac{\sum_{i=1}^n (x_i-\bar{x})^2*n_i}{N}= \frac{\sum_{i=1}^n x_i^2*n_i}{N}-\bar{x}^2\). En el caso de que todos los valores sean únicos \(n_i\) por lo que la fórmula se simplifica.\
Cusivarianza. \(S^{*2}=\frac{\sum_{i=1}^n (x_i-\bar{x})^2*n_i}{N-1}\) y \(S^{*2}\geq S^2\).\
Desviación típica: \(S=+\sqrt{S^2}\).\
Cuasidesviación típica: \(S^{*}= +\sqrt{S^{*2}}=+\sqrt{\frac{N}{N-1}S^2}\) y \(S^{*}\geq S\).
Medidas de dispersión relativas\Coeficiente de variación. Es una medida que sirve para comparar el grado de dispersión de dos distribuciones que no vienen medidas en las mismas unidades, \(CV=\frac{S}{|\bar{x}|}\). Valores cercanos a 0 indican baja dispersión (relativa) y por tanto, mejor representatividad de la media.\
Tipificación de variables. Una variable tipificada es una nueva variable que se obtiene mediante una transformación lineal, \(Z=\frac{X-\bar{x}}{S}\). La nueva variable tendrá media 0 y desviación típica 1.
Transformaciones de escala y origenEstadístico
\(Y=X\pm a\)
\(Y=b*X\)
\(Y=X/b\)
\(Y=b*X\pm a\)
Varianza
Igual
\(S^2_Y=b^2*S^2_X\)
\(S^2_Y=\frac{S^2X}{b^2}\)
\(S^2_Y= b^2*S^2_X\)
Coeficiente de variación
\(CV_Y=\frac{S_X}{|X \pm a|}\)
Igual
Igual
\(CV_Y=\frac{|b|*S_x}{|b*\bar{x}\pm a|}\)
Recorrido
Igual
\(Re(Y)= |b|* Re(X)\)
\(Re(Y)= \frac{Re(X)}{|b|}\)
\(Re(Y)=|b|*Re(X)\)
1.16. Tema 16#
Coeficiente de asimetría de Fisher.
\(g_1(X)=\frac{m_3(X)}{S^3}=\frac{\frac{\sum^k_{i=1}(x_i-\bar{x})^3}{N}}{S^3}\).
Tipos de asimetría: 1)Negativa(\(g_1(X)<0\), se concetran a la derecha),
2)simétrica(\(g_1(X)=0\)) y 3)positiva(\(g_1(X)>0\), se concentran a la
izquierda).
Curtosis o medida de apuntamiento.
\(g_2(X)=\frac{m_4(X)}{S^4}-3=\frac{\frac{\sum_{i=1}^k (x_i-\bar{x})^4}{N}}{S^4}-3\).
Tipos de curtosis: 1)leptocúrtica (\(g_2(X)>0\), más apuntada que la
normal), 2)mesocúrtica(\(g_2(X)=0\), igual de apuntada que la normal) y
3)platicúrtica (\(g_2(X)<0\), menos apuntada que la normal).
Índice de Gini(medida de concentración).
\(IG=\frac{\sum^{k-1}_{i=1} (p_i-q_i)}{\sum^{k-1}_{i=1} p_i}\) con
\(p_i=\frac{N_i}{N}*100\) y
\(q_i=\frac{\sum_{j=1}^i x_jn_j}{\sum_{j=1}^k x_jn_j}*100\).
Interpretación: 1)IG=0, concentración mínima y 2) IG=1, concentración
máxima.
1.17. Tema 17#
Distribución de frecuencias absoluta y distribución marginal
Valores X/Y |
\(y_1\) |
… |
\(y_j\) |
… |
\(y_{J}\) |
\(n_i\) |
---|---|---|---|---|---|---|
\(x_1\) |
\(n_{11}\) |
… |
\(n_{1j}\) |
… |
\(n_{1J}\) |
\(n_{1.}\) |
… |
… |
… |
… |
… |
… |
… |
\(x_i\) |
\(n_{i1}\) |
… |
\(n_{ij}\) |
… |
\(n_{iJ}\) |
\(n_{i.}\) |
… |
… |
… |
… |
… |
… |
… |
\(x_I\) |
\(n_{I1}\) |
… |
\(n_{Ij}\) |
… |
\(n_{IJ}\) |
\(n_{I.}\) |
\(n_{.j}\) |
\(n_{.1}\) |
… |
\(n_{.j}\) |
… |
\(n_{.J}\) |
N |
Distribución de frecuencias relativas con \(f_{ij}=\frac{n_{ij}}{N}\).\
Valores X/Y |
\(y_1\) |
… |
\(y_j\) |
… |
\(y_{J}\) |
---|---|---|---|---|---|
\(x_1\) |
\(f_{11}\) |
… |
\(f_{1j}\) |
… |
\(f_{1J}\) |
… |
… |
… |
… |
… |
… |
\(x_i\) |
\(f_{i1}\) |
… |
\(f_{ij}\) |
… |
\(f_{iJ}\) |
… |
… |
… |
… |
… |
… |
\(x_I\) |
\(f_{I1}\) |
… |
\(f_{Ij}\) |
… |
\(f_{IJ}\) |
X e Y serán independientes si \(f_{ij} = f_{i.}* f_{.j} \forall i,j\).
Covarianza. \(S_{XY}=\frac{\sum_i x_iy_i}{N}-\bar{x}\bar{y}\).
Interpretación: 1) si es muy cercana a 0 no existe relación entre las
variables o es marcadamente no lineal, 2) si es positiva hay asociación
lineal positiva y 3) si es negativa hay asociación lineal inversa. Tener
en cuenta que como depende de las unidades de medida no permite
cuantificar el grado de asociación lineal.
Coeficiente de correlación de Pearson.
\(\rho=r=\frac{S_{XY}}{S_XS_Y}\).
Interpretación: 1)\(|\rho|<0.25\) no existe relación lineal,
2)\(0.25<|\rho|<0.75\) existe correlación lineal débil y 3) \(|\rho|>0.75\)
existe correlación lineal fuerte.
La difeencia ente la covarianza y el coeficiente de correlación es que
el seguno no tiene unidades de medida.
1.18. Tema 18#
Recta de regresión Y sobre X. \(Y=\beta_1X+\beta_0+\epsilon\).
Se calculará como \(\hat{Y}=\bar{y}-\frac{S_{XY}}{S^2_X}(X-\bar{x})\) por
tanto \(\beta_1=\frac{S_{XY}}{S^2_X}\) y
\(\beta_0= \bar{y}-\beta_1*\bar{x}\).
Recta de regresión X sobre Y. \(X=\beta_1Y+\beta_0+\epsilon\).
Se calculará como \(\hat{X}=\bar{x}-\frac{S_{XY}}{S^2_Y}(Y-\bar{y})\) por
tanto \(\beta_1=\frac{S_{XY}}{S^2_Y}\) y
\(\beta_0= \bar{x}-\beta_1*\bar{y}\).
Varianza residual y explicada\
Varianza residual: \(S_e^2=\frac{\sum_{i=1}^N (y_i-\hat{y})^2}{N}\).\
Varianza explicada: \(S^2_{\hat{Y}}=\frac{\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{N}\).
\(S_Y^2= \frac{\sum^{N}_{i=1}(y_i-\bar{y})^2}{N}=\frac{\sum_{i=1}^N(y_i-\hat{y})^2}{N}+\frac{\sum_{i=1}^N(\hat{y}_i-\bar{y})^2}{N}\).
Coeficiente de determinación. Proporción de varianza explicada por el modelo de regrasión.
\(R^2=\frac{S^2_\hat{Y}}{S^2_Y}=1-\frac{S^2_e}{S^2_Y}\). Aplicandolo a la regresión lineal obtenemos que \(R^2=\rho^2\), además \(R^2=\beta_1*\beta_1^*\) siedo \(\beta_1\) el coeficiente de regresión de la recta Y sobre X y \(\beta_1^*\) el coeficiente de regresión de la recta X sobre y.
Interpretación: 1) si \(R^2\) es próximo a 0 se dirá que el modelo no ajusta bien, 2) cuanto más próximo a 1 mejor será el modelo y 3) si \(R^2=1\) existe dependencia funcional.
1.19. Tema 19#
Limitaciones del método de mínimos cuadrados.
Variable dependiente truncada, faltan datos de la muestra.
Variable dependiente censurada, mediciones incompletas y/o asignación a un cierto valor un número simbólico.
Modelos Tobit, evolución del modelo censurado. Considera la existencia de una variable indepndiente \(Y^*\) no observable y una variable \(Y\) observable formada por la parte no censurable de \(Y^*\). El objetivo es estimar \(Y^*\) empleando solo la muestra de la parte observable. Conclusión: solamente si la variable dependiente es continua con dominio \(\mathbb{R}\) el método de mínismos cuadrados es óptimo. Interpretación de los coeficientes de regresión.
\(\beta_1\) o coeficiente de regresión, indica el tipo de dependiencia entre las variables:
\(\beta_1<0\): dependencia negativa, cuando aumenta Y disminuye X.
\(\beta_1>0\): dependencia positiva, cuando aumenta Y aumenta X.
\(\beta_1=0\): indica que la media de Y es constante y por tanto la recta de regresión es paralela al eje de abscisas.
Coeficiente de correlación lineal.
\(\rho=\frac{S_{XY}}{S_XS_Y}\frac{S_X}{S_X}=\frac{S_{XY}S_X}{S^2_XS_Y}=\beta_1\frac{S_x}{S_Y}\).
Si las variables son independientes entonces \(\rho=0\), al contrario no
tiene por qué verificarse. Si \(\rho=0\) puede existir dependencia
funcional entre variables, siendo la función que las relaciona no
lineal. Por otro lado, si \(\rho\pm 1\) entonces las rectas de regresión X
sobre Y e Y sobre X son coincidentes.
En el caso de que \(\rho \neq \{0,\})\) no serán coincidentes. Cuanto
mayor sea el coeficiente menor será el ángulo entre las rectas.\
1.20. Tema 20#
Regresión múltiple en función del tipo de variable dependiente:
Tipo de variable |
Modelo |
---|---|
Continua |
Lineal |
Dicotómica |
Logit o probit |
Recuento |
Poisson o Binomial |
Factor ordenado |
Logit o probit ordenado |
Porcentaje |
Regresión fraccional |
Regresión lineal múltiple.
\(y_i=\beta_0+\beta_1x_{1i}+\beta_2x_{2i}+...+\beta_kx_{ki}+\epsilon_i\)
-\(\beta_0\), el valor de la variable dependiente Y cuando todos los
predictores son 0.
-\(\beta_i\), variación media de la variable Y al incrementar una unidad a
variable \(X_i\).
Coeficiente de correlación parcial. Suponiendo una regresión lineal
múltiple de 3 variables, se puede calcular la correlación parcial de \(Y\)
y \(X_1\) manteniendo constante \(X_2\) como
\(r_{YX_1.X_2}=\frac{r_{YX}-r_{YX_2}r_{X_1X_2}}{\sqrt{1-r^2_{YX_2}}\sqrt{1-r^2_{X_1X_2}}}\).
Cuando no exista la correlación entre \(Y\) y \(X_2\), y tampoco entre \(X_1\)
y \(X_2\) entronces el anterior coeficiente coincidirá con el coeficiente
de correlación de Pearson.
Multicolinealidad. Se produce cuando al menos dos variables \(X_i\)
son linealmente dependientes.
Factor de inflación de la varianza. \( FIV=\frac{1}{1-R_j^2} \)
\( FIV=1 \) no hay problema de multicolinealidad,
\( FIV \in (1,5) \) se considera multicolinealidad baja,
\( FIV \in (5,10) \) se considera multicolinealidad alta y
\( FIV>10 \) se dice que hay un problema serio de multicolinealidad.
Tolerancia. \( T=1-R^2_j \). Se considera que hay problemas serios de multicolinealidad si \(T<0.1 \).
1.21. Tema 21#
Índices simples: \(\frac{Y_t}{Y_0}*100\).
Tasa de variación o variación porcentual:
\(TV_{t_{1}}^{t_{2}}(Y)=\frac{Y_{t_{2}}-Y_{t_{1}}}{Y_{t_{1}}}\cdot100=\left(\frac{Y_{t_{2}}}{Y_{t_{1}}}-1\right)\cdot100=I_{t_{1}}^{t_{2}}-100\)
Propiedades:
Existencia,
Identidad,
Circular,
Inversión,
Encadenamiento,
Adición,
Multiplicación y
homogeneidad.
Índices complejos: ponderados y no ponderados.
No ponderados:
Índice de Bradstreet y Dûtot:
\(I_1^t=\frac{\sum_{j=1}^n y_{ij}}{\sum_{j=1}^n y_{1j}}\)
Índice de Sauerbek: \(I_0^t=\frac{\sum_{j=1} ^n I_0^t(Y_j)}{n}\).
Ponderados:
Índice de Laspeyres:
\(IPL_0^t=\frac{\sum_{i=1}^n p_{it}q_{i0}}{\sum_{i=1}^n p_{i0}q_{i0}}*100\)
4)Índice de Paasche:
\(IPP_0^t=\frac{\sum_{i=1}^n p_{it}q_{it}}{\sum_{i=1}^n p_{i0}q_{it}}*100\)
5)Índice de Edgemorth: \(IPE_0^t=\frac{\sum_{i=1}^n p_{it}q_{i0}+\sum_{i=1}^n p_{it}q_{it}}{\sum_{i=1}^n p_{i0}q_{i0}+\sum_{i=1}^n p_{i0}q_{it}}*100\)
6)índice de Fisher: \(\sqrt{IPL_0^t+IPP_0^t}\)
Propiedades:
cumple las 8 anteriores; 2), 3) y 4) no cumplen inversión y la circular; 5) y 6) no cumplen la circular.
NOTA: Más información en este enlace
1.22. Tema 22#
Componentes de una serie temporal\
Tendencia. Se puede determinar de manera visual, por medias móviles o de ajuste analítico
Medias móviles de amplitud q. Es un proceso por el cual la tendencia \(Y_t\) se calcula ajustando la serie obtenida como la media aritmética de q valores consecutivos de \(Y_t\).
Ajuste analítico. Se tratará de obtener una función que sea capaz de explicar con una buena aproximación a largo tiempo el comportamiento de la serie en función de la variable tiempo.
- Variabilidad. Variaciones cíclicas, estacionales o residuales.
Si clasificamos la serie en función de la tendencia y las variaciones
estacionales nos encontramos con series estacionarias y no estacinarias.
Es decir, son series con media y varianza constantes en el tiempo.
Modelos
-Modelo aditivo. Incremento debido a la estacionaridad siempre es el
mismo, aunque la tencencia sea creciente o decreciente.
-Modelo multiplicativo. Incremento debido a la estacionaridad aumenta o
disminuye conforme la tendencia crece o decrece.
Una manera simple de establecer el modelo es calcular el coeficiente de
variación pues si \(CV(\frac{Y_{i,k+1}}{Y_{i,k}})>CV(Y_{i,k+1}-Y_{i,k})\)
entonces presenta un esquema aditivio, en caso contrario un modelo
multiplicativo.
1.23. Tema 25. GSBPM (I)#
GSBPM = Generic Statiscal Business Process Model. Modelo de proceso de negocio que describe de manera genérica las tareas de producción de las estadísiticas oficiales. Es un modelo estandarizado de producción.
GSBPM no es un modelo rígido y se le debe dar cierta flexibilidad
GSBPM tiene tres niveles \(\begin{cases} Nivel\ 0 & Proceso\ estad\acute{\imath}stico\\ Nivel\ 1 & ocho\ fases\ proeso\ estad\text{ísitico}\\ Nivel\ 2 & subprocesos\ de\ cada\ fase \end{cases}\)
La idea es que GSBPM se aplique a todas las actividades realizadas en los productores de estadísticas oficiales.
Además el INE ha desarrollado un tercer nivel de GSBPM adaptado a las necesidades que hay en España .
1.23.1. Otros modelos relacionados con GSBPM#
GAMSO. Extiende y complementa a GSBPM y añade actividades necesarias para la producción estadística.
GSIM. Diseñado para la modernización y racionalización de las estadísticas oficiales.