Equipo+4+Cap8

** Muestreo aleatorio ** El resultado de un experimento estadístico se puede registrar como un valor numérico o como una representación descriptiva. En este capítulo nos enfocamos en el muestreo de distribuciones o poblaciones, y estudiamos cantidades tan importantes como la media de la muestra y la varianza de la muestra, que son de importancia fundamental para los capítulos siguientes. Poblaciones y muestras Comenzamos esta sección con la presentación de las naciones de poblaciones y muestras. La totalidad de observaciones que nos interesan, de número infinito, constituye lo que llamamos **población.** Una población consiste en la totalidad de las observaciones en las que estamos interesados. El número de observaciones en la población se define como el tamaño de la población. Algunas poblaciones finitas son tan grandes que en teoría las pondríamos infinitas, lo cual es cierto si se conside5ra la población de la duración de cierto tipo de batería de almacenamiento que se fabrica para su distribución masiva en todo el país. Cada observación en una población es un valor de una variable aleatoria X que tiene alguna distribución de probabilidad f(x). si se inspeccionan artículos que salen de una línea de ensamble para buscar defectos, entonces cada observación en la población podría ser un valor 0 o 1 de la variable aleatoria de Bernoulli X con distribución de probabilidad. b(x,1,p ) =pxq1-x, x=0,1, Donde 0 indica un artículo no defectuoso y 1 indica uno defectuoso. Por supuesto, se supone que p, la probabilidad de que cualquier artículo este defectuoso, permanece constante de una prueba a otra. De ahora en adelante, cuando nos refiramos a una “población binomial”, a una “población normal”, o En general, a la “población f (x)”, aludiremos a una población cuyas observaciones son valores de una variable aleatoria que tiene una distribución binominal, una distribución normal o la distribución de probabilidad f(x). por ello, a la medida y a la varianza de una variable aleatoria o distribución de probabilidad también se les denomina la medida y la varianza de la población correspondiente. En el campo de la inferencia estadística el estadístico se interesa en llegar a conclusiones que tiene que ver con la población, cuando es imposible o poco práctico observar todo el conjunto de observaciones que constituyen la población. Debemos depender de un subconjunto de observaciones de la población para ayudarnos a realizar inferencias de un subconjunto de observaciones de la población para ayudarnos a realizar con respecto a la misma población. Esto nos lleva a considerar la noción de muestreo. Una **muestra** es un subconjunto de una población. Si muestras inferencias a partir de la muestra para la población tiene que ser validas, debemos obtener muestras que sean representativas de la población. Con mucha frecuencia nos sentimos tentados a elegir una muestra seleccionando a los miembros más convenientes de la población. Tal procedimiento podría conducir a inferencias erróneas con respecto a la población. Cualquier procedimiento de muestreo que produzca inferencias que sobreestimen, o subestimen, de forma consistente alguna característica de la población se dice que esta sesgado. Para eliminar cualquier posibilidad de sesgo en el procedimiento de muestreo, es deseable elegir una **muestra** **aleatoria**, en el sentido de que las observaciones se realicen de forma independiente y al azar. Sean X1, X2,…,Xn variables aleatorias independientes n, cada una con la misma distribución de probabilidad f(x). Definimos X1, X2,…, X n como una **muestra aleatoria** de tamaño n de la población f(x) y escribimos su distribución de probabilidad conjunta como F(x1 x2,…,Xn ) = f(x1) f(x2)… f (xn). Algunos estadísticos importantes Nuestro principal propósito al seleccionar muestras aleatorias consiste en obtener información acerca de los parámetros desconocidos de la población. Ahora, p es una función de los valores observados en la muestra aleatoria, como es posible tomar muchas muestras aleatorias a partir de la misma población, esperaríamos que p variara algo de una muestra a otra. Es decir, p es un valor de una variable aleatoria que representamos con P. tal variable aleatoria se llama estadístico. Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama **estadístico.** **Tendencia central en la muestra** Los estadísticos que, por lo general se utilizan mas para medir el centro de un conjunto de datos, acomodados en orden de magnitud, son la **medida**, la **mediana** y la **moda**. Los tres estadísticos se expusieron en el capítulo 1, no obstante, la medida se define aquí de nuevo. Si X1 X2,…, Xn representan una muestra aleatoria de tamaño n, entonces la **media** de la muestra se define mediante el estadístico. X = 1/n ∑ Xi. i=1 Observe que el estadístico X toma el valor x = 1/n ∑ x1 cuando X1 toma el valor x1 X2 toma el valor x2 toma el valor x2 y así sucesivamente. Por ejemplo el termino media de la muestra se aplica tanto al estadístico X como a su valor calculado x Una medida de tendencia central en la muestra no da por sí misma una indicación clara de la naturaleza de la muestra. De manera que también debe considerarse una medición de variabilidad en le muestra. **La varianza de la muestra** La variabilidad en la muestra debería indicar como se dispersan las observaciones a partir del promedio. Es posible tener dos conjuntos de observaciones con la misma medida o mediana, y que difieran de manera considerable en la variabilidad de us mediciones alrededor del promedio. Si X1 X2, …, X n representan una muestra aleatoria de tamaño n entonces la varianza de la muestra se define con el estadístico.
 * Distribuciones de muestreo fundamentales y descripciones de datos **

Si S2 es la varianza de una muestra aleatoria de tamaño n, podemos escribir.

**Presentación de datos y métodos gráficos** Trataremos con muestras que, por supuesto, son agrupaciones de datos experimentales a partir de las cuales obtenemos conclusiones sobre las poblaciones. A menudo la apariencia de la muestra proporciona información acerca de la distribución de la que se toman los datos. En esta sección presentaremos la noción de graficas de probabilidad normal y graficas de cuantiles. Estas graficas se utilizan en estudios que tienen grados de complejidad que varían, con el objetivo principal de que las graficas den una verificación diagnostica sobre la suposición de que los datos vienen de una distribución normal. Podemos caracterizar el análisis estadístico como el proceso de extraer conclusiones acerca de los sistemas en presencia de la variabilidad del sistema. **Grafica de caja y extensión o grafica de caja** Es útil para reflejar propiedades de una muestra, la cual encierra el rango intercuartil de los datos en una caja que tiene la mediana representada dentro. El rango intercuartil tiene como extremos el percentil 75 (cuartil superior) y el percentil 25 (cuartil inferior). Además de la caja se prolongan “extensiones”, que indican las observaciones alejadas en la muestra. Además, una variación denominada grafica de caja puede ofrecer al observador información con respecto a cuales observaciones son valores extremos. Técnicamente, se puede considerar que un valor extremo es una observación que representa un “evento raro”. La información visual en las graficas de caja y extensión y de caja no intenta ser una prueba formal de valores extremos. Mas bien, se ve como una herramienta de diagnostico. Las graficas de datos pueden sugerir relaciones entre variables. Las graficas ayudan en la detección de anomalías o de observaciones de valores extremos en las muestras. Otro tipo de grafica que en particular podría ser útil para caracterizar la naturaleza de un conjunto de datos es la grafica de cuantiles que sirve para comparar muestras de datos, donde el objetivo del analista es encontrar diferencias. **Grafica de cuantiles** El propósito de las graficas de cuantiles consiste en describir, en forma de muestra, la función de distribución acumulada. Un cuantil de una muestra, q(f), es un valor para el que una fracción especifica f de los valores de los datos es menor que o igual a q(f). Evidente mente un cuantil representa una estimación de una característica de una población o, más bien, la distribución teorica. Una grafica de cuantiles simplemente grafica los valores de los datos en el eje vertical contra una evaluación empirica de la fracción de observaciones excedidas por los valores de los datos. Para propósitos teoricos esta fracción se calcula con

Donde **i** es el orden de las observaciones cuando se clasifican de inferior a superior A diferencia de la grafica de caja y extencion, la grafica de cuantiles realmente muestra todas las observaciones. Todos los cuantiles, incluidos la mediana y los cuantiles superior e inferior, se pueden aproximar de forma visual Detección de desviaciones de la normalidad Una vez mas la grafica de diagnostico a menudo puede agregar una prueba de bondad de ajuste formal de los datos, la información de diagnostico resulta mucho mas clara, menos arida y que quizá no aburrida. Hay situaciones en las que las graficas se utilizan para detectar términos o efectos del modelo que están activos. En otras situaciones se utilizan para determinar si son razonables o no lasd suposiciones subyacentes hechas por el científico o por el ingeniero en la construcción del modelo. **Grafica de cuantiles-cuantiles normales** La grafica de cuantiles-cuantiles normales toma ventaja de lo que se conoce acerca de los cuantiles de la distribución normal. La matodologia incluye una grafica de los cuantiles empíricos recién presentados contra el cuantil correspondiente de la distribución normal. Entonces la expresión para un cuantil de una variable aleatoria N(µ,ð) es muy complicada. La grafica de cuantiles-cuantiles normales es una grafica de y(i) observaciones ordenadas contra qo,1 (fi), donde:

una relación cercana a una línea recta sugiere que los datos provienen de una distribución normal. Grafica de probabilidad normal Es aquella que el eje vertical contiene f graficada en un papel especial y la escala utilizada da como resultado una línea recta, cuando se grafica contra los valores de los datos ordenados. **8.4 Distribuciones muestrales** El campo de la inferencia estadística trata básicamente con generalizaciones y predicciones. **Inferencias sobre la población a partir de información de la muestra** Calculamos un estadístico a partir de una muestra que se selecciona de la población, y con base en tales estadísticos hacemos varias afirmaciones con respecto a los valores de los parámetros de la población que pueden ser ciertas o no. Como un estadístico es una variable aleatoria que depende solo de la muestra observada, debe tener una distribución de probabilidad La distribución de probabilidad de un estadístico se llama distribución muestral. La distribución de probabilidad de X se llama distribución muestral de la media. La distribución muestral de un estadístico depende del tamaño de la población, del tamaño de las muestras y del método e elección de estas. ¿**Cuál es la distribución muestral de X?** Se deberían ver las distribuciones muestrales de X y S2 como el mecanismo a partir del cual a final de cuentas realzaremos inferencia de los parámetros µ y σ2. LA distribución muestral de X Con tamaño muestral n es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez resultan los diversos valores de **x.** esta distribución muestral, entonces, describe la variabilidad de los promedios muestrales alrededor de la media de la población. **Distribuciones muestrales de medias** La primera distribución muestral importante que se debe de considerar es de la media X. Suponga que una muestra aleatoria de n observaciones se toma de una población normal con media u y varianza o2. Cada observación Xi i = 1,2,…,n, de la muestra aleatoria tendrá entonces la misma distribución normal que la población que se muestrea. Concluimos que. X = 1/n (X1 **+** X2 **+ …+** Xn) Tiene distribución normal con media

Y varianza

**Distribuciones muestrales** El campo de inferencia estadística trata básicamente con generalizaciones predicciones. **Inferencias sobre la población a partir de información de la muestra** Calculamos un estadístico a partir de una muestra que se selecciona de la población y con base en tales estadísticas hacemos varias afirmaciones con respecto a los valores de los parámetros de la población, que pueden ser ciertas o no **Teorema del límite central:** si X es la media de una muestra aleatoria de tamaño n tomada de una población con media u y varianza finita o2, entonces la forma límite de la distribución de

Conforme n es la distribución normal estándar n (z, 0,1). La aproximación normal para x, por lo general, será buena si n ≥30. Si n <30, la aproximación es buena si la población no es muy diferente de una distribución normal y, como se estableció antes, si se sabe que la población e normal, la distribución muestra de x seguirá una distribución normal exacta, no importa que tan pequeño sea el tamaño de las muestras. **Inferencias sobre la medida de la población** Una aplicación muy importante del teorema del límite central consiste en determinar valores razonables de media de la población u. Temas como prueba de hipótesis, estimación, control de calidad y otros utilizan el teorema del límite central. **Distribución muestral de la diferencia entre dos promedios** Se interesa en un experimento comparativo donde se comparan dos métodos de producción: 1 y 2. la base para tal comparación es u1 – u2, la diferencia en las medias de la poblaciones. Suponga que tenemos dos poblaciones, la primera con media u1 y varianza o 2/1, y la segunda con media u2 y varianza o 2/2. Representemos con el estadisticoX1 la media de una muestra aleatoria de tamaño n1 seleccionada de la primera población, y con el estadístico X2 la media de una muestra aleatoria de tamaño n2 seleccionada de la segunda población, independiente de la muestra de la primera población. Las variables X1 y X2 están distribuidas aproximadamente de forma normal con medias u1 yu2 y varianzas o2 /n1 y o2/n2, respectivamente .concluimos que X 1-X2 esta distribuida aproximadamente de forma normal con media.

Y varianza

Si se extraen al azar muestras independientes de tamaños n1 y n2 de dos poblaciones, o continuas, con medias u2 y u2 y varianza o 2/1 y o 2/2respectivamente, entonces la distribución muestral de las diferencias de las medias, X1 – X2, esta distribuida aproximadamente de forma normal con media y varianza dadas por De aquí

Es aproximadamente una variable normal estándar. Si tanto n1 como n2 son mayores que o iguales a30, la aproximación noramal para la distribución de X1 – X2 es muy buena cuando las distribuciones subyacentes no están tan alejados de la normal. **Distribución muestral de S2** En la sección anterior aprendimos acerca de la distribución de muestreo de X. el teorema del limite central nos permitió utilizar el hecho de que.

Los parámetros son la contraparte del estadístico en cuestión. Si un ingeniero se interesa en la resistencia media de la población de cierto tipo de resistencia, la distribución muestral de X se explorará una vez que se reúna la información de la muestra. Si se estudia la variabilidad de la resistencia, claramente la distribución muestral de S2 se utilizará para conocer la contraparte paramétrica, la varianza de la población o2. Si se extrae una muestra aleatoria de tamaño n de una población normal con media u y varianza o2, y se calcula la varianza muestral, obtendremos un valor del estadístico S2

Al dividir cada termino de la igualdad entre o2 y sustituir (n – 1) s2 por

Ahora, sabemos que:

Es una variable aleatoria chi cuadrada con n grados de libertad. Tenemos una variable aleatoria chi cuadrada con n grados de libertad dividida en dos componentes. El segundo termino de lado derecho es Z2. Si S2 es la varianza de una muestra aleatoria de tamaño n que toma una población normal que tiene la varianza o2, entonces el estadístico

Tiene una distribución de cuadrada con u =1 grados libertad. Los valores de la variable aleatoria X2 se calculan de cada muestra mediante la formula

La probabilidad de que una muestra aleatoria produzca un valor X2 mayor que algún valor especifico es igual al area bajo la curva a la derecha de este valor.. **Grados de libertad como medición de la información muestral** Es decir una muestra aleatoria que toma de una distribución normal, que la variable aleatoria.

Tiene una distribución X2 con n grados de libertad, la variable aleatoria

Tiene una distribución X2 con n – 1 grados de libertad. El lector debe recordar que el termino grados de libertad, que utiliza en este contexto idéntico, se estudio en el capítulo 1. La distribución de

**Hay 1 grado de libertad menos**, o se pierde un grado de libertad en la estimación de u (es decir, cuando u se reemplaza por X) **Distribución T** Sus aplicaciones giran alrededor de las inferencias sobre una medida de la población o la diferencia entre dos medas de población. El uso del teorema del límite central y la distribución normal es evidente útil en este contexto.

Puesto que S es el análogo de la muestra para o. si el tamaño de la muestra es pequeño, los valores de S2 fluctúan de forma considerable de una muestra a otra. Si el tamaño de la muestra es suficiente grande, ≥30, la distribución de T no difiere mucho de la normal estándar. Sin embargo, para n<30, es útil tratar con la distribución exacta de T. Podemos escribir, entonces

Donde

Tiene la distribución normal estándar y

Tiene una distribución chi con u =1 grados de libertad. Sea Z una variable aleatoria normal estándar y V una variable aleatoria chi cuadrada con v grados de libertad. Si Z y V son independientes, entonces, la distribución de la variable aleatoria T, donde

Esta dada por la función de densidad

Esta se conoce como la distribución t con v grados de libertad. Sean X1 = X2,…,Xn variables aleatorias independientes que todas normales con media v y desviación estándar o. sea.

Entonces, la variable aleatoria T = tiene una distribución t con v =n -1 grados de libertad. La distribución de probabilidad de T se público por primera vez en 1908 en un artículo de W. S. Gosset. en esa época Gosset era empleado de una cervecería irlandesa. En consecuencia, la distribución de T normalmente se llama distribución t de Student, o simplemente distribución t. **A que se parece la distribución t** La distribución T es similar a la distribución de Z en que ambas son simétricas alrededor de una media cero. Ambas distribuciones tienen forma de campana; pero la distribución t es mas variable, debido al hecho de que los valores T dependen de las fluctuaciones de dos cantidades, X y S2, mientras que los valores Z dependen solo de los cambios de X de una muestra a otra. La distribución de T difiere de la Z en que la varianza de T depende del tamaño de la muestra n y siempre es mayor que 1. Se acostumbra representar con ta el valor t por arriba del cual encontramos un área igual a α. **Para que se utiliza la distribución t.?** La distribución t se usa de manera extensa en problemas que tienen que ver con inferencia acerca de la media de la población. El uso de la distribución t y la consideración del tamaño de la muestra no se relacionan con el teorema del límite central. **Distribución F** El estadístico F se define como la razón de dos variables aleatorias chi cuadradas independientes, dividida cada una entre su número de grados de libertad. De aquí podemos escribir.

Donde U y V son variables aleatorias independientes que tienen distribuciones chi cuadradas con v1 y v2 grados de libertad, respectivamente. Establecemos ahora la distribución muestral de F. Sean U y V dos variables aleatorias independientes que tienen distribuciones chi cuadradas con u1 y u2 grados de libertad, respectivamente. Entonces, la distribución de la variable aleatoria F = está dada por la densidad.

Esta se conoce como la distribución F con u2 y u2 grados de libertad (g.1) La curva de la distribución F depende no solo de los dos parámetros u1 y u2 si no también del orden en el que se establecen. Al escribir fa (u1 u2) para fa con u1 y u2 grados de libertad, obtenemos

Así, el valor f con 6 y 10 grados de libertad, que deja un area de 0.95 a la derecha **La distribución F con dos varianzas muéstrales** Suponga que las muestras aleatorias de tamaño n1 y n2 se seleccionan de dos poblaciones normales con varianzas Son variables aleatorias que tienen distribuciones chi cuadradas con u1 = n1 – 1 y u2 = n2 – 1 grados de la libertad. Además si S1 y S2 son las varianzas de muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones normales con varianzas Tiene una distribución F con u1 = n1 – 1 y u2 = n2 - 1 grados de libertad. **Para que se utiliza la distribución F** La distribución F se usa en situaciones de dos muestras para realizar inferencias acerca de las varianzas de población, lo cual implica la aplicación del resultado. De hecho, la distribución F se llama distribución de razón de varianzas. Parecía razonable que si la variabilidad entre los promedios muéstrales es mayor que lo que se esperaría por casualidad, los datos no apoyan la conclusión de que uA = UB = UC.