Equipo+No.5+Resumen+Cap.+8

** Fundamentos de Muestreo Fundamentales y Descripciones de Datos **
 * Capitulo 8 **

**// Muestro aleatorio //** El resultado de un experimento estadístico se puede registrar como un valor numérico o como una representación descriptiva. La mayoría de las veces la inferencia formal parece bastante árida, y quizás incluso abstracta para el profesional o el administrador que deseen que el análisis estadístico sea una guía para la toma de decisiones.

**// Población y muestras //** Comenzamos esta sección con la presentación de las nociones de población y mues­tras. La totalidad de observaciones que nos interesan, de número finito o infinito, constituye lo que llamamos población. En el pasado el término población se refería a observaciones que se obtenían de estudios estadísticos con personas. En la actualidad, el estadístico utiliza la palabra para referirse a observaciones respecto de cualquier cuestión de interés. Una población consiste en la totalidad de las observaciones en las que estamos interesados. El número de observaciones en la población se define como el tamaño de población. Algunas poblaciones finitas son tan grandes que en teoría las supondríamos infinitas. Cada observación en una población es un valor de una variable aleatoria X que tiene alguna distribución de probabilidad f(x). De ahora en adelante, cuando nos refiramos a una '"población binomial". a una "población normal" o, en general, a la "población f(x)", aludiremos a una población cuyas observaciones son valores de una variable aleatoria que tiene una distribución binomial, una distribución normal o la distribución de probabilidad f(x). Por ello, a la media y a la varianza de una variable aleatoria o distribución de probabilidad también se les denomina la media y la varianza de la población correspondiente. En el campo de la inferencia estadística el estadístico se interesa en llegar a conclusiones que tienen que ver con la población, cuando es imposible o poco prác­tico observar todo el conjunto de observaciones que constituyen la población. Por lo tanto, debemos depender de un subconjunto de observaciones de la población para ayudarnos a realizar inferencias con respectó a la misma población. Esto nos lleva a considerar la noción de muestreo. Una muestra o un subconjunto de una población. Si nuestras inferencias a partir de la muestra para la población tienen que ser váli­das, debemos obtener muestras que sean representativas de la población. Tal procedimiento podría conducir a inferencias erróneas con respecto a la población. Cualquier procedimiento de muestreo que produzca inferencias que sobreestimen, o subestimen, de forma consistente alguna característica de la población se dice que está sesgado, para eliminar cualquier po­sibilidad de sesgo en el procedimiento de muestreo, es deseable elegir un muestra aleatoria, en el sentido de que las observaciones se realicen de forma independiente y al azar.

Sean variables aleatorias independientes, cada una con la misma distribución de probabilidad f(x). Definimos entonces a como una **muestra aleatoria **de tamaño n de la población f(x) y escribimos su distribución de probabilidad conjunta como

**// Algunos estadísticos importantes //** Nuestro principal propósito al seleccionar muestras aleatorias consiste en obtener información acerca de los parámetros desconocidos de la población. Se selecciona una muestra aleatoria grande y se calcula la proporción p.   Ahora, p es una función de los valores observados en la muestra aleatoria cómo es posible tomar muchas muestras aleatorias a partir de la misma población, esperaríamos que p variara de una muestra a otra. Tal variable aleatoria se llama estadístico. Cualquier función de las variables aleatorias que forman una muestra aleatoria se llama estadístico.

**// Tendencia central en la muestra //** Definiremos en algunos estadísticos importantes que describen las medidas correspondientes de una muestra aleatoria. Los estadísticos que por lo general, se utilizan más para medir el centra de un conjunto de datos, acomodados en orden de magnitud, son la media, la media mediana y la moda.

** Media de la muestra ** 

** La varianza de la muestra ** La variabilidad en la muestra debería indicar como se dispersan las observaciones a partir del promedio. Es posible tener dos conjuntos de observaciones con las mismas media o mediana, y que difieran de manera considerable en la variabilidad de sus mediciones alrededor del promedio. El valor calculado de S2 para una muestra dada se denota con s2. Observe que S2 se define esencialmente como el promedio de los cuadrados del las desviación de las observaciones de su media.

** Varianza de la muestra ** 

** Teorema ** 

La desviación estándar de la muestra que se denota con S, es la raíz positiva de la varianza de la muestra.

** Presentación de datos y métodos gráficos ** La motivación es el uso de presentaciones creativas información acerca de las propiedades de un conjunto de datos. Podemos caracterizar el análisis estadístico como el proceso de extraer conclusiones acerca de los sistemas en presencia de la variabilidad de sistema. Aprendimos acerca de las muestras y los estadísticos que expresan el centro de localizar y la variabilidad en la muestra. Tales estadísticos ofrecen medidas simples, en tanto una presentación gráfica brinda información adicional en términos de una imagen.

** Grafica de caja y extensión o grafica de caja ** Una variación denominada gráfica de caja puede ofrecer al observador información con respecto a cuales observaciones son valores extremos, los cuales son observaciones que se consideran inusualmente alejadas de la masa de datos. Hay muchas pruebas estadísticas diseñadas para detectar valora extremos. Técnicamente se puede considerar que un valor extremo es una observación que representa un “evento raro".   La información visual en las gráficas de caja y extensión y de caja no intenta ser una prueba formal de valores extremos. Más bien, se ve como una herramienta de diagnostico. La gráficas de datos pueden sugerir relaciones entre variables. Las gráficas ayudan en la detección de anomalías o de observaciones do valores extremos en las muestras.

** Detección de desviaciones de la normalidad ** Para el lector debería ser algo evidente que la detección de un conjunto de datos vie­ne o no de una distribución normal que puede ser una herramienta importante pura el analista de datos. Como indicamos anteriormente en esta sección, con frecuencia hacemos la suposición de que la totalidad o subconjuntos de las observaciones en un conjunto de datos son realizaciones de variables aleatorias normales independientes e idénticamente distribuidas. Una vez más, la grafica de diagnostico a menudo puede agregar (con fines de presentación) una prueba de bondad del ajuste formal de los datos. En la elaboración de modelos y en el diseño de experimentos también hay situaciones en que las gráficas se utilizan para detectar términos o efectos del modelo que están activos. En otras situaciones se utilizan para determinar si son razonables o no las -suposiciones subyacentes hechas por el científico o por el ingeniero en la construcción del modelo. Distribuciones muéstrales El campo de la inferencia estadística trata básicamente con generalizaciones y predicciones.

La distribución de probabilidad de X se llama distribución muestra) de la media.   La distribución muestral de un estadístico depende del tamaño de la población del tamaño de la muestras y del método de elección de estas.    La distribución muestral de X con tamaño muestral n es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez siempre con tamaño de la muestra y resultan los diversos valores de X. La distribución muestral produce información acerca de la variabilidad de los valores de s2 alrededor de o2 en experimentos que se repiten.

** Distribución muéstrales de medias **  La puniera distribución muestral importante que se debe considerar es la de la me­dia X. Teorema del límite central: Si X es la media de una muestra aleatoria de tamaño n tomada de una población con media miu y varianza finita o2, entonces la forma límite de la distribución de   Conforme , es la distribución normal estándar de n.   TIPOS DE MUESTREO Existen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.

 I. Muestreo probabilístico Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equilibrio de probabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido.

 Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. 2.- Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos. 3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: Afijación Simple: A cada estrato le corresponde igual número de elementos muéstrales. Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. Afijación Optima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. 4.- Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias,

 los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto numero de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. II. Métodos de muestreo no probabilísticos A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de se elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilístico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población. Entre los métodos de muestreo no probabilísticos más utilizados en investigación encontramos: 1.- Muestreo por cuotas: También denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Gijón. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión. 2.- Muestreo intencional o de conveniencia: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. También puede ser que el investigador seleccione directa e intencionadamente los individuos de la población. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos).

 3.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. 4.- Muestreo Discrecional · A criterio del investigador los elementos son elegidos sobre lo que él cree que pueden aportar al estudio. Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico  <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> Cálculo rápido de medias y varianzas. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;"> Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Requiere que se posea de antemano un listado completo de toda la población. Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Determinar tamaño muestral n. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Definir un intervalo k= N/n. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Elegir un número aleatorio, r, entre 1 y k (r= arranque aleatorio). <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Seleccionar los elementos de la lista. |||| <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">variables seleccionadas. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> Se obtienen estimaciones más precisa <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;"> Su objetivo es conseguir una muestra lo más semejante posible a la población en lo que a la o las variables estratificadoras se refiere. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Se ha de conocer la distribución en la población de las variables <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">utilizadas para la estratificación. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">variables seleccionadas. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> Se obtienen estimaciones más precisa <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;"> Su objetivo es conseguir una muestra lo más semejante posible a la población en lo que a la o las variables estratificadoras se refiere. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Se ha de conocer la distribución en la población de las variables <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">utilizadas para la estratificación. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior. |||| <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> Es muy eficiente cuando la población es muy grande y dispersa. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;"> No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo. || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> El error estándar es mayor que en el muestreo aleatorio simple o estratificado. <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;"> El cálculo del error estándar es complejo. || <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;"> <span style="font-family: "Arial","sans-serif"; font-size: 12pt;"> Los parámetros son la contraparte del estadístico en cuestión. Si un ingeniero se interesa en la resistencia media de la población de cierto tipo de resistencia, la distribución muestral de X se explorará una vez que se reúna la información de la muestra. Si se estudia la variabilidad de la resistencia, claramente la distribución muestral de S2 se utilizará para conocer la contraparte paramétrica, la varianza de la población o2. Si se extrae una muestra aleatoria de tamaño n de una población normal con media u y varianza o2, y se calcula la varianza muestral, obtendremos un valor del estadístico S2 <span style="font-family: "Arial","sans-serif"; font-size: 12pt;"> <span style="font-family: "Arial","sans-serif"; font-size: 12pt;"> <span style="font-family: "Arial","sans-serif"; font-size: 12pt;"> **<span style="font-family: "Arial","sans-serif"; font-size: 12pt;">Distribución t de Student ** <span style="font-family: "Arial","sans-serif";">En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. <span style="font-family: "Arial","sans-serif";">Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;"> <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;"> <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;"> El estadístico F se define como la razón de dos variables aleatorias chi cuadradas independientes, dividida cada una entre su número de grados de libertad. De aquí podemos escribir. Donde U y V son variables aleatorias independientes que tienen distribuciones chi cuadradas con v1 y v2 grados de libertad, respectivamente. Establecemos ahora la distribución muestral de F. Sean U y V dos variables aleatorias independientes que tienen distribuciones chi cuadradas con u1 y u2 grados de libertad, respectivamente. Entonces, la distribución de la variable aleatoria F = está dada por la densidad. Esta se conoce como la distribución F con u2 y u2 grados de libertad (g.1) La curva de la distribución F depende no solo de los dos parámetros u1 y u2 si no también del orden en el que se establecen. <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;">
 * ||  |||| <span style="font-family: Calibri; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Características || <span style="font-family: Calibri; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Ventajas || <span style="font-family: Calibri; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Inconvenientes ||
 * <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Aleatorio simple || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.  |||| <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Sencillo y de fácil comprensión.
 * <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Sistemático || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Conseguir un listado de los N elementos de la población
 * <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Estratificado || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a hacer un muestreo. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.  |||| <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;"> Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas
 * <span style="font-family: 'Arial','sans-serif'; font-size: 10pt;">Conglomerados || <span style="font-family: 'Arial','sans-serif'; font-size: 10pt; line-height: normal; margin: 0cm 0cm 0pt; text-align: justify;">Se realizan varias fases de muestreo sucesivas (polietápico)
 * <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;">Distribución muestral de S2 **
 * <span style="font-family: "Arial","sans-serif"; font-size: 12pt; line-height: 115%;">Distribución F **