Equipo 8 Probabilidad y Estadistica: Resumen Primera Semana

1.1 Introducción, votación, sumatoria

Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio, examinando solamente una parte de ella denominada muestra.

Este proceso, denominado Inferencia Estadística, suele venir precedido de otro, denominado Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc.

También están entre los objetivos de la Estadística Descriptiva el presentarlos de tal modo que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría,, normalidad, homocedasticidad, etc.

1.1.1 Datos no agrupados

Los datos son informaciones que uno obtiene de diversos modos y para múltiples fines, por eso conforman un grupo tan amplio que da lugar a numerosas categorizaciones. Al analizarlos y manipularlos, por ejemplo, es posible reconocer dos grandes conjuntos dentro del campo de la estadística: la de los datos agrupados y la de los datos no agrupados.

Los datos no agrupados (también definidos como datos sin agrupar) son referencias que se obtienen sin ningún orden que, para tener sentido y demostrar coherencia entre todas ellas exigen la elaboración de una tabla de frecuencias.

Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis.

Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.

1.1.2 Medidas de tendencia central

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.

Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica? Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.

Media: Media aritmética, es la que se obtiene sumando los datos y dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el número promedio de controles prenatales que tiene una gestante.

Mediana: Corresponde al percentil 50%. Es decir, la mediana divide a la población exactamente en dos. Por ejemplo el número mediana de hijos en el centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de atenciones por paciente en un consultorio.

Moda: Valor o (valores) que aparece(n) con mayor frecuencia. Una distribución unimodal tiene una sola moda y una distribución bimodal tiene dos. Útil como medida resumen para las variables nominales. Por ejemplo, el color del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la moda en colores del uniforme quirúrgico.

1.1.3 Medidas de posición

Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de Tendencia Central”.

Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación se describen las medidas de posición más comunes utilizadas en estadística, como lo son:

Cuartiles: Hay 3 Cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tercer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).

1.1.4 Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).

Desviación Estándar: Llamada también desviación típica; es una medida que informa sobre la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.

La Varianza: Es el valor de la desviación estándar al cuadrado; su utilidad radica en que su valor es requerido para todos los procedimientos estadístico.

Error Típico: Llamado también error estándar de la media. Se refiere a una medida d variabilidad de la media; sirve para calcular cuan dispersa estaría la media de realizar un nuevo cálculo.

1.1.5 Medidas de forma

Permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución. Se divide en 2 opciones:

1. SESGO:

Propiedad de una muestra estadística que hace que los resultados no sean representativos de toda la población.

2. K-curtosis:

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

1.2 Datos agrupados

· Su fin es resumir la información.

· Generalmente, los elementos son de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias.

· Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos está pidiendo). Una vez que ya hemos ordenado y clasificado, presentaremos la información obtenida mediante una” tabla de frecuencias”

· 4.- La agrupación de los datos puede ser simple o mediante intervalos de clase.

1.2.1 Tabla de frecuencia

Una tabla de frecuencias (también conocida como tabla de relaciones de frecuencias) es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que escriben una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.

La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.

La tabla de frecuencias puede representarse gráficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.

1.2.2 Medidas de tendencia central y de posición

Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Forma como los datos pueden condensarse en un solo valor central alrededor del cual todos los datos muéstrales se distribuyen. Las más importantes son: Media: Aritmética y Aritmética ponderada. Mediana. Moda.

· M EDIA A RITMÉTICA: Es la suma de todas las observaciones dividida entre el número total de observaciones. Expresada de forma más intuitiva, podemos decir que la media aritmética es la cantidad total de la variable distribuida a partes iguales entre cada observación. Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.

· MEDIANA: Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente. Divide al conjunto de datos en dos partes iguales.

· MODA. Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.

1.2.3 Medidas de dispersión

Así, las medidas de dispersión pueden definirse como los valores numéricos cuyo objeto es analizar el grado de separación de los valores de una serie estadística con respecto a las medidas de tendencia central consideradas.

Las medidas de dispersión son de dos tipos:

Medidas de dispersión absoluta: como recorrido, desviación media, varianza y desviación típica, que se usan en los análisis estadísticos generales.
Medidas de dispersión relativa: que determinan la dispersión de la distribución estadística independientemente de las unidades en que se exprese la variable. Se trata de parámetros más técnicos y utilizados en estudios específicos, y entre ellas se encuentran los coeficientes de apertura, el recorrido relativo, el coeficiente de variación (índice de dispersión de Pearson) y el índice de dispersión mediana.

La distribución normal, o campana de Gauss, es una función simétrica (con la media aritmética en el centro de la serie) con un grado de dispersión bajo (la mayoría de los valores están comprendidos dentro del valor de la desviación típica).

· Recorrido

La medida de dispersión más inmediata es el recorrido de la distribución estadística, también llamado rango o amplitud. Dada una serie de valores x₁, x₂,..., x_n, su recorrido es la diferencia aritmética entre el máximo y el mínimo de estos valores:

· Desviación media

Como medida de dispersión más frecuentemente utilizada, la desviación media se define como la media aritmética de los valores absolutos de la desviación de cada valor de la variable con respecto a la media. Su formulación matemática es la siguiente:

· Varianza y desviación típica

La desviación media no siempre suministra una idea clara del grado de separación entre los valores de una variable estadística. Para estudios científicos, se prefiere utilizar una pareja de parámetros relacionados que se conocen como varianza y desviación típica. La varianza se define como el cociente entre la suma de los cuadrados de las desviaciones de los valores de la variable y el número de datos del estudio. Matemáticamente, se expresa como:

Equipo 8 Probabilidad y Estadistica

lunes, 4 de febrero de 2013

Resumen Primera Semana

1 comentario: