domingo, 10 de febrero de 2013

RESUMEN 2DA SEMANA


Es una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.
La asimetría presenta las siguientes formas:
Asimetría Negativa o a la Izquierda: Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda.
Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.
Simétrica: Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Md=Mo
Asimetría Positiva o a la Derecha: Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda.

Curtosis o Apuntamiento
La Curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán puntiaguda es una distribución.
La Curtosis determina el grado de concentración que presentan los valores en la región central de la distribución.


1.3. REPRESENTACIONES GRÁFICAS
Una gráfica es la representación en unos ejes de coordenadas de los pares ordenados de una tabla.
Las gráficas describen relaciones entre dos variables.
La variable que se representa en el eje horizontal se llama variable independiente o variable x.
La que se representa en el eje vertical se llama variable dependiente o variable y.
La variable y está en función de la variable x.
Una vez realizada la gráfica podemos estudiarla, analizarla y extraer conclusiones.
Para interpretar una gráfica, hemos de observarla de izquierda a derecha, analizando cómo varía la variable dependiente, y, al aumentar la variable independiente, x.

Diagrama de dispersión: 
Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical.1 Un diagrama de dispersión se llama también gráfico de dispersión.
Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.


Diagrama de Tallos y Hojas:
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos.
Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el último dígito) y un "tallo" (los otros dígitos). Por ejemplo "32" sería dividido en "3" (tallo) y "2" (hoja).

Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) de los valores tallo.

El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.


1.3.3 HISTOGRAMAS
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han agrupado en clases.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.


1.3.4 OJIVAS
La ojiva es la distribución de frecuencias, es decir, que en ella se permite ver cuántas observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números asignados a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayores que y las ojivas menores que.
Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial):
Un extremo de la ojiva no se toca al eje horizontal, para la ojiva "mayor que" sucede con el extremo izquierdo; para la ojiva "menor que", con el derecho.
En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la izquierda la "mayor que", a la derecha la "menor que", utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva "mayor que" (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase “4:00″ se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría, sin errores de gramática: después de las 4:00). De forma análoga, en la ojiva "menor que" la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).


1.3.5  POLÍGONO DE FRECUENCIAS
Es el nombre que recibe una clase de gráfico que se crea a partir de un histograma de frecuencia. Estos histogramas emplean columnas verticales para reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor altura de estas columnas.
Es decir, por tanto, podríamos establecer que un polígono de frecuencia es aquel que se forma a partir de la unión de los distintos puntos medios de las cimas de las columnas que configuran lo que es un histograma de frecuencia. Este se caracteriza porque utiliza siempre lo que son columnas de tipo vertical y porque nunca debe haber espacios entre lo que son unas y otras.
Se conoce como polígonos de frecuencia para datos agrupados a aquellos que se desarrollan mediante la marca de clase que tiene coincidencia con el punto medio de las distintas columnas del histograma. En el momento de la representación de todas las frecuencias que forman parte de una tabla de datos agrupados, se genera el histograma de frecuencias acumuladas que posibilita la diagramación del polígono correspondiente.
Los polígonos de frecuencia se suelen usar cuando se pretende retratar varias distribuciones distintas o la clasificación cruzada de una variable cuantitativa continua con una cualitativa o cuantitativa discreta en el mismo dibujo.
El punto de más altura de un polígono de frecuencia equivale a la mayor frecuencia, mientras que el área que se sitúa debajo de la curva incluye todos los datos que existen. Cabe recordar que la frecuencia es la repetición mayor o menor de un evento, o el número de veces que un acontecimiento periódico se reitera en una unidad temporal.



1.3.6  DIAGRAMA DE CAJA Y EJES
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes
Como expresarlo gráficamente
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC)
  • Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superiores e inferior, Li y Ls, que identifiquen a los valores atípicos.
  • Para ello se calcula cuándo se consideran atípicos los valores. Son aquellos inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.
  • Ahora se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes.
  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
  • Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1-3*RIC o Q3+3*RIC.

1.3.7  DIAGRAMA DE SECTORES
Se toma un círculo y se divide en tantos sectores como clases tengamos, siendo el arco del círculo proporcional a las frecuencias absolutas (también lo podemos hacer con las frecuencias relativas o porcentajes).
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360º grados de la circunferencia.
Un diagrama de sectores se puede utilizar para todo tipo de variables, pero se usa frecuentemente para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente.
Se representan los datos en un círculo, de modo que la frecuencia de cada valor viene dada por un trozo de área del círculo. Así, el círculo queda dividido en sectores cuya amplitud es proporcional a las frecuencias de los valores. Sirve para representar cualquier tipo de variable.

lunes, 4 de febrero de 2013

Resumen Primera Semana


1.1 Introducción, votación, sumatoria
Habitualmente el propósito de la Estadística Aplicada es el de sacar conclusiones de una población en estudio, examinando solamente una parte de ella denominada muestra.
Este proceso, denominado Inferencia Estadística, suele venir precedido de otro, denominado Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de tener una visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones entre los datos, viendo cuales toman valores parecidos, cuales difieren grandemente del resto, destacando hechos de posible interés, etc.
También están entre los objetivos de la Estadística Descriptiva el presentarlos de tal modo que permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así como estudiar si pueden mantenerse algunas suposiciones necesarias en determinadas inferencias como la de simetría,, normalidad, homocedasticidad, etc.


1.1.1   Datos no agrupados
Los datos son informaciones que uno obtiene de diversos modos y para múltiples fines, por eso conforman un grupo tan amplio que da lugar a numerosas categorizaciones. Al analizarlos y manipularlos, por ejemplo, es posible reconocer dos grandes conjuntos dentro del campo de la estadística: la de los datos agrupados y la de los datos no agrupados.
Los datos no agrupados (también definidos como datos sin agrupar) son referencias que se obtienen sin ningún orden que, para tener sentido y demostrar coherencia entre todas ellas exigen la elaboración de una tabla de frecuencias.
Los datos no agrupados son los datos sin procesar, y las estadísticas correctas pueden ser determinadas. Los datos no agrupados son usualmente el punto de inicio de los análisis.
Es el conjunto de datos obtenidos en la recopilación, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.


1.1.2  Medidas de tendencia central
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Distinguimos entre medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirán comparar varias muestras.
Pero si hay dispersión en la mayoría de los datos, y debemos estar en capacidad de describirla. Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la variabilidad de una distribución empírica? Vamos a considerar sólo algunas medidas de dispersión absolutas: el rango, la varianza, la desviación estándar y el coeficiente de variación.
Media: Media aritmética, es la que se obtiene sumando los datos y dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el número promedio de controles prenatales que tiene una gestante.
Mediana: Corresponde al percentil 50%. Es decir, la mediana divide a la población exactamente en dos. Por ejemplo el número mediana de hijos en el centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de atenciones por paciente en un consultorio.
Moda: Valor o (valores) que aparece(n) con mayor frecuencia. Una distribución unimodal tiene una sola moda y una distribución bimodal tiene dos. Útil como medida resumen para las variables nominales. Por ejemplo, el color del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la moda en colores del uniforme quirúrgico.


1.1.3  Medidas de posición
Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de Tendencia Central”.
Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para que lean verdaderamente representativas de la variable a la que resumen. Toda síntesis de una distribución se considerara como operativa si intervienen en su determinación todos y cada uno de los valores de la distribución, siendo única para cada distribución de frecuencias y siendo siempre calculable y de fácil obtención. A continuación se describen las medidas de posición más comunes utilizadas en estadística, como lo son:
  • Cuartiles: Hay 3 Cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tercer cuartil.
  • Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
  • Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).

1.1.4  Medidas de dispersión
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).
Desviación Estándar: Llamada también desviación típica; es una medida que informa sobre la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.
La Varianza: Es el valor de la desviación estándar al cuadrado; su utilidad radica en que su valor es requerido para todos los procedimientos estadístico.
Error Típico: Llamado también error estándar de la media. Se refiere a una medida d variabilidad de la media; sirve para calcular cuan dispersa estaría la media de realizar un nuevo cálculo.

1.1.5  Medidas de forma
Permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución. Se divide en 2 opciones:

1.    SESGO:
Propiedad de una muestra estadística que hace que los resultados no sean representativos de toda la población.



2.     K-curtosis:
Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).




1.2  Datos agrupados
·      Su fin es resumir la información.

·      Generalmente, los elementos son de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar, clasificar y expresar los en una tabla de frecuencias.

·      Se agrupa a los datos, si se cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de verificarse que los datos n sean significativos, Esto es: que la información sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse. Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos está pidiendo). Una vez que ya hemos ordenado y clasificado, presentaremos la información obtenida mediante una” tabla de frecuencias”

·     4.- La agrupación de los datos puede ser simple o mediante intervalos de clase.


1.2.1  Tabla de frecuencia
Una tabla de frecuencias (también conocida como tabla de relaciones de frecuencias) es una tabla en la que se organizan los datos en clases, es decir, en grupos de valores que escriben una característica de los datos y muestra el número de observaciones del conjunto de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato numérico. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. En variables cuantitativas se distinguen por otra parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un histograma. Normalmente en el eje vertical se coloca las frecuencias y en el horizontal los intervalos de valores.


1.2.2  Medidas de tendencia central y de posición
Corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. Forma como los datos pueden condensarse en un solo valor central alrededor del cual todos los datos muéstrales se distribuyen. Las más importantes son: Media: Aritmética y Aritmética ponderada. Mediana. Moda.
·      M EDIA A RITMÉTICA: Es la suma de todas las observaciones dividida entre el número total de observaciones. Expresada de forma más intuitiva, podemos decir que la media aritmética es la cantidad total de la variable distribuida a partes iguales entre cada observación. Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.

·      MEDIANA: Es el valor que ocupa la posición central de un conjunto de observaciones, una vez que han sido ordenados en forma ascendente o descendente. Divide al conjunto de datos en dos partes iguales.

·      MODA. Observación o clase que tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia central que se puede determinar para datos de tipo cualitativo.


1.2.3  Medidas de dispersión
Así, las medidas de dispersión pueden definirse como los valores numéricos cuyo objeto es analizar el grado de separación de los valores de una serie estadística con respecto a las medidas de tendencia central consideradas.
Las medidas de dispersión son de dos tipos:
  • Medidas de dispersión absoluta: como recorrido, desviación media, varianza y desviación típica, que se usan en los análisis estadísticos generales.
  • Medidas de dispersión relativa: que determinan la dispersión de la distribución estadística independientemente de las unidades en que se exprese la variable. Se trata de parámetros más técnicos y utilizados en estudios específicos, y entre ellas se encuentran los coeficientes de apertura, el recorrido relativo, el coeficiente de variación (índice de dispersión de Pearson) y el índice de dispersión mediana.
La distribución normal, o campana de Gauss, es una función simétrica (con la media aritmética en el centro de la serie) con un grado de dispersión bajo (la mayoría de los valores están comprendidos dentro del valor de la desviación típica).
·         Recorrido
La medida de dispersión más inmediata es el recorrido de la distribución estadística, también llamado rango o amplitud. Dada una serie de valores x1, x2,..., xn, su recorrido es la diferencia aritmética entre el máximo y el mínimo de estos valores:



·         Desviación media
Como medida de dispersión más frecuentemente utilizada, la desviación media se define como la media aritmética de los valores absolutos de la desviación de cada valor de la variable con respecto a la media. Su formulación matemática es la siguiente:



·         Varianza y desviación típica
La desviación media no siempre suministra una idea clara del grado de separación entre los valores de una variable estadística. Para estudios científicos, se prefiere utilizar una pareja de parámetros relacionados que se conocen como varianza y desviación típica. La varianza se define como el cociente entre la suma de los cuadrados de las desviaciones de los valores de la variable y el número de datos del estudio. Matemáticamente, se expresa como: