domingo, 24 de febrero de 2013
martes, 19 de febrero de 2013
domingo, 17 de febrero de 2013
miércoles, 13 de febrero de 2013
martes, 12 de febrero de 2013
lunes, 11 de febrero de 2013
domingo, 10 de febrero de 2013
RESUMEN 2DA SEMANA
1.2.4. MEDIDAS DE ASIMETRÍA Y CURTOSIS
Es una medida de forma de una distribución que permite identificar y describir la
manera como los datos tiende a reunirse de acuerdo con la
frecuencia con que se hallen dentro de la distribución. Permite identificar las
características de la distribución de datos sin necesidad de generar el
gráfico.
La asimetría presenta las siguientes formas:
Asimetría Negativa
o a la Izquierda: Se da cuando
en una distribución la minoría de los datos está en la parte izquierda de la
media. Este tipo de distribución presenta un alargamiento o sesgo hacia la
izquierda, es decir, la distribución de los datos tiene a la izquierda una cola
más larga que a la derecha. También se dice que una distribución es simétrica a
la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la
mediana y éste valor de la mediana a su vez es menor que la moda.
Nota: Sesgo es el grado de asimetría de una
distribución, es decir, cuánto se aparta de la simetría.
Simétrica: Se da cuando en una distribución se
distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la
media aritmética. No tiene alargamiento o sesgo. Se representa por una curva
normal en forma de campana llamada campana de Gauss (matemático Alemán
1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una
distribución es simétrica cuando su media aritmética, su mediana y su moda son
iguales, en símbolos
Md=Mo
Asimetría Positiva
o a la Derecha: Se da
cuando en una distribución la minoría de los datos está en la parte derecha de
la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo
hacia la derecha, es decir, la distribución de los datos tiene a la derecha una
cola más larga que a la izquierda.
Curtosis o Apuntamiento
La Curtosis mide el grado de agudeza o
achatamiento de una distribución con relación a la distribución normal, es
decir, mide cuán puntiaguda es una distribución.
La Curtosis determina el grado de
concentración que presentan los valores en la región central de la distribución.
1.3. REPRESENTACIONES GRÁFICAS
Una gráfica es la
representación en unos ejes de coordenadas de los pares ordenados de una tabla.
Las gráficas describen relaciones entre dos variables.
La variable que se representa en el eje horizontal se llama variable independiente o variable x.
La que se representa en
el eje vertical se llama variable dependiente o variable y.
La variable y está en función de la variable x.
Una vez realizada la
gráfica podemos estudiarla, analizarla y extraer conclusiones.
Para interpretar una
gráfica, hemos de observarla de izquierda a derecha, analizando cómo varía la
variable dependiente, y, al aumentar la variable independiente, x.
Diagrama de dispersión:
Un diagrama de dispersión es un tipo
de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos
variables para un conjunto de datos.
Los datos se muestran
como un conjunto de puntos, cada uno con el valor de una variable que determina
la posición en el eje horizontal y el valor de la otra variable determinado por
la posición en el eje vertical.1 Un diagrama de dispersión se llama
también gráfico de dispersión.
Se emplea cuando una
variable está bajo el control del experimentador. Si existe un parámetro que se
incrementa o disminuye de forma sistemática por el experimentador, se le
denomina parámetro de control o variable
independiente = eje de x y
habitualmente se representa a lo largo del eje horizontal. La variable medida
o dependiente = eje de y usualmente se representa a lo largo del eje
vertical. Si no existe una variable dependiente, cualquier variable se puede
representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
Diagrama de Tallos y Hojas:
El diagrama "tallo
y hojas" (Stem-and-Leaf Diagram)
permite obtener simultáneamente una distribución de frecuencias de la variable
y su representación gráfica. Para construirlo basta separar en cada dato el
último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de
los datos es semejante a la de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.
Un diagrama donde cada
valor de datos es dividido en una "hoja" (normalmente el último
dígito) y un "tallo" (los otros dígitos). Por ejemplo "32"
sería dividido en "3" (tallo) y "2" (hoja).
Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) de los valores tallo.
El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.
Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) de los valores tallo.
El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.
1.3.3
HISTOGRAMAS
En estadística, un histograma es una
representación gráfica de una variable en forma de barras, donde la superficie
de cada barra es proporcional a la frecuencia de los valores representados. En
el eje vertical se representan las frecuencias, y en el eje horizontal los
valores de las variables, normalmente señalando las marcas de clase, es decir,
la mitad del intervalo en el que están agrupados los datos.
Se utilizan para variables continuas o para
variables discretas, con un gran número de datos, y que se han agrupado en
clases.
Se utiliza cuando se estudia una variable
continua, como franjas de edades o altura de la muestra, y, por comodidad, sus
valores se agrupan en clases, es decir, valores continuos. En los casos en los
que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o
nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en
ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y
permite la comparación de los resultados de un proceso.
1.3.4 OJIVAS
La ojiva es la distribución de frecuencias,
es decir, que en ella se permite ver cuántas observaciones se encuentran por
encima o debajo de ciertos valores, en lugar de solo exhibir los números
asignados a cada intervalo.
La ojiva apropiada para información que
presente frecuencias mayores que el dato que se está comparando tendrá una
pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a
valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono
de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la
misma técnica a una distribución acumulativa y de igual manera que éstas,
existen las ojivas mayores que y las ojivas menores que.
Existen dos diferencias fundamentales entre
las ojivas y los polígonos de frecuencias (y por esto la aplicación de la
técnica es parcial):
Un extremo de la ojiva no se toca al eje
horizontal, para la ojiva "mayor que" sucede con el extremo
izquierdo; para la ojiva "menor que", con el derecho.
En el eje horizontal en lugar de colocar las
marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva
mayor que es la frontera menor; para la ojiva menor que, la mayor.
Las siguientes son ejemplos de ojivas, a la
izquierda la "mayor que", a la derecha la "menor que",
utilizando los datos que se usaron para ejemplificar el histograma:
La ojiva "mayor que" (izquierda) se
le denomina de esta manera porque viendo el punto que está sobre la frontera de
clase “4:00″ se ven las visitas que se realizaron en una hora mayor que las
4:00 horas (en cuestiones temporales se diría, sin errores de gramática:
después de las 4:00). De forma análoga, en la ojiva "menor que" la
frecuencia que se representa en cada frontera de clase son el número de
observaciones menores que la frontera señalada (en caso de tiempos sería el
número de observaciones antes de la hora que señala la frontera).
1.3.5 POLÍGONO DE FRECUENCIAS
Es el nombre que recibe una clase de gráfico que se crea a
partir de un histograma de
frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el
polígono de frecuencia es realizado uniendo los puntos de mayor altura de estas
columnas.
Es decir, por tanto, podríamos establecer que
un polígono de frecuencia es aquel que se forma a partir de la unión de los
distintos puntos medios de las cimas de las columnas que configuran lo que es
un histograma de frecuencia. Este se caracteriza porque utiliza siempre lo que
son columnas de tipo vertical y porque nunca debe haber espacios entre lo que
son unas y otras.
Se conoce como polígonos de frecuencia para datos agrupados a aquellos que
se desarrollan mediante la marca de clase que tiene coincidencia con el punto
medio de las distintas columnas del histograma. En el momento de la
representación de todas las frecuencias que forman parte de una tabla de datos
agrupados, se genera el histograma de frecuencias acumuladas que posibilita la diagramación del
polígono correspondiente.
Los polígonos de frecuencia se suelen usar
cuando se pretende retratar varias distribuciones distintas o la clasificación
cruzada de una variable cuantitativa continua con una cualitativa o
cuantitativa discreta en el mismo dibujo.
El punto de más altura de un polígono de
frecuencia equivale a la mayor frecuencia, mientras que el área que se sitúa
debajo de la curva incluye todos los datos que existen. Cabe recordar que la
frecuencia es la repetición mayor
o menor de un evento, o el número de veces que un acontecimiento
periódico se reitera en una unidad temporal.
1.3.6 DIAGRAMA DE
CAJA Y EJES
Un diagrama de caja es un gráfico, basado en cuartiles, mediante
el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la
"caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información
sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o
mediana y Q3, y sobre la existencia de valores atípicos y la simetría de
la distribución. Primero es necesario encontrar la mediana para luego encontrar
los 2 cuartiles restantes
Como expresarlo gráficamente
- Ordenar
los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3
y el Rango Inter Cuartilico (RIC)
- Para
dibujar los bigotes, las líneas que se extienden desde la caja, hay que
calcular los límites superiores e inferior, Li y Ls, que identifiquen a
los valores atípicos.
- Para
ello se calcula cuándo se consideran atípicos los valores. Son aquellos
inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.
- Ahora
se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes.
- Marcar
como atípicos todos los datos que están fuera del intervalo (Li, Ls).
- Además,
se pueden considerar valores extremadamente atípicos aquellos que exceden
Q1-3*RIC o Q3+3*RIC.
1.3.7 DIAGRAMA DE
SECTORES
Se toma un círculo y se divide en tantos
sectores como clases tengamos, siendo el arco del círculo proporcional a las
frecuencias absolutas (también lo podemos hacer con las frecuencias relativas o
porcentajes).
Para determinar el arco circular que
corresponde a cada clase relacionamos el total de observaciones con los 360º
grados de la circunferencia.
Un diagrama de sectores se puede utilizar para todo tipo
de variables, pero se usa frecuentemente
para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada sector es proporcional a la frecuencia absoluta correspondiente.
Se representan los datos en un círculo, de
modo que la frecuencia de cada valor viene dada por un trozo de área del
círculo. Así, el círculo queda dividido en sectores cuya amplitud es
proporcional a las frecuencias de los valores. Sirve para representar cualquier
tipo de variable.
martes, 5 de febrero de 2013
lunes, 4 de febrero de 2013
Resumen Primera Semana
1.1 Introducción, votación, sumatoria
Habitualmente el propósito de
la Estadística Aplicada es el de sacar conclusiones de una población en
estudio, examinando solamente una parte de ella denominada muestra.
Este proceso, denominado Inferencia
Estadística, suele venir precedido de otro, denominado Estadística Descriptiva,
en el que los datos son ordenados, resumidos y clasificados con objeto de tener
una visión más precisa y conjunta de las observaciones, intentando descubrir de
esta manera posibles relaciones entre los datos, viendo cuales toman valores
parecidos, cuales difieren grandemente del resto, destacando hechos de posible
interés, etc.
También están entre los
objetivos de la Estadística Descriptiva el presentarlos de tal modo que
permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así
como estudiar si pueden mantenerse algunas suposiciones necesarias en
determinadas inferencias como la de simetría,, normalidad, homocedasticidad,
etc.
1.1.1
Datos no agrupados
Los datos son informaciones que uno obtiene de diversos
modos y para múltiples fines, por eso conforman un grupo tan amplio que da
lugar a numerosas categorizaciones. Al analizarlos y manipularlos, por ejemplo,
es posible reconocer dos grandes conjuntos dentro del campo de la estadística:
la de los datos agrupados y
la de los datos no agrupados.
Los datos no agrupados (también definidos
como datos sin agrupar) son referencias que se obtienen sin ningún
orden que, para tener sentido y demostrar coherencia entre todas ellas exigen
la elaboración de una tabla de frecuencias.
Los datos no agrupados son los datos sin procesar, y las
estadísticas correctas pueden ser determinadas. Los datos no agrupados son
usualmente el punto de inicio de los análisis.
Es el conjunto de datos obtenidos en la recopilación, una vez que
se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
1.1.2 Medidas de tendencia
central
Las medidas de tendencia central tienen como objetivo el sintetizar
los datos en un valor representativo, las medidas de dispersión nos dicen hasta
qué punto estas medidas de tendencia central son representativas como síntesis
de la información. Las medidas de dispersión cuantifican la separación, la
dispersión, la variabilidad de los valores de la distribución respecto al valor
central. Distinguimos entre medidas de dispersión absolutas, que no son
comparables entre diferentes muestras y las relativas que nos permitirán
comparar varias muestras.
Pero si hay dispersión en la mayoría de los datos,
y debemos estar en capacidad de describirla. Ya que la dispersión ocurre
frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la
variabilidad de una distribución empírica? Vamos a considerar sólo algunas
medidas de dispersión absolutas: el rango, la varianza, la desviación estándar
y el coeficiente de variación.
Media: Media aritmética, es la que se obtiene sumando los datos y
dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el
número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el
número promedio de controles prenatales que tiene una gestante.
Mediana: Corresponde al percentil 50%. Es decir, la mediana divide
a la población exactamente en dos. Por ejemplo el número mediana de hijos en el
centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de
atenciones por paciente en un consultorio.
Moda: Valor o (valores) que aparece(n) con mayor frecuencia. Una
distribución unimodal tiene una sola moda y una distribución bimodal tiene dos.
Útil como medida resumen para las variables nominales. Por ejemplo, el color
del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la
moda en colores del uniforme quirúrgico.
1.1.3 Medidas de posición
Son indicadores usados para señalar que porcentaje de
datos dentro de una distribución de frecuencias superan estas expresiones, cuyo
valor representa el valor del dato que se encuentra en el centro de la
distribución de frecuencia, por lo que también se les llama " Medidas de
Tendencia Central”.
Pero estas medidas de posición de una distribución de frecuencias
han de cumplir determinadas condiciones para que lean verdaderamente
representativas de la variable a la que resumen. Toda síntesis de una
distribución se considerara como operativa si intervienen en su determinación
todos y cada uno de los valores de la distribución, siendo única para cada
distribución de frecuencias y siendo siempre calculable y de fácil obtención. A
continuación se describen las medidas de posición más comunes utilizadas
en estadística, como lo son:
- Cuartiles: Hay 3
Cuartiles que dividen a una distribución en 4 partes iguales: primero,
segundo y tercer cuartil.
- Deciles: Hay 9
deciles que la dividen en 10 partes iguales: (primero al noveno decil).
- Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).
1.1.4 Medidas de dispersión
Las medidas
de dispersión, también llamadas medidas de variabilidad, muestran la
variabilidad de una distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy alejadas de la mediana media.
Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la mediana media. Así se sabe si todos los casos son parecidos
o varían mucho entre ellos.
Para calcular la variabilidad que una
distribución tiene respecto de su media, se calcula la media de las
desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma
de las desviaciones es siempre cero, así que se adoptan dos clases de
estrategias para salvar este problema. Una es tomando las desviaciones en valor
absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado
(Varianza).
Desviación Estándar: Llamada también desviación típica; es una
medida que informa sobre la media de distancias que tienen los datos respecto
de su media aritmética, expresada en las mismas unidades que la variable.
La Varianza: Es el valor de la desviación estándar al cuadrado; su
utilidad radica en que su valor es requerido para todos los procedimientos
estadístico.
Error Típico: Llamado también error estándar de la media. Se
refiere a una medida d variabilidad de la media; sirve para calcular cuan
dispersa estaría la media de realizar un nuevo cálculo.
1.1.5 Medidas de forma
Permiten comprobar si una distribución de
frecuencia tiene características especiales como simetría, asimetría, nivel de
concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo
particular de distribución. Se divide en 2 opciones:
1.
SESGO:
Propiedad de una muestra estadística que hace
que los resultados no sean representativos de toda la población.
2.
K-curtosis:
Esta medida determina el grado de
concentración que presentan los valores en la región central de la
distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración
normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
1.2
Datos agrupados
·
Su fin es resumir la información.
·
Generalmente, los elementos son
de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar,
clasificar y expresar los en una tabla de frecuencias.
·
Se agrupa a los datos, si se
cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de
verificarse que los datos n sean significativos, Esto es: que la información
sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse.
Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos
está pidiendo). Una vez que ya hemos ordenado y clasificado, presentaremos la
información obtenida mediante una” tabla de frecuencias”
· 4.- La agrupación de los datos puede ser simple o mediante
intervalos de clase.
1.2.1 Tabla de frecuencia
Una tabla de frecuencias (también conocida
como tabla de relaciones de frecuencias) es una tabla en la que se organizan
los datos en clases, es decir, en grupos de valores que escriben una
característica de los datos y muestra el número de observaciones del conjunto
de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato
numérico. En principio, en la tabla de frecuencias se detalla cada uno de los
valores diferentes en el conjunto de datos junto con el número de veces que
aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia
absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje
sobre el total de datos. En variables cuantitativas se distinguen por otra
parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un
histograma. Normalmente en el eje vertical se coloca las frecuencias y en el
horizontal los intervalos de valores.
1.2.2 Medidas de tendencia
central y de posición
Corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos. Forma como los datos pueden condensarse en un solo
valor central alrededor del cual todos los datos muéstrales se distribuyen. Las
más importantes son: Media: Aritmética y Aritmética ponderada. Mediana. Moda.
·
M EDIA A RITMÉTICA: Es la suma de
todas las observaciones dividida entre el número total de observaciones.
Expresada de forma más intuitiva, podemos decir que la media aritmética es la
cantidad total de la variable distribuida a partes iguales entre cada
observación. Por ejemplo, si en una habitación hay tres personas, la media de
dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero
de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la
media es una forma de resumir la información de una distribución (dinero en el
bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad
de la variable.
·
MEDIANA: Es el valor que ocupa la
posición central de un conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente. Divide al conjunto de datos en dos
partes iguales.
·
MODA. Observación o clase que
tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos
puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia
central que se puede determinar para datos de tipo cualitativo.
1.2.3 Medidas de dispersión
Así, las medidas de dispersión pueden definirse
como los valores numéricos cuyo objeto es analizar el grado de separación de
los valores de una serie estadística con respecto a las medidas de
tendencia central consideradas.
Las medidas de dispersión son de dos tipos:
- Medidas de
dispersión absoluta: como recorrido, desviación media,
varianza y desviación típica, que se usan en los análisis estadísticos generales.
- Medidas de
dispersión relativa: que determinan la dispersión de
la distribución estadística independientemente de las unidades en que se
exprese la variable. Se trata de parámetros más técnicos y utilizados en
estudios específicos, y entre ellas se encuentran los coeficientes de
apertura, el recorrido relativo, el coeficiente de variación (índice de
dispersión de Pearson) y el índice de dispersión mediana.
La distribución normal, o campana de Gauss, es una función
simétrica (con la media aritmética en el centro de la serie) con un grado de
dispersión bajo (la mayoría de los valores están comprendidos dentro del valor
de la desviación típica).
·
Recorrido
La medida de dispersión más inmediata es el recorrido de
la distribución estadística, también llamado rango o amplitud.
Dada una serie de valores x1, x2,..., xn, su
recorrido es la diferencia aritmética entre el máximo y el mínimo de estos
valores:
·
Desviación media
Como medida de dispersión más frecuentemente utilizada, la desviación
media se define como la media aritmética de los
valores absolutos de la desviación de cada valor de la variable con respecto a
la media. Su formulación matemática es
la siguiente:
·
Varianza y desviación típica
La desviación media no siempre suministra una idea clara del grado
de separación entre los valores de una variable estadística. Para estudios
científicos, se prefiere utilizar una pareja de parámetros relacionados que se
conocen como varianza y desviación típica. La varianza
se define como el cociente entre la suma de los cuadrados de las desviaciones
de los valores de la variable y el número de datos del estudio.
Matemáticamente, se expresa como:
Suscribirse a:
Comentarios (Atom)















