1.1 Introducción, votación, sumatoria
Habitualmente el propósito de
la Estadística Aplicada es el de sacar conclusiones de una población en
estudio, examinando solamente una parte de ella denominada muestra.
Este proceso, denominado Inferencia
Estadística, suele venir precedido de otro, denominado Estadística Descriptiva,
en el que los datos son ordenados, resumidos y clasificados con objeto de tener
una visión más precisa y conjunta de las observaciones, intentando descubrir de
esta manera posibles relaciones entre los datos, viendo cuales toman valores
parecidos, cuales difieren grandemente del resto, destacando hechos de posible
interés, etc.
También están entre los
objetivos de la Estadística Descriptiva el presentarlos de tal modo que
permitan sugerir o aventurar cuestiones a analizar en mayor profundidad, así
como estudiar si pueden mantenerse algunas suposiciones necesarias en
determinadas inferencias como la de simetría,, normalidad, homocedasticidad,
etc.
1.1.1
Datos no agrupados
Los datos son informaciones que uno obtiene de diversos
modos y para múltiples fines, por eso conforman un grupo tan amplio que da
lugar a numerosas categorizaciones. Al analizarlos y manipularlos, por ejemplo,
es posible reconocer dos grandes conjuntos dentro del campo de la estadística:
la de los datos agrupados y
la de los datos no agrupados.
Los datos no agrupados (también definidos
como datos sin agrupar) son referencias que se obtienen sin ningún
orden que, para tener sentido y demostrar coherencia entre todas ellas exigen
la elaboración de una tabla de frecuencias.
Los datos no agrupados son los datos sin procesar, y las
estadísticas correctas pueden ser determinadas. Los datos no agrupados son
usualmente el punto de inicio de los análisis.
Es el conjunto de datos obtenidos en la recopilación, una vez que
se han recopilado los datos, el siguiente paso consiste en organizarlos
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
Cuando la muestra que se ha tomado de la población o proceso que se desea analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no agrupados.
1.1.2 Medidas de tendencia
central
Las medidas de tendencia central tienen como objetivo el sintetizar
los datos en un valor representativo, las medidas de dispersión nos dicen hasta
qué punto estas medidas de tendencia central son representativas como síntesis
de la información. Las medidas de dispersión cuantifican la separación, la
dispersión, la variabilidad de los valores de la distribución respecto al valor
central. Distinguimos entre medidas de dispersión absolutas, que no son
comparables entre diferentes muestras y las relativas que nos permitirán
comparar varias muestras.
Pero si hay dispersión en la mayoría de los datos,
y debemos estar en capacidad de describirla. Ya que la dispersión ocurre
frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la
variabilidad de una distribución empírica? Vamos a considerar sólo algunas
medidas de dispersión absolutas: el rango, la varianza, la desviación estándar
y el coeficiente de variación.
Media: Media aritmética, es la que se obtiene sumando los datos y
dividiéndolos por el número de ellos. Se aplica por ejemplo para resumir el
número de pacientes promedio que se atiende en un turno. Otro ejemplo, es el
número promedio de controles prenatales que tiene una gestante.
Mediana: Corresponde al percentil 50%. Es decir, la mediana divide
a la población exactamente en dos. Por ejemplo el número mediana de hijos en el
centro de salud “X” es dos hijos. Otro ejemplo es el número mediana de
atenciones por paciente en un consultorio.
Moda: Valor o (valores) que aparece(n) con mayor frecuencia. Una
distribución unimodal tiene una sola moda y una distribución bimodal tiene dos.
Útil como medida resumen para las variables nominales. Por ejemplo, el color
del uniforme quirúrgico en sala de operaciones es el verde; por lo tanto es la
moda en colores del uniforme quirúrgico.
1.1.3 Medidas de posición
Son indicadores usados para señalar que porcentaje de
datos dentro de una distribución de frecuencias superan estas expresiones, cuyo
valor representa el valor del dato que se encuentra en el centro de la
distribución de frecuencia, por lo que también se les llama " Medidas de
Tendencia Central”.
Pero estas medidas de posición de una distribución de frecuencias
han de cumplir determinadas condiciones para que lean verdaderamente
representativas de la variable a la que resumen. Toda síntesis de una
distribución se considerara como operativa si intervienen en su determinación
todos y cada uno de los valores de la distribución, siendo única para cada
distribución de frecuencias y siendo siempre calculable y de fácil obtención. A
continuación se describen las medidas de posición más comunes utilizadas
en estadística, como lo son:
- Cuartiles: Hay 3
Cuartiles que dividen a una distribución en 4 partes iguales: primero,
segundo y tercer cuartil.
- Deciles: Hay 9
deciles que la dividen en 10 partes iguales: (primero al noveno decil).
- Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).
1.1.4 Medidas de dispersión
Las medidas
de dispersión, también llamadas medidas de variabilidad, muestran la
variabilidad de una distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy alejadas de la mediana media.
Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la mediana media. Así se sabe si todos los casos son parecidos
o varían mucho entre ellos.
Para calcular la variabilidad que una
distribución tiene respecto de su media, se calcula la media de las
desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma
de las desviaciones es siempre cero, así que se adoptan dos clases de
estrategias para salvar este problema. Una es tomando las desviaciones en valor
absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado
(Varianza).
Desviación Estándar: Llamada también desviación típica; es una
medida que informa sobre la media de distancias que tienen los datos respecto
de su media aritmética, expresada en las mismas unidades que la variable.
La Varianza: Es el valor de la desviación estándar al cuadrado; su
utilidad radica en que su valor es requerido para todos los procedimientos
estadístico.
Error Típico: Llamado también error estándar de la media. Se
refiere a una medida d variabilidad de la media; sirve para calcular cuan
dispersa estaría la media de realizar un nuevo cálculo.
1.1.5 Medidas de forma
Permiten comprobar si una distribución de
frecuencia tiene características especiales como simetría, asimetría, nivel de
concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo
particular de distribución. Se divide en 2 opciones:
1.
SESGO:
Propiedad de una muestra estadística que hace
que los resultados no sean representativos de toda la población.
2.
K-curtosis:
Esta medida determina el grado de
concentración que presentan los valores en la región central de la
distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración
normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
1.2
Datos agrupados
·
Su fin es resumir la información.
·
Generalmente, los elementos son
de mayor tamaño, por lo cual requieren ser agrupados, esto implica: ordenar,
clasificar y expresar los en una tabla de frecuencias.
·
Se agrupa a los datos, si se
cuenta con 20 o más elementos. Aunque contemos con más de 20 elementos, debe de
verificarse que los datos n sean significativos, Esto es: que la información
sea “repetitiva”, también debemos de verificar que los datos puedan clasificarse.
Y que dicha clasificación tiene coherencia y lógica (de acuerdo a lo que se nos
está pidiendo). Una vez que ya hemos ordenado y clasificado, presentaremos la
información obtenida mediante una” tabla de frecuencias”
· 4.- La agrupación de los datos puede ser simple o mediante
intervalos de clase.
1.2.1 Tabla de frecuencia
Una tabla de frecuencias (también conocida
como tabla de relaciones de frecuencias) es una tabla en la que se organizan
los datos en clases, es decir, en grupos de valores que escriben una
característica de los datos y muestra el número de observaciones del conjunto
de datos que caen en cada una de las clases.
La tabla de frecuencias ayuda a agrupar cualquier tipo de dato
numérico. En principio, en la tabla de frecuencias se detalla cada uno de los
valores diferentes en el conjunto de datos junto con el número de veces que
aparece, es decir, su frecuencia absoluta. Se puede complementar la frecuencia
absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje
sobre el total de datos. En variables cuantitativas se distinguen por otra
parte la frecuencia simple y la frecuencia acumulada.
La tabla de frecuencias puede representarse gráficamente en un
histograma. Normalmente en el eje vertical se coloca las frecuencias y en el
horizontal los intervalos de valores.
1.2.2 Medidas de tendencia
central y de posición
Corresponden a valores que generalmente se ubican en la parte
central de un conjunto de datos. Forma como los datos pueden condensarse en un solo
valor central alrededor del cual todos los datos muéstrales se distribuyen. Las
más importantes son: Media: Aritmética y Aritmética ponderada. Mediana. Moda.
·
M EDIA A RITMÉTICA: Es la suma de
todas las observaciones dividida entre el número total de observaciones.
Expresada de forma más intuitiva, podemos decir que la media aritmética es la
cantidad total de la variable distribuida a partes iguales entre cada
observación. Por ejemplo, si en una habitación hay tres personas, la media de
dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero
de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la
media es una forma de resumir la información de una distribución (dinero en el
bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad
de la variable.
·
MEDIANA: Es el valor que ocupa la
posición central de un conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente. Divide al conjunto de datos en dos
partes iguales.
·
MODA. Observación o clase que
tiene la mayor frecuencia en un conjunto de observaciones. Un conjunto de datos
puede ser unimodal, bimodal o multimodal. Es la única medida de tendencia
central que se puede determinar para datos de tipo cualitativo.
1.2.3 Medidas de dispersión
Así, las medidas de dispersión pueden definirse
como los valores numéricos cuyo objeto es analizar el grado de separación de
los valores de una serie estadística con respecto a las medidas de
tendencia central consideradas.
Las medidas de dispersión son de dos tipos:
- Medidas de
dispersión absoluta: como recorrido, desviación media,
varianza y desviación típica, que se usan en los análisis estadísticos generales.
- Medidas de
dispersión relativa: que determinan la dispersión de
la distribución estadística independientemente de las unidades en que se
exprese la variable. Se trata de parámetros más técnicos y utilizados en
estudios específicos, y entre ellas se encuentran los coeficientes de
apertura, el recorrido relativo, el coeficiente de variación (índice de
dispersión de Pearson) y el índice de dispersión mediana.
La distribución normal, o campana de Gauss, es una función
simétrica (con la media aritmética en el centro de la serie) con un grado de
dispersión bajo (la mayoría de los valores están comprendidos dentro del valor
de la desviación típica).
·
Recorrido
La medida de dispersión más inmediata es el recorrido de
la distribución estadística, también llamado rango o amplitud.
Dada una serie de valores x1, x2,..., xn, su
recorrido es la diferencia aritmética entre el máximo y el mínimo de estos
valores:
·
Desviación media
Como medida de dispersión más frecuentemente utilizada, la desviación
media se define como la media aritmética de los
valores absolutos de la desviación de cada valor de la variable con respecto a
la media. Su formulación matemática es
la siguiente:
·
Varianza y desviación típica
La desviación media no siempre suministra una idea clara del grado
de separación entre los valores de una variable estadística. Para estudios
científicos, se prefiere utilizar una pareja de parámetros relacionados que se
conocen como varianza y desviación típica. La varianza
se define como el cociente entre la suma de los cuadrados de las desviaciones
de los valores de la variable y el número de datos del estudio.
Matemáticamente, se expresa como:





Integrantes del equipo:
ResponderEliminarAlan Garcia
Hugo Avila
Javier Mezano
Jorge Lira
Irvin Santillan
Daniel