La estadística descriptiva es la rama de las matemáticas que está relacionada con la recolección, descripción e interpretación de un conjunto de datos muestrales, con el fin de describir de manera apropiada ese conjunto.
Términos Básicos
Población
Es la colección o conjunto de todos los individuos, personas, animales u objetos que aportan información sobre el fenómeno que se estudia, por lo cual, presentan características comunes.
Ejemplo:
Un almacén de cadena que dispone de 50 sucursales en el territorio nacional y ha observado la cantidad de empleados con que cuenta en cada una de ellas para adelantar un estudio posterior
Muestra
Corresponde a un subconjunto de casos o individuos de la población estadística.
Ejemplo:
La Secretaría de Educación del municipio de Bello requiere hacer un estudio sobre el consumo de licor en menores de edad en la ciudad. Dado que la población sería demasiado grande, debe escoger una muestra aleatoria representativa eligiendo jóvenes de ambos sexos, de todos los sectores y estratos para adelantar el estudio.
Variable estadística
Es cada una de las características o cualidades que poseen los individuos de una población en estudio.
ejemplo:
Peso, estatura, edad, sexo, etc.
Tipos de variables estadísticas
1. Variable cualitativa
Son características o cualidades que no pueden ser expresadas mediante números.
Ejemplo:
Color de los ojos, la piel, el cabello; sexo, nacionalidad, idioma, raza, etc.
2. Variable cuantitativa
Es aquella que se puede expresar mediante números.
Ejemplo:
Edad, estatura, peso, número de hijos, etc.
2.1. Variable cuantitativa discreta
Es aquella variable que sólo permite usar valores enteros y no admite valores intermedios o decimales.
Ejemplo:
Número de hermanos, cantidad de empleados, cantidad de profesores o de estudiantes en un colegio.
2.2. Variable cuantitativa continua
Este tipo de variable puede tomar valores decimales.
Ejemplo:
Peso, estatura, temperatura, etc.
Dato
Corresponde a cada uno de los valores que toma la variable.
Estudio de Variables Cualitativas
Se realizó un estudio estadístico en el grado décimo de la I.E.A.B. a los cuales se les preguntó por su color preferido, obteniendo los siguientes resultados:
verde amarillo salmón azul rojo vinotinto blanco negro salmón azul blanco verde vinotinto rojo negro blanco amarillo rojo verde negro azul blanco azul rojo blanco amarillo verde azul salmón blanco
Procedimiento:
Para proceder al análisis de este conjunto de datos es necesario elaborar una tabla de frecuencias
Tabla de Frecuencias
La tabla de frecuencias o de distribución de frecuencias permite mostrar la distribución de los datos mediante sus frecuencias. Esta herramienta permite representar numéricamente la distribución de frecuencias de los datos para facilitar su análisis.
Construcción de la Tabla de Frecuencias
Para construir la tabla de frecuencias es necesario tomar en cuenta lo siguiente:
1. Frecuencia Absoluta
Se representa como fi o ni, y corresponde al número de veces que se repite la variable estadística.
2. Frecuencia Acumulada
Se representa como fa o Ni, es la suma de todas las frecuencias absolutas anteriores.
3. Frecuencia Relativa
Se representa como fr, y es el cociente entre cada frecuencia absoluta y el número de datos.
4. Frecuencia Relativa Acumulada
Su representación es fra, y es el cociente entre la frecuencia acumulada y el número de datos (n).
Continuando con el estudio que hemos planteado, procedamos entonces a elaborar su tabla de frecuencias...
2. De igual forma se debe tener en cuenta el principio de redondeo.
Redondeo de cantidades decimales
El redondeo consiste en la aproximación de números decimales de acuerdo a las siguientes reglas:
Primer caso
Se presenta cuando se pide redondear un número a x cantidad de decimales y la cifra decimal siguiente es mayor que 5, entonces se procede a redondear al siguiente decimal.
Ejemplos:
Redondear las siguientes cantidades:
a) 0.657894 a tres decimales
Como el cuarto decimal es 8, entonces, se procede a redondear el 7 a 8, quedando; 0.658
b) 0.329736 a cinco decimales
El sexto decimal es 6, y 6 es mayor que 5, por lo tanto, el 3 se aumenta a 4, quedando 0.32974
Segundo caso
Se da cuando el siguiente decimal al que ocupa la posición a la cual se pide redondear es menor que 5. En ese caso de redondea el decimal sin hacer cambios.
Ejemplos:
Redondear las siguientes cantidades:
a) 0.00457684525 a 9 decimales
Como el decimal que ocupa la posición 10, que es (2) es menor que 5, entonces, se escribe el números hasta la posición pedida sin hacerle cambios. y queda: 0.004576845
b) 0.36836241 a 6 decimales
Observamos que el séptimo decimal es 4, y 4<5, por lo tanto, queda: 0.368362
Tercer caso
Sucede cuando el siguiente decimal al que ocupa la posición a la cual se pide redondear, es 5. En este caso, se toma como referencia el decimal que ocupa la posición anterior a la cual se pide redondear, si este es impar, se incrementa al siguiente decimal; si es par, se deja como está.
Ejemplos:
b) 93.84732916582584 a 8 decimales
El decimal que ocupa la novena posición es 5, por lo tanto, miramos el decimal que ocupa la séptima posición y este es 1, dado que es impar, se aumenta al siguiente decimal de la siguiente forma: 93.84732917
Estudio de Variables Cuantitativas
Para analizar variables cuantitativas es necesario tener en cuenta el tamaño de la muestra para el ordenamiento y tratamiento de la información, cuando el número de datos es inferior a 20, es posible hacer el estudio sin formar intervalos de clase, de manera directa, a este proceso se le llama tratamiento de datos no agrupados.
Datos No Agrupados
Como se ha dicho anteriormente, cuando la muestra es menor a 20 datos (n<20), es aconsejable utilizar el procedimiento de datos no agrupados.
Análisis de Datos No Agrupados
1. Medidas de Centralización
1.1. Moda
Es el dato que más se repite en un estudio estadístico. Se representa como Mo.
1.2. Mediana
Una vez ordenados los datos de menor a mayor, la mediana es el dato que se encuentra en el centro. Se representa como Me, Md o según el texto.
Para n par
Cuando el número de datos (n) es par, el cálculo se hace de la siguiente forma:
Para proceder al análisis de este conjunto de datos es necesario elaborar una tabla de frecuencias
Tabla de Frecuencias
La tabla de frecuencias o de distribución de frecuencias permite mostrar la distribución de los datos mediante sus frecuencias. Esta herramienta permite representar numéricamente la distribución de frecuencias de los datos para facilitar su análisis.
Para construir la tabla de frecuencias es necesario tomar en cuenta lo siguiente:
Se representa como fi o ni, y corresponde al número de veces que se repite la variable estadística.
2. Frecuencia Acumulada
Se representa como fa o Ni, es la suma de todas las frecuencias absolutas anteriores.
3. Frecuencia Relativa
Se representa como fr, y es el cociente entre cada frecuencia absoluta y el número de datos.
4. Frecuencia Relativa Acumulada
Su representación es fra, y es el cociente entre la frecuencia acumulada y el número de datos (n).
Continuando con el estudio que hemos planteado, procedamos entonces a elaborar su tabla de frecuencias...
Para proceder al análisis, tanto las frecuencias relativas como las frecuencias relativas acumuladas, se multiplican por 100 para obtener los porcentajes.
Conclusiones
Para este tipo de análisis estadísticos que incluyen variables cualitativas, el único dato que se puede obtener es la moda, que corresponde al dato que más se repite.
La moda o Mo, corresponde al color blanco que es el color que tiene la mayor frecuencia absoluta.
Algunas afirmaciones que se pueden hacer son las siguientes:
- El 10% de los estudiantes, que equivale a 3, prefieren el color amarillo.
- El 13% de los estudiantes, que equivale a 4, prefiere el color rojo.
- El 20% de los estudiantes, que equivale a 6, prefiere el color blanco.
Notas importantes
1. Es importante tener en cuenta que la suma de las frecuencias relativas debe ser 1.2. De igual forma se debe tener en cuenta el principio de redondeo.
Redondeo de cantidades decimales
El redondeo consiste en la aproximación de números decimales de acuerdo a las siguientes reglas:
Primer caso
Se presenta cuando se pide redondear un número a x cantidad de decimales y la cifra decimal siguiente es mayor que 5, entonces se procede a redondear al siguiente decimal.
Ejemplos:
Redondear las siguientes cantidades:
a) 0.657894 a tres decimales
Como el cuarto decimal es 8, entonces, se procede a redondear el 7 a 8, quedando; 0.658
b) 0.329736 a cinco decimales
El sexto decimal es 6, y 6 es mayor que 5, por lo tanto, el 3 se aumenta a 4, quedando 0.32974
Segundo caso
Se da cuando el siguiente decimal al que ocupa la posición a la cual se pide redondear es menor que 5. En ese caso de redondea el decimal sin hacer cambios.
Ejemplos:
Redondear las siguientes cantidades:
a) 0.00457684525 a 9 decimales
Como el decimal que ocupa la posición 10, que es (2) es menor que 5, entonces, se escribe el números hasta la posición pedida sin hacerle cambios. y queda: 0.004576845
b) 0.36836241 a 6 decimales
Observamos que el séptimo decimal es 4, y 4<5, por lo tanto, queda: 0.368362
Tercer caso
Sucede cuando el siguiente decimal al que ocupa la posición a la cual se pide redondear, es 5. En este caso, se toma como referencia el decimal que ocupa la posición anterior a la cual se pide redondear, si este es impar, se incrementa al siguiente decimal; si es par, se deja como está.
Ejemplos:
Redondear las siguientes cantidades:
a) 27.86743685023 a 7 decimales
Dado que el decimal de la octava posición es 5, entonces, miramos el decimal que ocupa la sexta posición, este es 8 que es un número par, por lo que el decimal no sufriría cambios, quedando: 27.8674368
a) 27.86743685023 a 7 decimales
Dado que el decimal de la octava posición es 5, entonces, miramos el decimal que ocupa la sexta posición, este es 8 que es un número par, por lo que el decimal no sufriría cambios, quedando: 27.8674368
b) 93.84732916582584 a 8 decimales
El decimal que ocupa la novena posición es 5, por lo tanto, miramos el decimal que ocupa la séptima posición y este es 1, dado que es impar, se aumenta al siguiente decimal de la siguiente forma: 93.84732917
Estudio de Variables Cuantitativas
Para analizar variables cuantitativas es necesario tener en cuenta el tamaño de la muestra para el ordenamiento y tratamiento de la información, cuando el número de datos es inferior a 20, es posible hacer el estudio sin formar intervalos de clase, de manera directa, a este proceso se le llama tratamiento de datos no agrupados.
Datos No Agrupados
Como se ha dicho anteriormente, cuando la muestra es menor a 20 datos (n<20), es aconsejable utilizar el procedimiento de datos no agrupados.
Análisis de Datos No Agrupados
1. Medidas de Centralización
1.1. Moda
Es el dato que más se repite en un estudio estadístico. Se representa como Mo.
1.2. Mediana
Una vez ordenados los datos de menor a mayor, la mediana es el dato que se encuentra en el centro. Se representa como Me, Md o según el texto.
Para n par
Cuando el número de datos (n) es par, el cálculo se hace de la siguiente forma:
Es decir, se divide el número de datos entre 2 y obtenemos la posición del primer dato a considerar, luego, al resultado de la división le sumamos 1 y obtenemos la posición del segundo dato para promediarlos.
Ejemplo:
Disponemos de las edades de 6 estudiantes:
10, 10, 11, 13,13, 12
Primero debemos ordenar los datos de menor a mayor
10, 10, 11, 12, 13, 13
La mediana sería:
n/2 = 6/2 = 3, la posición 3 está ocupada por 11 años
Para obtener la posición del segundo dato, a 3 le sumamos 1.
3 + 1 = 4, que es la posición del segundo dato a considerar, y esta es ocupada por 12 años.
Me = (11 + 12)/2 = 23/2 = 11.5 años
Para n impar
Cuando n es impar, se utiliza el siguiente concepto:
Ejemplo:
Se dispone de la estatura en metros, de 7 estudiantes.
1.70, 1.68, 1.74, 1.72, 1.69, 1.71, 1.69
Ordenando los datos:
1.68, 1.69, 1.69, 1.70, 1.71, 1.72, 1.74
Para hallar la posición del dato que corresponde a la mediana, dividimos:
(n + 1)/2,
(7 + 1)/2 = 8/2 = 4
La posición 4 está ocupada por el dato que corresponde a 1.70 metros y esta es la Mediana.
1.3. Media Aritmética o Promedio
Equivale a la sumatoria de todos los datos (Xi), multiplicados por sus frecuencias absolutas fi.
Aquí hay más
Tomado Ministerio de Educación de Chile:
2. Medidas de localización o de posición
Para referirse a las medidas de localización, es necesario hablar de cuantiles, que son medidas de posición que se definen mediante un método que determina la ubicación de los valores que se encuentran en las divisiones de partes iguales en un estudio estadístico. Los principales cuantiles son los siguientes:
2.1. Cuartiles
Los cuartiles corresponden a 3 valores que dividen en 4 partes iguales al conjunto de datos ordenados. Se denotan como Q1, Q2 y Q3, cada una de las 4 partes que forman equivale al 25% de los datos, siendo el segundo cuartil coincidente con la mediana.
Para su cálculo se procede de la siguiente forma:
1. Para número de datos (n) par
Q(x)= (#Q * n) /4
2. Para número de datos (n) impar
Q(x) = [#Q * (n+1)] / 4
2.2. Deciles
Corresponden a 9 valores que dividen en 10 partes iguales el conjunto de datos ordenados. Se representan como D1, D2, D3, D4........D9.
1. Para número de datos (n) par
D(x) = (#D * n) /10
2. Para número de datos (n) impar
D(x) = [#D * (n+1)] / 10
2.3. Percentiles
Corresponden a 99 valores que dividen en 100 partes iguales el conjunto de datos ordenados. Se representan como P1, P2, P3, P4........P99.
1. Para número de datos (n) par
P(x) = (#P * n) /100
2. Para número de datos (n) impar
P(x) = [#P * (n+1)] /100
3. Medidas de Dispersión o Variabilidad
Las medidas de dispersión o de variabilidad incluyen la desviación media, la varianza y la desviación estándar. Estos valores numéricos describen la dispersión o variabilidad que se encuentra entre los datos: datos bastante agrupados poseen valores relativamente pequeños y datos mayormente dispersos tienen valores más grandes. Se dice que cuando los datos carecen de dispersión, su agrupamiento es más estrecho. La finalidad primordial de estas medidas es informar sobre cuanto se alejan del centro los valores de la distribución.
3.1. Desviación Media
Corresponde a la sumatoria del valor absoluto de la diferencia entre cada valor de la variable estadística y la media aritmética, multiplicada esta diferencia por la frecuencia absoluta de cada dato y todo esto dividido entre el número de datos (n ó N).
3.2. Varianza
Es la media aritmética del cuadrado de las distribuciones respecto a la media de una distribución estadística. Su finalidad es la de medir la distancia entre los valores de la serie y la media.
3.3. Desviación Típica ó Estándar
Corresponde a la desviación promedio de cada dato respecto a la media. Corresponde a la solución positiva de la raíz cuadrada de la varianza. Comúnmente se representa con la letra S o la letra griega sigma σ.
Propiedades de la Desviación Típica
Más para estudiar
Tomado Ministerio de Educación de Chile: http://www.educarchile.cl/ech/pro/app/detalle?id=209007
Vamos a la aplicación de estos conceptos en la vida cotidiana ......
Se realizó un estudio estudio estadístico a 18 estudiantes del curso de tecnología del grado décimo de la IEAB sobre las notas definitivas obtenidas en el segundo periodo de 2016, encontrándose los siguientes resultados:
1. Diseñe la tabla de frecuencias
2. Calcule las medidas de centralización, de localización y de dispersión,
3. Concluya
Solución:
Ordenando los datos de menor a mayor, quedan de la siguiente forma:
1.8 2.1 2.3 2.6 3.0 3.1 3.1 3.3 3.4 3.4 3.5 3.5 4.0 4.2 4.2 4.3 4.4 4.5
1. Tabla de frecuencias
En este caso, se redondearon 3 valores por debajo y 3 por encima de la nota de 3 de las frecuencias relativa y acumulada, para lograr que la sumatoria de las frecuencias relativas sea 1.
A continuación veremos y desarrollaremos los distintos tipos de gráficos en nuestro estudio:
Diagramas Estadísticos
Una gráfica es la representación de datos, generalmente numéricos, mediante líneas, superficies o símbolos, para ver la relación que esos datos guardan entre sí. Sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno. Las gráficas se clasifican en los siguientes tipos:
Diagrama de Barras
También conocido como gráfico de columnas, es un gráfico que se utiliza para representar datos de variables cualitativas o discretas. Está formado por barras rectangulares cuya altura es proporcional a la frecuencia de cada uno de los valores de la variable.
El siguiente es el diagrama de barras de nuestro estudio:
Diagrama Circular
El diagrama circular es también conocido como diagrama de sectores, diagrama de pastel o de torta y sirve para representar variables cualitativas o discretas. Se utiliza para se utilizan para mostrar porcentajes y proporciones.
Consiste en dividir el círculo en porciones proporcionales a la frecuencia relativa. La porción corresponde a la parte del círculo que representa a cada valor que toma la variable.
Este es el diagrama circular de nuestro análisis:
Diagrama de Ojiva
Un diagrama de ojiva es una gráfica construida con segmentos de líneas rectas que unen los puntos obtenidos al colocar el eje horizontal a los Xi y en el vertical a las frecuencias acumuladas absolutas o relativas; con el fin de que la ojiva comience desde el eje X, se hará necesario comenzar con el límite inferior de la primera clase o intervalo.
A continuación, el diagrama de ojiva de nuestro estudio:
Polígono de frecuencias
Este tipo de gráfico permite la rápida visualización de las frecuencias de cada una de las categorías del estudio. Puede realizarse con la frecuencia absoluta o la relativa y sus valores se representan mediante puntos que van unidos por segmentos.
Este es el correspondiente a nuestro análisis:
Diagrama de Caja y Bigotes
Es un gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes.
Aquí, el correspondiente a nuestro estudio estadístico:
2. Medidas
2.1. Medidas de Tendencia Central
2.1.1. Moda
Para el caso particular tenemos una distribución multimodal, pues tenemos 4 modas constituidas por los datos 3.1, 3.4, 3.5 y 4.2.
2.2.2. Mediana
N es par, por lo tanto,
2.2.3. Media Aritmética o Promedio
En promedio, los estudiantes obtuvieron una calificación de 3.37
2.3. Localización o Posición
2.3.1. Cuartiles
1. El 25% de los estudiantes que equivale a aproximadamente 5, obtuvo una calificación máxima de 3.0.
2. El 50% de los estudiantes que equivale a aproximadamente 10, obtuvo una nota máxima de 3.4.
3. El 75% de los estudiantes que equivale a aproximadamente 14, obtuvo una nota máxima de 4.2.
2.3.2. Deciles
1. El 20% de los estudiantes que equivale a aproximadamente 4, obtuvo como máximo una nota de 2.6.
2. El decil 5 corresponde con la mediana y con el cuartil 2 y su valor es 3.4.
3. El 70% de los estudiantes que equivale a aproximadamente 13, obtuvo una nota máxima de 4.0.
2.3.3. Percentiles
Los percentiles 25, 50 y 75, corresponden respectivamente a los cuartiles Q1, Q2 y Q3.
2.4. Medidas de Dispersión o de Variabilidad
2.4.1. Desviación Media
2.4.2. Varianza y Desviación típica o Estándar
ESTUDIO DE DATOS AGRUPADOS
Un estudio estadístico se adelanta usando datos agrupados cuando la muestra corresponde a 20 datos o más. Se agrupan los datos en intervalos de clase para facilitar su análisis.
Aparecen otros términos relacionados con este procedimiento, como son los siguientes:
Intervalos de clase
Se emplean en estudios con variables continuas o con una gran cantidad de datos, para este procedimiento, los datos se agrupan en intervalos que tienen la misma amplitud y se denominan clases. Cada clase debe estar referenciada con sus respectivas frecuencias.
Para calcular el número de intervalos que se deberá utilizar en un estudio estadístico, algunos utilizan la raíz cuadrada de los datos, pero para una mayor precisión, se debe utilizar la regla de Sturges, cuya ecuación es:
I = 1 + 3.3. log (n), donde n es el número de datos
Rango
Corresponde al intervalo entre el valor máximo y el mínimo; por esta razón, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto. Para obtenerlo, se resta el dato menor (dm) al dato mayor (Dm).
Ran = Dm - dm
Amplitud
Es la diferencia entre el límite superior y el límite inferior de la clase. Se representa con la letra A.
A = Ran / I
Nuevo rango
Su función es la de garantizar que todos los datos queden cubiertos por el estudio estadístico. Para este propósito, se debe cubrir un poco más por debajo del valor mínimo y un poco poco más por encima del valor máximo. Lo representaremos como Nr.
Una vez se ha calculado la amplitud y el número de intervalos, usamos estos valores para calcular el nuevo rango.
A = Ran / I, A * I = Nr
Marca de Clase
Es el punto medio de la clase. Se representa como Mi.
Mi = (Ls + Li) / 2
Límites de la clase
Cada intervalo está delimitado por un límite superior (Ls) y por un límite inferior (Li).
CÁLCULOS PARA DATOS AGRUPADOS
Medidas de centralización
Media Aritmética
Mediana
Moda
Medidas de Localización o Posición
Cuartiles
Deciles
Percentiles
Medidas de Dispersión o Variabilidad
Desviación Media
Varianza
Desviación Típica o Estándar
Vamos a la aplicación...
Se realizó un estudio estadístico a los estudiantes de los grados 10-1 y 10-2 de la IEAB, a los cuales se les preguntó por su peso, obteniendo los siguientes resultados:
Rango
Ran = Dm - dm
Ran = 97.8 - 37.05 = 60.75 Kg
Intervalos de Clase
I = 1 + 3.3 log (n)
I = 1 + 3.3. log (60) = 6.87, Aproximadamente 7
I = 7
Cuando el número de datos es impar, se redondea al entero por la parte baja, si n es par, se redondea a la alta, es decir, al siguiente entero.
Amplitud
A = Ran / I
A = 60.75 / 7 = 8.68
Se aproxima al siguiente decimal, si hubiese sido un entero, se aproximaría al siguiente:
A = 8.69
Nuevo Rango
De la fórmula
A = Ran / I, nos queda
R = A * I, donde, Nr = A * I
Nr = 8.69 * 7 = 60.83
Nr = 60.83 - 60.75 = 0.08
Al Nr se le resta el primer rango obtenido
Ahora, se divide 0.08 entre 2, que son los extremos superior en inferior para saber cuanto le vamos a restar al dato menor y cuanto le vamos a sumar al dato mayor
0.08 / 2 = 0.04
Es decir 0.04 por debajo y por encima de los datos menor y mayor respectivamente.
Así, Para construir la tabla de frecuencias, al dato menor que es 37.05, le restamos 0.04
37.05 - 0.04 = 37.01
Aquí iniciará la primera clase y sucesivamente le iremos adicionando el valor de la amplitud.
Importante...
Recuerda el concepto de intervalos cerrados y abiertos, en los primeros, los límites hacen parte del conjunto y en los segundos, no.
Marca de Clase
La marca de clase se obtiene promediando el límite superior con el límite inferior:
Mi = (Ls + Li) / 2
Así, obtenemos la siguiente tabla de distribución de frecuencias:
Tabla de Frecuencias
Medidas de Centralización
Media Aritmética o Promedio
Mediana
Moda
Para hallar la moda, se debe tener en cuenta el intervalo con la frecuencia absoluta mayor, que para el caso es [45.70-54.39), que tiene una fi = 15.
Medidas de Localización o Posición
Cuartiles
Deciles
Percentiles
Medidas de Dispersión o Variabilidad
Desviación Media
Varianza
Desviación típica o Estándar
No hay comentarios:
Publicar un comentario