viernes, 19 de febrero de 2016

Medidas de tendencia central

Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un sistema de valores. Representan un centro en torno al cual se encuentra ubicado el sistema de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda.


Los procedimientos para obtener las medidas de tendencia central difieren dependiendo de la forma en que se encuentren los datos. Si los datos se encuentran ordenados en una tabla de frecuencias, diremos que se encuentran “agrupados” y si los datos no están en una tabla de frecuencias, hablaremos de datos “no agrupados”.

Hagamos primero el estudio de las medidas de tendencia central para datos no agrupados y luego para datos agrupados..


Medidas de tendencia central en datos no agrupados


Media (también conocida como Media Aritmética o Promedio). Es el dato más representativo del sistema; su símbolo es x. Se calcula:
Ejemplo

Las siguientes son las edades de 7 niños:: 3, 5, 6, 8, 9, 9,9. En promedio, ¿qué edad tienen esos niños?

Solución: x=(3+5+6+8+9+9+9) / 7x=7. El promedio de edad es 7 años.

Promedio ponderado. Es una forma un poco más compleja de calcular la media, pero de gran utilidad práctica; es una medida más exacta para obtener resultados de diversos datos con diferentes pesos o grados de importancia. Suele utilizarse en situaciones de calificaciones escolares y otros datos estadísticos. Su cálculo viene dado por:

Ejemplo

En un grupo de 27 estudiantes, 25 de ellos tienen en promedio nota de 3.0 en Ciencias Naturales. Los dos faltantes tienen nota de 4.5 cada uno. ¿Cuál es el promedio del curso? Piensa unos minutos cómo solucionarlo y luego compara con la respuesta correcta.


Solución: x=( (25*3.0)+(4.5*2)  )/ 27x=3.1


Un error frecuente es hacer lo siguiente: x=(3.0+4.5) / 2 y decir que x=3.75. ¿Comprendes por qué es erróneo este procedimiento? Si no lo logras, puedes pedirle explicación a tu profesor.

Para datos agrupados se calcula así:
Ejemplo: Podemos utilizar alguna de las tablas de frecuencias para datos agrupados ya realizadas, por ejemplo, la Tabla 2 realizada en la sección Gráficos→ Histograma, añadiendo una columna de x como se muestra en la siguiente tabla (ver Tabla 1):
Tabla 1
De la tabla anterior, se obtiene que x=49.6→ En promedio, los estudiantes obtuvieron 49.6 puntos en la prueba que realizaron. 

Mediana. La mediana es el valor que ocupa el lugar central entre todos los valores del sistema de datos, ya sea que estén agrupados o no agrupados. Se simboliza como Me.


Para datos no agrupados se calcula de la siguiente forma:

Si n es par: Me= ( X(n/2) + X(n/2)+1 ), en otras palabras, es la media de los dos datos centrales cuando los datos están ordenados.

Si n es impar: Me=  X(n+1) / 2 , esta fórmula sirve para determinar la posición que ocupa el dato central cuando los datos están ordenados.
Recuerda que n es el número total de datos de la muestra.

Ejemplos

  • El siguiente sistema de datos representa el número de libros que han leído 7 estudiantes de Univalle encuestados aleatoriamente: 2, 3, 4, 5, 8, 5, 3. Calcular la mediana de esos datos.
Solución: Hay dos formas de hacerlo

  1. Ordenándolos de menor a mayor: 2  3  3  4  5  5  8. Se observa que el dato central es 4, por tanto Me=4
  2. Aplicando la fórmula dada se obtiene la posición del dato que ocupa el lugar central, así:

Me= X(n+1) / 2 Me= X(7+1) / 2 Me= X4, lo que indica que el dato que ocupa el lugar central está en la posición 4 (ya sea que se mire de izquierda a derecha o de derecha a izquierda); así, el dato que ocupa la posición número 4 es 4 (no significa que siempre sea así, fue una coincidencia); luego, esto corrobora que Me=4

  • El siguiente sistema de datos representa las notas de un examen final de Geografía de estudiantes de grado octavo, de un colegio de la ciudad: 4.2, 4.9, 4 4, 3.3, 2.3, 2.7, 2.5, 2.6, 2.6, 2.5, 4.0, 2.8, 2.5, 2.5. Calcular la mediana de esos datos.

Solución. Como el número total de datos de la muestra es par (14), para calcular la mediana se hace lo siguiente:

  1. Ordenarlos de menor a mayor → 2.3, 2.5, 2.5, 2.5, 2.5, 2.6, 2.6, 2.7, 2.8, 3.3, 4, 4, 4.2, 4.9
  2. Identificar los dos datos centrales y calcular la media de éstos →

2.3, 2.5, 2.5, 2.5, 2.5, 2.6, 2.6, 2.7, 2.8, 3.3, 4, 4, 4.2, 4.9. Observe que una manera de hacerlo es subrayar la misma cantidad de datos tanto de izquierda a derecha, como de derecha a izquierda, y entonces los dos datos que queden sin subrayar serán los dos datos centrales a los cuales se les calcule la media, así:

x=(2.6+2.7) / 2x=2.65. (Note que este valor está entre 2.6 y 2.7). Entonces, la mediana de las notas finales del examen de Geografía es Me=2.65

Para datos agrupados:

Se sabe que la mediana representa el 50% de los datos, es decir, 0,5 = H(Li-1) + hi*(Me - (Li-1) ), y al despejar Me se obtiene Me= ( 0,5 + hi*(Li-1) - H(Li-1) ) / hi*, y simplificando un poco más se obtiene: Me=( ( 0,5 - H(Li-1) ) / hi* ) + Li-1, donde

  • H(Li-1) es la frecuencia relativa acumulada de la clase anterior de donde se encuentra el 50% de los datos, es decir, si por ejemplo, el 50% de los datos está en la clase 4 (es decir H4 es igual o superior a 0,5), entonces H(Li-1) será la frecuencia relativa acumulada de la clase 3
  • hi* es el cociente entre la frecuencia relativa de la clase donde está el 50% de los datos, y el ancho de clase de ese mismo intervalo, es decir, hi* = hi / Ci (valores tomados de la clase donde está el 50% de los datos) y
  • Li-1 es el límite inferior de la clase donde está el 50% de los datos.

Ejemplo. Retomemos la Tabla 1 para calcular su mediana.

Observa que:

  • el 50% de los datos, es decir, el 0,5 de la frecuencia relativa acumulada se encuentra en la clase 3 (intervalo (40 - 60] ), por lo tanto, se toma la frecuencia relativa acumulada de la clase 2 (intervalo (20 - 40] ), que es 0,28;
  • la frecuencia relativa de la clase 3 (que es donde está el 50% de los datos) es 0,42 y el ancho de esa clase es 20; por lo tanto, hi* es el cociente entre 0.42 y 20, es decir, hi* = 0.42 / 20 → hi*= 0.021 y
  • el límite inferior de la clase 3 es 40, es decir, Li-1 = 40

Con los datos anteriores, ya podemos aplicar la fórmula de la mediana para datos agrupados, así:

Me= ( ( 0.5 - 0.28 ) / 0.021 ) + 40 → Me= (0.22 / 0.021) + 40 → Me= 10.47 + 40 →  Me= 50.47. Nota que este dato, efectivamente se encuentra en la clase 3, pues 50.47 está entre (40 - 60]. Así, la mediana de la Tabla 1 es 50.47, lo que significa que el 50% de los estudiantes obtuvieron 50.47 puntos o menos.


Moda. La moda de un sistema de datos es el dato que más veces se repite, es decir, es aquel dato que tiene la mayor frecuencia absoluta. Se denota por Mo.

Para datos no agrupados. La moda corresponde al dato con mayor frecuencia absoluta, o en otras palabras, es el dato que más veces se repite. En caso de existir dos valores que tengan la mayor frecuencia absoluta, se dirá que hay dos modas. Por otro lado, también puede ocurrir que la moda no exista, es decir, cuando todos los datos son distintos (ninguno se repite) se dice que no hay moda.

Ejemplo. El siguiente sistema de datos representa las edades de 18 personas que llegaron en horas de la mañana a un cajero automático de un centro comercial de la ciudad: 38, 35, 30, 35, 39, 35, 36, 31, 36, 35, 35, 34, 30, 36, 36, 30, 35, 34. Calcular la moda de esos datos.

Solución. Una manera de hacerlo, es relacionando estos datos en una tabla (ver Tabla 3), así:
Tabla 3


El dato con mayor frecuencia absoluta es 35, es decir, la edad más frecuente o más común de las personas que llegaron al cajero automático es 35 años.














Para datos agrupados.  Cuando los datos están agrupados por intervalos (en una tabla de frecuencias), no se puede determinar directamente cuál es la moda; lo que sí es posible, es identificar la clase con la mayor frecuencia absoluta, pues ahí estará la moda. Para su cálculo se utiliza la siguiente fórmula:

Mo= Li-1 + [ (ni - ni-1) / ( (ni - ni-1) + (ni + ni+1) ) ] * Ci, donde:


  • Li-1 es el límite inferior de la clase con la mayor frecuencia absoluta,
  • ni - ni-1 es la diferencia entre la  frecuencia absoluta de la clase donde está la moda y la frecuencia absoluta de la clase anterior de donde se encuentra la moda, es decir, si por ejemplo, la clase 4 tiene la mayor frecuencia absoluta, eso indica que la moda está en esa clase (intervalo), y entonces ni-1 será la frecuencia absoluta de la clase 3, y
  • ni + ni+1 es la suma de la frecuencia absoluta de la clase donde está la moda y la frecuencia absoluta de la clase siguiente de donde se encuentra la moda, es decir -considerando el ejemplo anterior- como la moda está en la clase 4, ni+1 será la frecuencia absoluta de la clase 5 y
  • Ci es el ancho de la clase donde está la moda, es decir -considerando el ejemplo anterior- como la moda está en la clase 4, Ci será el ancho de la clase 4.

Ejemplo. Retomemos nuevamente la Tabla 1 para calcular su moda.
Tabla 1

Observa que:


  • la clase (intervalo) con la mayor frecuencia absoluta es la clase 3 ( (40 - 60] ), lo que indica, que la moda está en ese intervalo. Entonces debemos conocer el dato exacto que representa la moda. Para ello encontremos los datos que se requieren para aplicar la fórmula de la moda para datos agrupados, así:

  • el límite inferior de la clase 3 (intervalo (40 - 60] ) es 40,

  • ni=42 pues es la frecuencia absoluta de la clase 3 ( (40 - 60] ) que es donde se encuentra la moda.
  • ni-1 = 16 pues es la frecuencia absoluta de la clase 2 (intervalo (20 - 40] ),
  • ni+1 = 25 pues es la frecuencia absoluta de la clase 4 (intervalo (60 - 80] ) y
  • Ci=20 pues es el ancho de la clase 3.


Con los datos anteriores ya podemos aplicar la fórmula de la moda para datos agrupados, así:


Mo=  40 + [ (42 - 16) / ( (42 - 16) + (42 + 25 ) ) ] * 20
Mo= 40 + [ (26) / (26 + 67) ] * 20Mo= 40 + [ 26 / 93 ] * 20Mo= 40 + (0.28)*(20) → Mo= 40 + 5.6 → Mo= 45.6. Así, la moda de la Tabla 1 es 45.6, lo que significa que el puntaje más frecuente de los estudiantes fue 45.6 puntos.



Pero aquí no finalizan los procedimientos para hallar las Medidas de tendencia central.; estas también se pueden calcular a partir de ciertos gráficos estadísticos. Examinemos cómo se calculan la media y la moda a partir de un histograma de frecuencias y un diagrama de barras, tanto en datos agrupados como en datos no agrupados.



Para datos no agrupados.


  • Media. Dado el diagrama de barras, se hace lo siguiente para calcular la media (o promedio): se multiplica el valor de cada clase por su frecuencia absoluta correspondiente, se suman estos resultados y se dividen entre el número total de datos.


Ejemplo. Retomemos el siguiente diagrama de barras trabajado anteriormente y calculemos la media.
Entonces se hace lo siguiente:


x= [ (4*1) + (5*2) + (6*3) + (7*5) + (8*7) + (9*2) + (10*4) + (11*1) ] / 25
x= [ 4 + 10 + 18 + 35 + 56 + 18 + 40 + 11 ] / 25
x= 192 / 25 → x= 7.68, lo que significa que en promedio llegaron 7.68 clientes al banco por minuto.

Moda. Dado el diagrama de barras, se identifica la clase con la mayor frecuencia absoluta. Considerando el ejemplo anterior, la clase con la mayor frecuencia absoluta es la clase 8, es decir, el número de clientes que llegaron al banco en 1 minuto con mayor frecuencia fue 8.




Para datos agrupados.

  • Media. Dado el histograma de frecuencias, se hace lo siguiente para calcular la media (o promedio): para cada clase (intervalo) se halla la marca de clase, y ese valor se multiplica con la frecuencia absoluta correspondiente. Luego se suman todos los resultados y se dividen entre el número total de datos, y será el valor será la media.
Ejemplo. Retomemos el siguiente histograma de frecuencias trabajado anteriormente y calculemos la media.
Entonces se hace lo siguiente:


(33.5+38.5) / 2 = 36 → 36*13 = 468


(38.5+43.5) / 2 = 41 → 41*9 = 369


(43.5+48.5) / 2 = 46 → 46*7 = 322


(48.5+53.5) / 2 = 51 → 51*19 = 969


(53.5+58.5) / 2 = 56 → 56*10 = 560


(58.5+63.5) / 2 = 61 → 61*19 = 1159
(63.5+68.5) / 2 = 66 → 66*13 = 858


(68.5+73.5) / 2 = 71 → 71*7 = 497


(73.5+78.5) / 2 = 76 → 76*9 = 836


(78.5+83.5) / 2 = 81 → 81*11 = 891


(83.5+88.5) / 2 = 86 → 86*10 = 860


(88.5+93.5 ) /2 = 91 → 91*11 = 1001


(93.5+98.5) / 2 = 96 → 96*10 = 960


x = [ 468 + 369 + 322 + 969 + 560 + 1159 + 858 + 497 + 836 + 891 + 860 + 1001 + 960 ] / 147

x= [ 9750 ] / 147 → x=66.32, lo que significa que en promedio el peso de las cargas entregadas por los caficultores es de 66.32 kg.




¿Y cómo podemos calcular la mediana tanto para datos agrupados como para datos no agrupados? Averigualo y halla la mediana de los ejemplos propuestos anteriormente (usa el diagrama de barras para datos no agrupados y el histograma para datos agrupados. Consigna en una hoja los resultados que encuentres y entrégasela a tu profesor.





Referencias:
  • Díaz, D (2015). Apuntes del curso Análisis Exploratorio de Datos y Estadística. Universidad del Valle - IEP - AEM.



No hay comentarios:

Publicar un comentario