1 .- Introducción teórica
Como elementos introductorios de este
capítulo, es conveniente recordar definiciones de elementos importantes, ya
desarrolladas en diferentes materiales como los libros referenciados 1, 2 y 3,
tales como:
Población: Es el conjunto de elementos,
individuos o los sujetos a estudio y de los que se quiere obtener un resultado.
Parámetro: Es una medida descriptiva de la
población total, de todas las observaciones.
Muestra: Conjunto de elementos que forman
parte de la población total a la que representa.
Tamaño de la muestra: Es el número de elementos u
observaciones que forman la muestra.
Estadístico: Es una medida descriptiva de la
muestra y que estima el parámetro de la población.
Variables cualitativas y cuantitativas
Las variables en las que únicamente es posible un recuento
del número de elementos de la población o muestra que poseen una de sus
modalidades se llaman variables cualitativas o atributos (libros referenciados
4, 8, 14 y 19).
Las modalidades de estos tipos de variables ni siquiera admiten
una gradación y mucho menos una medida numérica. Son variables como el sexo de
una persona, la confesionalidad, etc. Las modalidades que pueden tomar se
denominan categorías. Así, las categorías de la variable sexo son masculino y
femenino.
El resto de variables
en las que,
además de admitir
el recuento del
número de elementos de la población
o muestra que poseen una de sus modalidades, también es posible asignarle una
medida a la propia modalidad, se denominan variables cuantitativas. Son por
ejemplo el peso, la altura, el sueldo mensual, el grado de dureza, etc.
Estas últimas variables, las cuantitativas, también pueden
clasificarse en discretas y continuas. Una variable continua es aquella que
puede tomar cualquier valor dentro de un rango dado. Independientemente de la
proximidad de dos observaciones, si el instrumento de medida es suficientemente
preciso, siempre se podrá encontrar una tercera observación entre las dos
primeras.
Una variable discreta está limitada para ciertos valores,
generalmente números enteros. Se diferencian de las continuas en que, dadas dos
observaciones suficientemente próximas, no se puede encontrar ninguna
observación de la variable entre ellas.
Son ejemplos el número de hijos de las
familias, el número de vehículos que tienen las empresas, el número de turistas
que visitan un país, etc.
La variable estadística se denota con mayúsculas.
Asimismo, cada una de estas variables puede tomar distintos valores siendo su
notación la siguiente: X = (x 1 , x 2 , x 3 ,..., x k-2 , x k-1 , x k )
Es importante remarcar que para calcular frecuencias
acumuladas es necesario que las variables por estudiar sean ordenables, es decir, debe ser posible establecer una relación de
orden entre las variables. En otros casos, no tiene ningún sentido realizar estos
cálculos.
Estas definiciones, permiten
resumir los datos.
Sin embargo, la manera más adecuada para sintetizar los datos es
mediante lo que se denomina tabla de frecuencias. En ella aparecen distribuidas
los datos según las frecuencias. Al
mismo tiempo refleja
todos los conceptos
mencionados con anterioridad.
En ocasiones el número
de datos diferentes que se está estudiando es muy numeroso. Entonces, si se
decidiera construir una tabla como la anterior, la columna relativa a las Xi sería
muy extensa, únicamente hay que pensar en doscientos datos diferentes dentro de
una recopilación de cuatrocientos.
La solución a esta cuestión consiste en agrupar los datos en
intervalos o clases, de modo que cada dato pertenezca a uno y solo un
intervalo. En consecuencia, los conceptos relativos a la frecuencia que hasta
ahora se referían a los valores diferentes de los datos, al realizar la
agrupación, deben hacer referencia a los intervalos.
Esta práctica, a pesar de que ayuda a resumir y clarificar la
información, tiene en cambio un inconveniente: se pierde información sobre la
propia distribución de datos. Al agruparlas en los intervalos los valores
reales se «difuminan».
Sin embargo, en la literatura matemática es posible encontrar
varias reglas para calcular el número adecuado de intervalos a partir del
número de datos, como que no puede superar el 10 % del número total de datos o
como el método de la raíz. Según este método el número de clases es igual a la
raíz cuadrada del número de datos:
Los gráficos también son muy útiles para describir los
conjuntos de datos (referencias 15, 20 y 23). De hecho, un gráfico estadístico
permite formarse una primera idea de la distribución de los datos tan solo con
una observación. No obstante, hay que tener cuidado pues en algunas ocasiones
los gráficos presentan «tendencias» no atribuibles al quehacer matemático.
Medidas de posición
Son coeficientes que tratan de representar una determinada
distribución; pueden ser de dos tipos, centrales y no centrales.
Medidas Centrales
Media aritmética
Es el valor que habitualmente se toma como representación de
los datos. Es la suma de todos los valores de la variable dividida entre el
número total de elementos. Si los datos están agrupados, se toma la marca de la
clase como representante del intervalo y se realizan todos los cálculos como si
los valores de la variable fueran las marcas de las clases.
Se utiliza para calcular el valor medio de magnitudes
expresadas en términos relativos como velocidades, tiempos, rendimiento, tipo
de cambio monetario, etc. Su principal contrariedad es que cuando algún valor
de la variable es 0 o próximo a cero no se puede calcular.
En muchas ocasiones,
no es necesario aplicar la fórmula anterior. Únicamente hay que tener presente
el concepto de media aritmética.
Mediana
Es evidente que lo que se pretende es calcular un
representante del intervalo con el objeto de fijar la mediana en un valor. Una
posibilidad hubiera sido considerar la marca de clase, sin embargo, el criterio
usualmente más seguido no es este sino el de la fórmula antes mencionada.
En esta fórmula en
primer lugar se considera el supuesto de que los datos están uniformemente
distribuidos dentro de cada intervalo. Teniendo este hecho en cuenta, se puede
observar que la fórmula es una relación de proporcionalidad entre las
posiciones que ocupan los valores de la variable y la amplitud de los
intervalos.
Moda
Es el valor de la variable que más veces se repite, es decir,
el valor que tiene mayor frecuencia absoluta. Pueden existir distribuciones con
más de una moda: bimodales, trimodal, etc.
Del mismo modo que la mediana, la fórmula tiene el supuesto
de que los datos están uniformemente repartidas dentro de cada intervalo.
Además, siguiendo este criterio se puede observar que la moda estará más cerca
de aquel intervalo adyacente con mayor frecuencia absoluta.
Medidas no
Centrales
Percentiles o cuantiles
Son medidas de localización similares a la mediana. Su
función es informar del valor de la variable que ocupará la posición (en tanto
por ciento) que nos interese respecto de todo el conjunto de observaciones.
Podemos
decir que los cuantiles son unas medidas de posición que dividen la
distribución en un cierto número de partes.
Medidas de dispersión
Son complementarias de las de posición, en el sentido que
señalan la dispersión del conjunto de todos los datos de la distribución,
respecto de la medida o medidas de localización adoptadas.
Recorrido
Se define como la diferencia entre el mayor y menor valor de
las variables de una distribución de datos, es decir:
Re = max (x i ) − min(
x i )
Recorrido
intercuartílico
Se define como la distancia que hay entre el tercer y el
primer cuartil, es decir:
Re = C 3 − C 1
Estos estadísticos tienen mucho interés en la Estadística
Inferencial como se verá en capítulos posteriores.
Las medidas de dispersión absolutas son unos indicadores que
presentan dificultades a la hora de comparar la representatividad de las
medidas de tendencia central entre dos distribuciones de datos diferentes. Por
ello, a veces se recurre a medidas de dispersión relativas.
Curtosis
Para estudiar el grado de curtosis de una distribución hay
que tomar un modelo teórico como referencia, la representación gráfica tenga
forma de campana simétrica. No es extraño pues, que se tome el modelo normal,
ya que, como ya se ha mencionado con anterioridad, se puede decir que es el
modelo campaniforme por antonomasia.
De esta manera, tomando este modelo como referencia, se dice
que una distribución es leptocúrtica si es más apuntada que la distribución
normal. Si es menos apuntada se le llama platicúrtica. Finalmente, si tiene el mismo apuntamiento que
una distribución normal se le llama mesocúrtica.
Del mismo modo que en el caso del estudio de la asimetría,
hay un coeficiente que permite clasificar los datos según la curtosis. En este
caso, el coeficiente no es tan intuitivo, por lo que únicamente se dará la
definición y su interpretación. Como en el caso de la otra medida de forma, este
indicador tampoco tiene dimensión.
La idea del apuntamiento de una distribución de datos sale de
la comparación de la frecuencia de los valores centrales de una distribución
con la frecuencia de los valores centrales en un modelo teórico normal que
tenga la misma media y la misma desviación típica que la distribución que se
está estudiando.
Por último, debemos remarcar que el estudio de la
curtosis no implica necesariamente que
las distribuciones sean simétricas. Así, por ejemplo, nos podríamos encontrar
distribuciones de observaciones que sean leptocúrticas y, al mismo tiempo,
asimétricas positivas.
Cajas y bigotes (Box-plot)
Un diagrama de
cajas y bigote
(conocido también como Box and whisker plot en inglés), es una
representación gráfica de los datos que permite determinar con mucha facilidad
y de una manera visual la tendencia central, la variabilidad, la asimetría y
la existencia de
valores anómalos de
un conjunto de
observaciones ( outliers ). De alguna manera, se puede decir que es uno
de los gráficos que más y mejor resumen los conjuntos de datos.
El diagrama de cajas emplea el resumen de los 5 números: la
menor observación, la mayor observación, el primer cuartil, la mediana y el
tercer cuartil.
Hay diferentes medidas de concentración, pero en el texto se
va a estudiar el índice de Gini; por ser un coeficiente, será un valor
numérico. Para obtenerlo es necesario realizar un conjunto de cálculos.
Por otra parte, si se representan gráficamente los q i en el eje vertical y los p i en la horizontal se obtendrá la curva de
concentración o curva de Lorenz. Se puede comprobar que esta curva resultante
siempre aparecerá «por debajo» de la diagonal del primer cuadrante, la cual
representa la concentración mínima. Además, cuando más se aproxime esta curva a
la diagonal, menor será la concentración.
A continuación, se desarrollará los objetivos y los
ejercicios correspondientes a este capítulo. Cabe recordar que el material
desarrollado y el resultado de algunos ejercicios son aplicaciones
desarrolladas con el software R (referencias bibliográficas 13, 18 y 22).
No hay comentarios:
Publicar un comentario
TU COMENTARIO O SUGERENCIA NOS HARÁ CRECER