miércoles, 12 de diciembre de 2018

UNI D A D 1: Estadística descriptiva univariante

1 .- Introducción teórica 

Como elementos introductorios de este capítulo, es conveniente recordar definiciones de elementos importantes, ya desarrolladas en diferentes materiales como los libros referenciados 1, 2 y 3, tales como:

Población: Es el conjunto de elementos, individuos o los sujetos a estudio y de los que se quiere obtener un resultado.

Parámetro: Es una medida descriptiva de la población total, de todas las observaciones.

Muestra: Conjunto de elementos que forman parte de la población total a la que representa.

Tamaño de la muestra: Es el número de elementos u observaciones que forman la muestra.

Estadístico: Es una medida descriptiva de la muestra y que estima el parámetro de la población.

Variables cualitativas y cuantitativas

Las variables en las que únicamente es posible un recuento del número de elementos de la población o muestra que poseen una de sus modalidades se llaman variables cualitativas o atributos (libros referenciados 4, 8, 14 y 19).

 Las modalidades de estos tipos de variables ni siquiera admiten una gradación y mucho menos una medida numérica. Son variables como el sexo de una persona, la confesionalidad, etc. Las modalidades que pueden tomar se denominan categorías. Así, las categorías de la variable sexo son masculino y femenino.

El resto de variables  en  las  que,  además  de  admitir  el  recuento  del  número  de elementos de la población o muestra que poseen una de sus modalidades, también es posible asignarle una medida a la propia modalidad, se denominan variables cuantitativas. Son por ejemplo el peso, la altura, el sueldo mensual, el grado de dureza, etc.

Estas últimas variables, las cuantitativas, también pueden clasificarse en discretas y continuas. Una variable continua es aquella que puede tomar cualquier valor dentro de un rango dado. Independientemente de la proximidad de dos observaciones, si el instrumento de medida es suficientemente preciso, siempre se podrá encontrar una tercera observación entre las dos primeras.

Una variable discreta está limitada para ciertos valores, generalmente números enteros. Se diferencian de las continuas en que, dadas dos observaciones suficientemente próximas, no se puede encontrar ninguna observación de la variable entre ellas. 

Son ejemplos el número de hijos de las familias, el número de vehículos que tienen las empresas, el número de turistas que visitan un país, etc. 

La variable estadística se denota con mayúsculas. Asimismo, cada una de estas variables puede tomar distintos valores siendo su notación la siguiente: X = (x 1 , x 2 , x 3 ,..., x k-2 , x k-1 , x k )



Es importante remarcar que para calcular frecuencias acumuladas es necesario que las variables por estudiar sean ordenables, es decir, debe ser posible establecer una relación de orden entre las variables. En otros casos, no tiene ningún sentido realizar estos cálculos.

Estas  definiciones,  permiten  resumir  los  datos.  Sin embargo, la  manera  más adecuada para sintetizar los datos es mediante lo que se denomina tabla de frecuencias. En ella aparecen distribuidas los datos según las frecuencias. Al  mismo  tiempo  refleja  todos  los  conceptos  mencionados  con  anterioridad.

 En ocasiones el número de datos diferentes que se está estudiando es muy numeroso. Entonces, si se decidiera construir una tabla como la anterior, la columna relativa a las Xi sería muy extensa, únicamente hay que pensar en doscientos datos diferentes dentro de una recopilación de cuatrocientos.

La solución a esta cuestión consiste en agrupar los datos en intervalos o clases, de modo que cada dato pertenezca a uno y solo un intervalo. En consecuencia, los conceptos relativos a la frecuencia que hasta ahora se referían a los valores diferentes de los datos, al realizar la agrupación, deben hacer referencia a los intervalos.

Esta práctica, a pesar de que ayuda a resumir y clarificar la información, tiene en cambio un inconveniente: se pierde información sobre la propia distribución de datos. Al agruparlas en los intervalos los valores reales se «difuminan».



Sin embargo, en la literatura matemática es posible encontrar varias reglas para calcular el número adecuado de intervalos a partir del número de datos, como que no puede superar el 10 % del número total de datos o como el método de la raíz. Según este método el número de clases es igual a la raíz cuadrada del número de datos:

Gráficos estadísticos

Los gráficos también son muy útiles para describir los conjuntos de datos (referencias 15, 20 y 23). De hecho, un gráfico estadístico permite formarse una primera idea de la distribución de los datos tan solo con una observación. No obstante, hay que tener cuidado pues en algunas ocasiones los gráficos presentan «tendencias» no atribuibles al quehacer matemático.


Medidas de posición

Son coeficientes que tratan de representar una determinada distribución; pueden ser de dos tipos, centrales y no centrales.

Medidas Centrales

Media aritmética


Es el valor que habitualmente se toma como representación de los datos. Es la suma de todos los valores de la variable dividida entre el número total de elementos. Si los datos están agrupados, se toma la marca de la clase como representante del intervalo y se realizan todos los cálculos como si los valores de la variable fueran las marcas de las clases.







Se utiliza para calcular el valor medio de magnitudes expresadas en términos relativos como velocidades, tiempos, rendimiento, tipo de cambio monetario, etc. Su principal contrariedad es que cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.


 En muchas ocasiones, no es necesario aplicar la fórmula anterior. Únicamente hay que tener presente el concepto de media aritmética.

Mediana 

La mediana es el valor de la variable que divide las observaciones en dos grupos de igual número de elementos, de modo que en el primer grupo todos los datos sean menores o iguales que la mediana, y en el otro grupo, todos los datos sean mayores o iguales. Por lo tanto, es una cantidad que indica orden dentro de la ordenación.








Es evidente que lo que se pretende es calcular un representante del intervalo con el objeto de fijar la mediana en un valor. Una posibilidad hubiera sido considerar la marca de clase, sin embargo, el criterio usualmente más seguido no es este sino el de la fórmula antes mencionada.


 En esta fórmula en primer lugar se considera el supuesto de que los datos están uniformemente distribuidos dentro de cada intervalo. Teniendo este hecho en cuenta, se puede observar que la fórmula es una relación de proporcionalidad entre las posiciones que ocupan los valores de la variable y la amplitud de los intervalos.


Moda

Es el valor de la variable que más veces se repite, es decir, el valor que tiene mayor frecuencia absoluta. Pueden existir distribuciones con más de una moda: bimodales, trimodal, etc.




Del mismo modo que la mediana, la fórmula tiene el supuesto de que los datos están uniformemente repartidas dentro de cada intervalo. Además, siguiendo este criterio se puede observar que la moda estará más cerca de aquel intervalo adyacente con mayor frecuencia absoluta.

Medidas no Centrales

Percentiles o cuantiles

Son medidas de localización similares a la mediana. Su función es informar del valor de la variable que ocupará la posición (en tanto por ciento) que nos interese respecto de todo el conjunto de observaciones.


Podemos decir que los cuantiles son unas medidas de posición que dividen la distribución en un cierto número de partes.














Medidas de dispersión

Son complementarias de las de posición, en el sentido que señalan la dispersión del conjunto de todos los datos de la distribución, respecto de la medida o medidas de localización adoptadas.

Recorrido

Se define como la diferencia entre el mayor y menor valor de las variables de una distribución de datos, es decir:
Re = max  (x i ) − min( x i )


Recorrido intercuartílico

Se define como la distancia que hay entre el tercer y el primer cuartil, es decir:
Re = C 3 − C 1





Estos estadísticos tienen mucho interés en la Estadística Inferencial como se verá en capítulos posteriores.



Las medidas de dispersión absolutas son unos indicadores que presentan dificultades a la hora de comparar la representatividad de las medidas de tendencia central entre dos distribuciones de datos diferentes. Por ello, a veces se recurre a medidas de dispersión relativas.






Curtosis 

Para estudiar el grado de curtosis de una distribución hay que tomar un modelo teórico como referencia, la representación gráfica tenga forma de campana simétrica. No es extraño pues, que se tome el modelo normal, ya que, como ya se ha mencionado con anterioridad, se puede decir que es el modelo campaniforme por antonomasia.

De esta manera, tomando este modelo como referencia, se dice que una distribución es leptocúrtica si es más apuntada que la distribución normal. Si es menos apuntada se le llama platicúrtica.  Finalmente, si tiene el mismo apuntamiento que una distribución normal se le llama mesocúrtica.


Del mismo modo que en el caso del estudio de la asimetría, hay un coeficiente que permite clasificar los datos según la curtosis. En este caso, el coeficiente no es tan intuitivo, por lo que únicamente se dará la definición y su interpretación. Como en el caso de la otra medida de forma, este indicador tampoco tiene dimensión.




La idea del apuntamiento de una distribución de datos sale de la comparación de la frecuencia de los valores centrales de una distribución con la frecuencia de los valores centrales en un modelo teórico normal que tenga la misma media y la misma desviación típica que la distribución que se está estudiando.





Por último, debemos remarcar que el estudio de la curtosis  no implica necesariamente que las distribuciones sean simétricas. Así, por ejemplo, nos podríamos encontrar distribuciones de observaciones que sean leptocúrticas y, al mismo tiempo, asimétricas positivas.

Cajas y bigotes (Box-plot)

Un  diagrama  de  cajas  y  bigote  (conocido  también  como Box and whisker plot en inglés), es una representación gráfica de los datos que permite determinar con mucha facilidad y de una manera visual la tendencia central, la variabilidad, la asimetría  y  la  existencia  de  valores  anómalos  de  un  conjunto  de  observaciones ( outliers ). De alguna manera, se puede decir que es uno de los gráficos que más y mejor resumen los conjuntos de datos.

El diagrama de cajas emplea el resumen de los 5 números: la menor observación, la mayor observación, el primer cuartil, la mediana y el tercer cuartil.


Hay diferentes medidas de concentración, pero en el texto se va a estudiar el índice de Gini; por ser un coeficiente, será un valor numérico. Para obtenerlo es necesario realizar un conjunto de cálculos.








Por otra parte, si se representan gráficamente los q i  en el eje vertical y los p i  en la horizontal se obtendrá la curva de concentración o curva de Lorenz. Se puede comprobar que esta curva resultante siempre aparecerá «por debajo» de la diagonal del primer cuadrante, la cual representa la concentración mínima. Además, cuando más se aproxime esta curva a la diagonal, menor será la concentración.

A continuación, se desarrollará los objetivos y los ejercicios correspondientes a este capítulo. Cabe recordar que el material desarrollado y el resultado de algunos ejercicios son aplicaciones desarrolladas con el software R (referencias bibliográficas 13, 18 y 22).


No hay comentarios:

Publicar un comentario

TU COMENTARIO O SUGERENCIA NOS HARÁ CRECER

Translate