Bienvenido!

Para hacer uso de éste blog, solo tienes que seleccionar el tema en la barra ubicada en el lado derecho (click sobre el link).



Fundación Desarrollar País

Estadística I

COMPETENCIA

Abordar la variabilidad de un conjunto de datos que pertenecen a una muestra y que representan a su población a través de métodos descriptivos y analíticos que los lleve a la toma de decisiones con una visión prospectiva y responsable, y con capacidad de analizar, interpretar, argumentar datos específicos y presentar informes que permita la toma de decisiones más objetiva, en su área profesional y desarrollo laboral, con base a procedimientos técnicos para describir conjunto de medidas.

OBJETIVOS

GENERAL

Adquirir a través de una fundamentación básica y el uso adecuado de algunas técnicas estadísticas, que le permita al estudiante la capacidad de conceptuar y aplicar las diferentes medidas estadísticas y presentar el análisis sobre las mismas.

ESPECÍFICOS
  • Aplicar los conceptos de la estadística descriptiva, mediante la recopilación y análisis de información, en la solución de problemas reales, con actitud responsable y ordenada.
  • Aplicar diferentes procedimientos para estimar parámetros poblacionales que le permitan tomar decisiones adecuadas en los problemas que se le presenten de manera razonable y sintética.
  • Seleccionar propositivamente un procedimiento de decisión para inferir acerca de un sistema con base a la información obtenida y posteriormente hacer predicciones de tal sistema.
  • Mostrar una relación que haga posible predecir una variable en términos de otra a través del análisis de situaciones reales de forma ordenada y creativa.


TEMA 1
CONCEPTOS Y GENERALIDADES

La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilados a partir de otros datos numéricos.

Diferentes estadísticos a través del tiempo han desarrollado variadas definiciones o conceptos del término estadística. Así tenemos:

• Según el portal de internet www.wikipedia.org: La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales.
• Según los matemáticos Yale y Kendal: “La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos”.

Para nuestro modulo dejaremos como trabajo de investigación del estudiante, la búsqueda y análisis de otras definiciones de estadística.

CLASIFICACIÓN DE LA ESTADÍSTICA

La estadística se divide en dos ramas:

• La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clusters, etc.

• La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos.

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc.

FINALIDAD DE LA ESTADÍSTICA.

Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadística para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras áreas. La estadística es entendida generalmente no como un sub-área de las matemáticas sino como una ciencia diferente "aliada". Muchas universidades tienen departamentos académicos de matemáticas y estadística separadamente. La estadística se enseña en departamentos tan diversos como psicología, educación y salud pública.

Al aplicar la estadística a un problema científico, industrial o social, se comienza con un proceso o población a ser estudiado. Esta puede ser la población de un país, de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.

Por razones prácticas, en lugar de compilar datos de una población entera, usualmente se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia.

TÉRMINOS Y CONCEPTOS QUE SE DEBEN CONOCER Y MANEJAR.

El concepto de correlación es particularmente valioso. Análisis estadísticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la población bajo consideración) tienden a variar conjuntamente, como si hubiera una conexión entre ellas. Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podrían resultar en que personas pobres tienden a tener vidas más cortas que personas de mayor ingreso. Las dos variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la existencia de una relación de causalidad entre las dos variables. El fenómeno correlacionado podría ser la causa de un tercero, previamente no considerado, llamado variable confundida.

Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. Un problema mayor es el de determinar que tan representativa es la muestra extraída. La estadística ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos, así como métodos para diseñar experimentos robustos como primera medida, ver diseño experimental.

El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadística matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el análisis matemático para examinar las bases teóricas de la estadística.

PROYECCIÓN Y PREPARACIÓN DE INVESTIGACIONES ESTADÍSTICAS.

Un objetivo común para un proyecto de investigación estadística es investigar la causalidad, y en particular extraer una conclusión en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadísticos para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo.

Un estudio experimental implica tomar mediciones del sistema bajo estudio, manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las mediciones. En contraste, un estudio observacional no necesita manipulación experimental. Por el contrario, los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas.

Un ejemplo de un estudio experimental es el famoso experimento de Hawthorne el cual pretendía probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminación en un ambiente de trabajo, la producción de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminación en un área de la planta para ver si cambios en la iluminación afectarían la productividad. La productividad mejoró bajo todas las condiciones experimentales. Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, específicamente la falta de un grupo control y seguimiento.

Un ejemplo de un estudio observacional es un estudio que explora la correlación entre fumar y el cáncer de pulmón. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del área de interés y luego produce un análisis estadístico. En este caso, los investigadores recogerían observaciones de fumadores y no fumadores y luego mirarían los casos de cáncer de pulmón en ambos grupos.

Los pasos básicos para un experimento son:

• Planeamiento estadístico de la investigación, lo cual incluye encontrar fuentes de información, selección de material disponible en el área y consideraciones éticas para la investigación y el método propuesto. Se plantea un problema de estudio,
• Diseñar el experimento concentrándose en el modelo y la interacción entre variables independientes y dependientes. Se realiza un muestreo consistente en la recolección de datos referentes al fenómeno o variable que deseamos estudiar. Se propone un modelo de probabilidad, cuyos parámetros se estiman mediante estadísticos a partir de los datos de muestreo. Sin embargo, se mantiene lo que se denominan "hipótesis sostenidas" (que no son sometidas a comprobación). Se valida el modelo comparándolo con lo que sucede en la realidad. Se utiliza métodos estadísticos conocidos como test de hipótesis o prueba de significación.

• Se producen estadísticas descriptivas.

• Inferencia estadística. Se llega a un consenso acerca de qué dicen las observaciones acerca del mundo que observamos.
• Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se produce un reporte final con los resultados del estudio.

RECOLECCIÓN.

La recolección de datos se refiere al uso de una gran diversidad de técnicas y herramientas que pueden ser utilizadas por el analista para desarrollar los sistemas de información, los cuales pueden ser la entrevistas, la encuesta, el cuestionario, la observación, el diagrama de flujo y el diccionario de datos.

Todos estos instrumentos se aplicarán en un momento en particular, con la finalidad de buscar información que será útil a una investigación en común. En la presente investigación trata con detalle los pasos que se debe seguir en el proceso de recolección de datos, con las técnicas ya antes nombradas.

Técnicas para hallar datos. Los analistas utilizan una variedad de métodos a fin de recopilar los datos sobre una situación existente, como entrevistas, cuestionarios, inspección de registros (revisión en el sitio) y observación. Cada uno tiene ventajas y desventajas. Generalmente, se utilizan dos o tres para complementar el trabajo de cada una y ayudar a asegurar una investigación completa

CRÍTICA Y CODIFICACIÓN.

Codificar los datos significa asignarles un valor numérico que los represente. Es decir, a las categorías de cada ítem y variable se les asignan valores numéricos que tienen un significado. Por ejemplo, si tuviéramos la variable "sexo" con sus respectivas categorías, "masculino" y "femenino", a cada categoría le asignaríamos un valor. Éste podría ser:

Categoría Codificación (valor asignado)

• Masculino 1
• Femenino 2

Así, Carolina Malangón en la variable sexo sería un "2". Luis Gerardo Vera y Rubén Reyes serían un "1", Verónica Barrios un "2" y así sucesivamente.

Otro ejemplo sería la variable "horas de exposición diaria a la televisión", que podría codificarse de la siguiente manera:

Categoría Codificación (valor asignado)
• No ve televisión 0
• Menos de una hora 1
• Una hora 2
• Más de un hora, pero menos de dos 3
• Dos horas 4
• Más de dos horas, pero menos de tres 5
• Tres horas 6
• Más de tres horas, pero menos de cuatro 7
• Cuatro horas 8
• Más de cuatro horas 9

Es necesario insistir que cada ítem y variable deberán tener una codificación (códigos numéricos) para sus categorías. Desde luego, hay veces que un ítem no puede ser codificado a priori (precodificado) porque es sumamente difícil conocer cuáles serán sus categorías. Por ejemplo, si en una investigación fuéramos a preguntar: "¿Qué opina del programa económico que recientemente aplico el gobierno?" Las categorías podrían ser muchas más de las que nos imaginemos y resultaría difícil predecir con precisión cuantas y cuales serán. En estos casos la codificación se lleva a cabo una vez que se aplica el ítem (a posteriori).

La codificación es necesaria para analizar cuantitativamente los datos (aplicar análisis estadístico). A veces se utilizan letras o símbolos en lugar de números (*, A, Z).

TABULACIÓN O PROCESAMIENTO.

El procedimiento mediante el cual se realiza el conteo, para así determinar el número de veces que cada dato (codificado) se repite, recibe el nombre de tabulación.

NIVELES DE MEDICIÓN.

Hay cuatro tipos de mediciones o escalas de medición en estadística. Los cuatro tipos de niveles de medición (nominal, ordinal, intervalo y razón) tienen diferentes grados de uso en la investigación estadística. Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningún rango interpretable entre sus valores.

La escala de medida nominal, puede considerarse la escala de nivel más bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de “orden” de los números. La escala de intervalos iguales está caracterizada por una unidad de medida común y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significan ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.

TEMA 2
ESTADÍSTICA DESCRIPTIVA


La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estas variables.

Las variables pueden ser de dos tipos:

1. Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
2. Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).

Las variables también se pueden clasificar en:

a) Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase).

b) Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).

c) Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

a. Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3...., etc., pero, por ejemplo, nunca podrá ser 3,45).

b. Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

a. Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

b. Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.

c. Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

DISTRIBUCIÓN DE FRECUENCIA

La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
X1 n1 n1 f1 = n1 / n f1
X2 n2 n1 + n2 f2 = n2 / n f1 + f2
... ... ... ... ...
Xn-1 nn-1 n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1
Xn nn  n fn = nn / n  f

Siendo X los distintos valores que puede tomar la variable.

Siendo n el número de veces que se repite cada valor.

Siendo f el porcentaje que la repetición de cada valor supone sobre el total

Ejemplo 1: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados expresados en centímetros (cm):

Alumno Estatura Alumno Estatura Alumno Estatura
Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21
Alumno 2 1,28 Alumno 12 1,26 Alumno 22 1,29
Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26
Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22
Alumno 5 1,22 Alumno 15 1,28 Alumno 25 1,28
Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27
Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26
Alumno 8 1,24 Alumno 18 1,25 Alumno 28 1,23
Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22
Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia:

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada

x x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.

Distribuciones de frecuencia agrupada

Ejemplo 2. Supongamos que medimos la estatura de los habitantes de una vivienda familiar y obtenemos los siguientes resultados (cm):

Habitante Estatura Habitante Estatura Habitante Estatura

x x x x x x
Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21
Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59
Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86
Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52
Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48
Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37
Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16
Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73
Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62
Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01

Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información

En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e informativa:

Estatura Frecuencias absolutas Frecuencias relativas

Cm Simple Acumulada Simple Acumulada

1,01 - 1,10 1 1 3,3% 3,3%
1,11 - 1,20 3 4 10,0% 13,3%
1,21 - 1,30 3 7 10,0% 23,3%
1,31 - 1,40 2 9 6,6% 30,0%
1,41 - 1,50 6 15 20,0% 50,0%
1,51 - 1,60 4 19 13,3% 63,3%
1,61 - 1,70 3 22 10,0% 73,3%
1,71 - 1,80 3 25 10,0% 83,3%
1,81 - 1,90 2 27 6,6% 90,0%
1,91 - 2,00 3 30 10,0% 100,0%

El número de tramos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más tramos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla.



TEMA 3
MEDIDAS DE POSICIÓN CENTRAL


Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos.
Las medidas de posición son de dos tipos:

• Medidas de posición central: informan sobre los valores medios de la serie de datos.
• Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie.

MEDIDAS DE POSICIÓN CENTRAL

Las principales medidas de posición central son las siguientes:

1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:

a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:

Xm= (X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn)
---------------------------------------------------------------------------------------
n

b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.

La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).

3.- Moda: es el valor que más se repite en la muestra.

Ejemplo 1: Los datos de la estatura de los alumnos del curso de un colegio distrital del grado 4 son los siguientes:

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

Vamos a calcular los valores de las distintas posiciones centrales:

1.- Media aritmética:

Xm = (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3)
--------------------------------------------------------------------------------------------------
30
Luego:

Xm = 1,253

Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.

2.- Media geométrica:

X = ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30)

Luego:

Xm = 1,253

En este ejemplo la media aritmética y la media geométrica coinciden, pero no tiene siempre por qué ser así.

3.- Mediana:

La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.

4.- Moda:

Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas.

TEMA 4
MEDIDAS DE POSICIÓN NO CENTRAL


Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la muestra en tramos iguales:
1. Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
2. Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
3. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.
Ejemplo 4: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de alumnos (ver ejemplo 1). Los deciles y centiles se calculan de igual manera, aunque harían falta distribuciones con mayor número de datos.

Variable Frecuencias absolutas Frecuencias relativas

(Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%

1º cuartil: es el valor 1,22 cm, ya que por debajo de ella se sitúa el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se sitúa otro 25% de la frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro 25% de la frecuencia. Además, por encima suya queda el restante 25% de la frecuencia.

Cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las repeticiones.

EJERCICIOS E INFORMACION ADICIONAL

Medidas de Dispersión: Ejercicios

Propiedades: Medidas de Dispersión

Medidas de Dispersión

Estas son las medidas de dispersión, que iremos calculando, para diferentes ejercicios.
Las fórmulas son las mismas, no importando que los datos estén agrupados o si agrupar.

Medidas de Dispersión.
Las medidas de dispersión, nos indican el grado de variación que hay entre los valores de la variable.

Al aplicar una medida de dispersión se puede evaluar la confiabilidad del promedio, o sea de la Media, que se está utilizando.

Cuando los valores de la dispersión dan pequeños indica que los datos se encuentran acumulados alrededor de la media.

Y que la media es representativa de ellos.

Una dispersión grande, indica que la media no es muy confiable.

Cuanto más chicas las medidas de dispersión, más homogéneos son los valores de la variable.
Veamos un ejemplo:

Supongamos que a un espectáculo musical, asisten personas de diferentes edades.

1) Si asisten 4 personas con las siguientes edades:
26 años, 18 años, 22 años, y 24 años. Calculamos el promedio:
Sumo: 26+18+22+30= 96 y se divide entre 4
Promedio=24 años, podemos decir que las personas que asisten al espectáculo tienen una edad promedio de 24 años.
El promedio es representativo.
2) Si asisten 4 personas con las siguientes edades:
18 años, 37 años, 56 años y 89 años. Calculamos el promedio:
Sumo: 18+37+56+89= 200 y se divide entre 4.
Promedio=50 años, podemos decir que las personas que asisten al espectáculo tienen una edad promedio de 50 años.
El promedio no es representativo.


Rango Percentil

El rango percentil, no es muy usado, pero hay algunos casos en que se hace necesario su cálculo.
Aquí también hacemos referencia al ejercicio ya calculado, en el post del día anterior.
Generalmente se calcula para variables agrupadas en intervalos.


Variable Contínua: Cuartiles, Percentiles


Este ejercicio es una continuación del que publicamos hace tres días, donde ya teníamos calculada la media , el modo y la mediana.

La letra del ejercicio nos hablaba, de una empresa del ramo de la informática que estaba preparando un informe para el gerente general, con el detalle de las ganancias.

El tamaño de muestra "n" es 50 departamentos.

La tabla con las frecuencias absolutas, relativas, acumuladas, porcentuales, ya la teníamos calculada.


Datos Agrupados: Cuartiles, Percentiles.


Recordemos que los cuartiles y los percentiles, son porcentajes en los que se dividen la distribución de frecuencias.

El primer cuartil, se halla donde se acumula el 25% de la distribución de frecuencias relativas acumuladas.

Puede ser que coincida con el 25% exacto, o con el primer valor que lo supere, El tercer cuartil se ubica donde la función de distribución acumulada llega al 75%.

Ya habiamos comentado que el segundo cuartil coincide con la mediana, pues acumula el 50% .
El percentil sirve para calcular cualquier porcentaje: 10%, 15%, 80%, se sustituye en la fórmula, el símbolo de la "x" por el porcentaje que se desee calcular.

Variable Contínua: Media, Moda, Mediana

Datos Agrupados: Media, Moda, Mediana


Las fórmulas anteriores corresponden, a la media , la moda, y la mediana , cuando los datos están agrupados en intervalos. Generalmente, se da cuando la variable es contínua, pero a veces también la variable discreta puede agruparse en intervalos. Recordemos, que para la variable contínua, se calcula, la marca de clase, que es, el valor representativo de todos los que están en el intervalo. Por este motivo, al calcular la media se multiplica la marca de clase por la frecuencia absoluta simple, y luego se divide todo entre "n", que es el tamaño de muestra.


Datos sin agrupar: los cuartiles

Continuando con el ejemplo, de la cantidad de personas que compraron la revista "La Antigua", calcularemos el primer y el tercer cuartil. Recordemos que los datos eran: 2, 7, 9, 11, 14, son cinco números. En ambos cuartiles el lugar de posicionamiento , quedó entre dos números enteros, por lo cual, tuvimos que aproximar.
El primer cuartil hacia arriba( para no salirse del rango de variación), y el tercer cuartil hacia abajo ( para no salirse del rango de variación).
El primer cuartil es el número 7.
El tercer cuartil es el número 11.
El segundo cuartil coincide con la mediana, por eso generalmente no se calcula.

Medidas de Posición: los cuartiles
Los cuartiles dividen a la distribución de frecuencias en cuartos.Hay tres cuartiles:a) El primer cuartil se localiza donde la distribución de frecuencias acumula el 25%.b)El segundo cuartil se localiza donde la distribución de frecuencias acumula el 50%, por lo tanto coincide con la mediana.c) El tercer cuartil se localiza donde la distribución de frecuencias acumula el 75%.Cuando los datos están sin agrupar se utilizan las fórmulas anteriormente descriptas, que indican el lugar de posicionamiento, del cuartil buscado.Hay que destacar, que , si el número de posicionamiento da con decimales, hay que aproximarlo al entero más cercano.Con la precaución, de que el primer cuartil se aproxima hacia arriba, y el tercel cuartil se aproxima hacia abajo, en el caso de que el decimal coincida entre dos enteros.


La Media, la Moda, y la Mediana.
Los valores se ordenan, siempre de menor a mayor, luego se suman y se dividen entre el tamaño de muestra "n" y así obtenemos la media que es un promedio. En este ejemplo no hay moda o modo, pues no hay valores repetidos. Y para hallar la mediana tenemos, primero ,que buscar el lugar de posicionamiento. En este caso, la mediana es el valor que ocupa el lugar 3, luego que están ordenados, o sea el 9.

Medidas de Posición


Las Medidas de Posición, pueden ser:

a) Medidas de Tendencia central
b) Medidas de Tendencia no central.
En este Post, veremos las medidas de tendencia central, que son la Media, la Moda o Modo, y la Mediana.
La Media:es un promedio de todos los valores que toma una variable estadística.
Se suman todos los valores de la variable, y se dividen entre el tamaño de muestra o sea entre "n".
El Modo: es el valor que se repite más veces, si los datos están agrupados sería el de mayor frecuencia.
A veces puede no haber modo, y otras veces puede haber más de uno, incluso dos o más modos.
Si hay dos modos, la distribución de frecuencias se llama distribución bimodal.
La Mediana: es el valor que divide al conjunto de datos en dos mitades, o sea que el 50% de los valores quedan por debajo de la mediana, y el otro 50% de los valores queda por encima de la mediana.

Variable Contínua: OJIVA
La variable contínua, también puede graficarse mediante las frecuencias acumuladas.
En este caso se llama OJIVA.
Pueden ser frecuencias absolutas o relativas, pero acumuladas.
En el eje de las "X" se colocan los intervalos de clase, y en el eje de las "Y" las frecuencias acumuladas.
Observamos que aquí la Ojiva, es contínua, o sea comparando con la Ojiva de la variable discreta que eran escalones , que quedaban cortados.
Publicado por Carina Stella Meneguzzi en 0:12 2 comentarios
miércoles 13 de agosto de 2008

Variable Contínua: Polígono de Frecuencias
Otra de las gráficas de la variable contínua, es el Polígono de Frecuencias.
El Polígono se obtiene uniendo los puntos medios de los intervalos de clase.
Además se traza un intervalo anterior al primero, y otro intervalo posterior al último, ambos de la misma amplitud de los demás intervalos.
En ellos también se trazan los puntos medios, y al unirlos todos, queda trazado el Polígono, cerrado hasta el eje de las "X" .
El Polígono, suele usarse para comparar dos distribuciones de frecuencias,ya que la visualización es más clara que con el Histograma de Frecuencias.

Variable Contínua: Histograma de Frecuencias
La variable cuantitativa continua, tiene varias gráficas.
Una de ellas es el Histograma de frecuencias,que puede ser con las frecuencias absolutas o relativas simples.
En el eje de las "X" se colocan los intervalos de clase, y luego se va realizando un rectángulo a la altura de la frecuencia absoluta o relativa , pero simple.
Excel nos ofrece una variedad de gráficos muy interesantes, en este caso hemos elegido, una gráfica con efecto de 3 dimensiones.
Los colores también se pueden variar, según nuestro gusto.


Variable Cuantitativa Contínua: Tabla Estadística

Esta variable, al ser contínua admite números decimales, por lo que generalmente, se agrupa en intervalos.
Los intervalos se llaman "clases", y tienen un "límite inferior" y un " límite superior".
Dentro de cada intevalo hay infinitos valores, por lo cual se coloca la "marca de clase" como valor representativo del intervalo.
Para su cálculo, se suma el límite inferior y el límite superior, y luego se divide entre 2.
Esta variable, admite todas las frecuencias, las absolutas y relativas simples, las absolutas y relativas acumuladas y también las porcentuales.
La marca de clase suele identificarse, con una "X" con un punto sobre ella, o también con una "X" con el subíndice "c": "Xc".
Se lo concidera el valor representativo de todos los que están en el intervalo.
También de esta tabla estadística, sacamos como dato principal: el tamaño de muestra, o sea n=200.


Variable Cuantitativa Discreta: gráfico de escalones.
Esta gráfica, se realiza para la variable discreta, con las frecuencias acumuladas.
Pueden ser frecuencias absolutas o relativas, pero siempre acumuladas.
Se suele llamar gráfico de escalera, o escalones, por la forma cortada que va tomando, a medida que se van acumulando las frecuencias.
El corte se va produciendo, porque la variable es discreta, y solo toma valores puntuales, o sea exactos. No hay continuidad entre ellos.
Esta gráfica también recibe el nombre de Ojiva.
Generalmente, se realiza con la frecuencia relativa acumulada, que es la que siempre llega a uno.


Variable Cuantitativa Discreta: Gráfica de Varillas
La variable cuantitativa discreta, se grafica con una varilla, o una barra(pero mas angosta que las barras de las variables cualitativas) .Esta gráfica es para las frecuencias absolutas o relativas ,pero simples.Indica que la variable, toma, puntualmente, un valor.En este caso graficamos las frecuencias absolutas simples de la tabla estadística que editamos en el post del día anterior.Observemos, que en el eje de las X, ahora hemos puesto números (que son los que toma la variable).Cuando graficamos, el gráfico de barras de la variable cualitativa, ya sea nominal u ordinal , en el eje X, no se ponían números; solamente escribíamos los nombres de las categorías.


Variable Cuantitativa Discreta: Tabla Estadística

Supongamos que hemos realizado una encuesta sobre el puntaje obtenido por 200 alumnos en una prueba de estadística.
Los resultados obtenidos, los mostramos en la tabla estadística.
Es una variable discreta, porque el puntaje es un número entero.
Esta variable, también tiene todas las frecuencias. Tiene las frecuencias absolutas y relativas simples, las frecuencias acumuladas , y las frecuencias porcentuales.
Recordemos como se calculan:
a)Las frecuencias absolutas simples, son los valores que obtenemos de la encuesta realizada.
b) Las frecuencias relativas simples, se obtienen dividiendo las frecuencias absolutas simples entre el total de la muestra, o sea , en este caso , se dividen entre n=200.
c) Las frecuencias absolutas acumuladas, se obtienen, sumando a la primer frecuencia absoluta simple, la siguiente, y así hasta el final.
d) Las frecuencias relativas acumuladas, se obtienen, sumando a la primer frecuencia relativa simple, la siguiente, y así hasta el final.
e)Las frecuencias porcentuales, se obtienen, multiplicando por 100, las frecuencias relativas simples, y las relativas acumuladas.
Recordemos:las frecuencias relativas simples , siempre suman uno. Las frecuencias absolutas simples , siempre suman el tamaño de muestra , en este caso será n=200.


Variable Ordinal: Gráfica circular -Pastel o Torta

La gráfica que realizaremos para la variable ordinal será del mismo estilo que la realizada para la variable nominal.
Ambas variables son cualitativas, y se grafican con un gráfico de Sectores, también llamada pastel o torta, por su forma redonda.
Simplemente elegiremos otro de los múltiples modelos que Excel nos ofrece.
En este gráfico , optamos por dejar la "leyenda", que nos indica, cada sector a que categoría de la variable pertenece.
Hemos realizado este gráfico con la frecuencia porcentual simple, que corresponde a la quinta columna de la tabla estadística(fr%).


Tablas Estadísticas: variable ordinal
Supongamos, que realizamos una encuesta entre 200 estudiantes y les preguntamos por sus calificaciones en la universidad.
La tabla Estadística de la variable ordinal, es más completa que la tabla de la variable nominal.Recordemos que la variable ordinal tiene categorias ordenadas, por lo cual se puede acumular.
La tabla tendrá , entonces, las frecuencias absolutas y relativas simples, pero además, las frecuencias absolutas y relativas acumuladas.
Tambíen se podrán incorporar las frecuencias porcentuales.
La información que se puede obtener, será similar , a la tabla de la variable nominal.
Supongamos que interpretamos la tercer fila:
a)Podemos decir que 65 estudiantes tuvieron una calificación "buena".
b) Si nos fijamos en la columna de las frecuencias absolutas acumuladas, diremos, que 100 estudiantes tuvieron una calificación de "bueno" o inferior.
c) También podemos hacer lecturas porcentuales: el 32,5% de los estudiantes tuvieron una calificación de "bueno".
d) El 50% de los estudiantes tuvieron una calificación de "bueno" o inferior.( recordar que estamos acumulando)


Gráficas con Excel: continuación
11) En este paso ubicamos la gráfica en la hoja 112) Hacemos "clic" sobre el gráfico , y aparece Formato del área de gráfico.13) En este cuadro de dialogo, elegimos el color del Borde: canela, y el grosor.También elegimos el color del Área :marfil.El gráfico quedó pronto.Podemos probar diferentes combinaciones de colores, y subtipos de gráficos; experimentar las opciones que Excel nos brinda, es una tarea que motiva nuestra creatividad.Con estos pasos que hemos reseñado, seguramente tú podrás realizar un gráfico,muy novedoso.

Gráficos con Excel: continuación

10)Aparece el paso 4 del asistente: es para dar la ubicación al gráfico .


Gráficas con Excel: continuación

9)En la pestaña rótulos de datos, marcamos porcentaje, y clave de la leyenda


Gráficas con Excel: continuación

8)Desmarcamos la leyenda


Gráficas con Excel: continuación

7)Aparece el paso 3 del asistente, elegimos el nombre: Gráfico Circular


Gráficas con Excel: continuación

6) Paso 2 del asistente:marcar columnas

Gráficas excel: paso 2
2) Seleccionamos con el mouse, las columnas A y C.
Recordamos que si no son dos columnas seguidas, debemos tener presionado la tecla CTrl.
3) " Clic" en Insertar gráfico:

4)Aparece el paso 1 del asistente para gráficos:

5)Seleccionamos Tipo de Grafico: Circular


Gráficas con Excel: gráfica Circular
Aprenderemos, paso a paso ,
como crear una gráfica circular (pastel o torta) utilizando Excel.
1) Abrimos el programa de Excel, y anotamos en la planilla, las ciudades, y las frecuencias absolutas y las porcentuales.


BIBLIOGRAFÍA

  • Probabilidad y Estadística con aplicaciones a la Ingeniería. Douglas C. Mongomery. Editorial Mc Graw Hill.
  • Introducción a la Probabilidad y Estadística. Seymour Lipschutz, Jhon Schiller ( Serie Schaum). Editorial Mc Graw Hill
  • Estadística y muestreo. Ciro Martínez Bencardino. 11ª edición. Ecoe Ediciones: Es un texto sencillo, permite su comprensión y utilización, con aplicación mínima de conocimientos matemáticos, se adapta y satisface las necesidades del contenido programático para esta área y nivel de enseñanza y exigencia académica.. Contiene pruebas no paramétricas, seleccionando aquellas consideradas como las más importantes y más utilizadas por el campo profesional.
  • www.wikipedia.org
  • www.google.com

Páginas vistas