UNIVERSIDAD RURAL DE GUATEMALA CAMPUS QUETZALTENANGO FACULTAD DE INGENIERIA CARRERA: INGENIERIA AMBIENTAL CUARTO SEMESTRE
PRIMERA ENTREGA DEL TEXTO PARALELO
CURSO: ESTADISTICA I Nombre: Eroldani Ancelmo Pérez Tzorín Carné: 160030012
Quetzaltenango 19 De Agosto De 2017
UNIVERSIDAD RURAL DE GUATEMALA CAMPUS QUETZALTENANGO FACULTAD DE INGENIERIA CARRERA: INGENIERIA AMBIENTAL CUARTO SEMESTRE
PRIMERA ENTREGA DEL TEXTO PARALELO
CURSO: ESTADISTICA I Nombre: Eroldani Ancelmo Pérez Tzorín Carné: 160030012
Quetzaltenango 19 De Agosto De 2017
INDICE No. I.
Contenido
1.1.
Estadística ..................................................................................................................................... 4
1.1.1.
Población............................................................................................................................... 4
1.1.2.
Muestra. ................................................................................................................................ 5
1.1.3.
Muestreo:.............................................................................................................................. 5
1.2.
Tipos de estadística ....................................................................................................................... 6
1.2.1.
Estadística descriptiva ........................................................................................................... 6
1.2.2.
Estadística inferencial ........................................................................................................... 6
1.3.
Tipos de variables.......................................................................................................................... 7
1.4.
Niveles de medición ...................................................................................................................... 8
1.4.1.
Escala Nominal: ..................................................................................................................... 8
1.4.2.
Escala Ordinal: ....................................................................................................................... 8
1.4.3.
Escalas de intervalos iguales: ................................................................................................ 9
1.4.4.
Escala de coeficientes o Razones: ......................................................................................... 9
1.5.
II.
Página
INTRODUCCIÓN A LA ESTADÍSTICA ....................................................................................................... 4
Recopilación de datos ................................................................................................................. 10
1.5.1.
Fuentes para obtener datos ................................................................................................ 10
1.5.2.
Técnicas para recopilar datos. ............................................................................................ 10
PRESENTACION DE DATOS DE UNA SOLA VARIABLE .......................................................................... 12 2.1. Distribución de frecuencias.............................................................................................................. 12 2.1.1. Intervalos, marcas de clase y frecuencias ................................................................................. 13 2.1.2. Construcción de una distribución de frecuencias para datos cuantitativos ............................. 14 2.1.3. Distribución de frecuencias relativa ......................................................................................... 14 2.1.4. Distribución de frecuencias acumulada .................................................................................... 15 2.2. Presentación de grafica de datos ..................................................................................................... 15
2.2.1. Datos cualitativos ...................................................................................................................... 15 2.2.2. Datos cuantitativos ................................................................................................................... 17 3.3.
Medidas de dispersión ................................................................................................................ 21
3.3.1.
Medidas de distancia. ......................................................................................................... 22
3.3.2.
Medidas de desviación promedio ....................................................................................... 26
3.4.
Medidas de forma ....................................................................................................................... 32
3.4.1.
Asimetría ............................................................................................................................. 32
3.3.2.
Curtosis o apuntamiento .................................................................................................... 37
REFERENCIAS BIBLIOGRÁFICAS ................................................................................................ 40 4.
Presentación y análisis de datos de dos variables .............................................................................. 41 4.1.
Tabla de contingencia ................................................................................................................. 41
I.
INTRODUCCIÓN A LA ESTADÍSTICA
1.1. Estadística
La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos". (Yale y Kendal, 1954).
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.
1.1.1. Población.
El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin & Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974).
1.1.2. Muestra. "Se llama muestra a una parte de la población a estudiar qué sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin & Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974).
1.1.3. Muestreo: Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población. Este se realiza una vez que se ha establecido un marco maestral representativo de la población, se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra.
1.2. Tipos de estadística 1.2.1. Estadística descriptiva Se puede definir como un método para describir numéricamente conjuntos numerosos. Por tratarse de un método de descripción numérica, utiliza el número como medio para describir un conjunto, que debe ser numeroso, ya que las permanencias estadísticas no se dan en los casos raros.
No
es
posible
sacar
conclusiones
concretas
y
precisas
de
los
datos
estadísticos. (Vargas, p.33) En relación a la estadística descriptiva, Ernesto Rivas Gonzáles dice; "Para el estudio de estas muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que cuando quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen para la muestra, es decir al estimarse para el universo vendrá dada con cierto margen de error; esto significa que el valor de la medida calculada para la muestra, en el oscilará dentro de cierto límite de confianza, que casi siempre es de un 95 a 99% de los casos.(JORGE) 1.2.2. Estadística inferencial Está fundamentada en los resultados obtenidos del análisis de una muestra de población, con el fin de inducir o inferir el comportamiento o característica de la población, de donde procede, por lo que recibe también el nombre de Inferencia estadística. Según Berenson y Levine; Estadística Inferencial son procedimientos estadísticos que sirven para deducir o inferir algo acerca de un conjunto de datos numéricos (población), seleccionando un grupo menor de ellos (muestra). El objetivo de la inferencia en investigación científica y tecnológica radica en conocer clases numerosas de objetos, personas o eventos a partir de otras relativamente pequeñas compuestas por los mismos elementos.(JORGE) Estudia la probabilidad de éxito de las diferentes soluciones posibles a un problema en las diferentes ciencias en las que se aplica y para ello utiliza los datos observados en una o varias muestras de la población. Mediante la creación de un modelo matemático infiere el comportamiento de la población total partiendo de los resultados obtenidos en las observaciones de las muestras. (Fernández et.al, p.17)
1.3. Tipos de variables Una variable es una característica de interés sobre cada elemento individual de una población o muestra. Un dato es el valor de la variable asociada a un elemento de una población o muestra. Este valor puede ser número, una palabra o un símbolo. Un experimento es una actividad de la población planeada curos resultados producen un conjunto de datos. (Guatemala, 2011) De pendiendo el número de características que se analizan de la población, las variables se pueden clasificar en: a) Variables unidimensionales: solo recogen información sobre una característica. Ejemplo edad de los alumnos de una clase b) Variable bidimensional es una variable en la que cada individuo está definido por un par de caracteres, (X, Y). Estos dos caracteres son a su vez variables estadísticas en las que sí existe relación entre ellas, una de las dos variables es la variable independiente y la otra variable dependiente. Ejemplo: edad y altura de los alumnos de una clase. c) Variables pluridimensionales o multidimensionales: recogen información sobre tres o más características. Ejemplo: edad, altura y peso de los alumnos de una clase.
Dependiendo el número de datos las variables pueden clasificarse en:
Variable cuantitativa o escalar. Será una variable cuando pueda asumir sus resultados en medidas numéricas.
Variables cualitativas nominales. Cuando no es posible hacer medidas numéricas, son susceptibles de clasificación. Ejemplo: Color de autos: rojo, verde, azul.
Por su parte las variables cuantitativas se pueden clasificar en:
Variable cuantitativa discreta. Es aquella que puede asumir sólo ciertos valores, números enteros. Ejemplo: El número de estudiantes (1,2,3,4)
Variable cuantitativa continua. Es aquella que teóricamente puede tomar cualquier valor en una escala de medidas, ya sea entero o fraccionario. Ejemplo, Estatura: 1.90 m (GestioPolis)
1.4. Niveles de medición 1.4.1. Escala Nominal: La escala de medida nominal, puede considerarse la escala de nivel más bajo, y consiste en la asignación, puramente arbitraria de números o símbolos a cada una de las diferentes categorías en las cuales podemos dividir el carácter que observamos, sin que puedan establecerse relaciones entre dichas categorías, a no ser el de que cada elemento pueda pertenecer a una y solo una de estas categorías. Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en estudio, después de lo cual se asignan nombres a tales clases, y el hecho de que a veces, en lugar de denominaciones, se le atribuyan números, puede ser una de las razones por las cuales se le conoce como "medidas nominales". Por ejemplo, podemos estar interesados en clasificar los estudiantes de la UNESR Núcleo San Carlos de acuerdos a la carrera que cursan. Carrera
Número asignada a la categoría
Educación
1
Administración
2
Se ha de tener presente que los números asignados a
1.4.2. Escala Ordinal: En caso de que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de "orden" de los números asignándolo a los objetos en estudio de modo que, si la cifra asignada al objeto A es mayor que la de B, puede inferirse que A posee un mayor grado de atributo que B.
La asignación de números a las distintas categorías no puede ser completamente arbitraria, debe hacerse atendiendo al orden existente entre éstas. Los caracteres que posee una escala de medida ordinal permiten, por el hecho mismo de poder ordenar todas sus categorías, el cálculo de las medidas estadísticas de posición, como por ejemplo la mediana. Ejemplo: Al asignar un número a los pacientes de una consulta médica, según el orden de llegada, estamos llevando una escala ordinal, es decir que al primero en llegar ordinal, es decir que al primeo en llegar le asignamos el nº 1, al siguiente el nº 2 y así sucesivamente, de esta forma, cada número representará una categoría en general, con un solo elemento y se puede establecer relaciones entre ellas, ya que los números asignados guardan la misma relación que el orden de llegada a la consulta. 1.4.3. Escalas de intervalos iguales: La escala de intervalos iguales, está caracterizada por una unidad de medida común y constante que asigna un número igual al número de unidades equivalentes a la de la magnitud que posea el elemento observado. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, encontramos que la asignación de los números a los elemento es tan precisa que podemos determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. Sin lugar a dudas, podemos decir que la escala de intervalos es la primera escala verdaderamente cuantitativa y a los caracteres que posean esta escala de medida pueden calculársele todas las medidas estadísticas a excepción del coeficiente de variación. Ejemplo: El lapso transcurrido entre 1998-1999 es igual al que transcurrió entre 2000-2001. 1.4.4. Escala de coeficientes o Razones:
El nivel de medida más elevado es el de cocientes o razones, y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio. Además, siendo que cero ya no es arbitrario, sino un valor absoluto, podemos decir que A. Tiene dos, tres o cuatro veces la magnitud de la propiedad presente en B. (JORGE) Ejemplo: En una encuesta realizada en un barrio de esta localidad se observó que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el doble de hijos que aquellas que tienen 3 hijos. 1.5. Recopilación de datos 1.5.1. Fuentes para obtener datos Fuente de Información: Es el lugar, la institución o persona donde están los datos que se necesitan para cada una de las variables o aspectos de la investigación. Las fuentes de información son:
Fuentes Primarias o internas: Cuando los datos se obtienen directamente de la misma persona o entidad utilizando ciertas técnicas. Ejemplo: Llevar a cabo una encuesta para conocer el grado de satisfacción laboral en los trabajadores de una empresa ¿?.
Fuentes Secundarias o externas: Cuando los datos ya han sido elaborados y procesados por otras personas o instituciones. Ejemplo: La información estadística que publica el INE de los diferentes ministerios del Perú. 1.5.2. Técnicas para recopilar datos.
La recolección de datos se refiere al uso de una gran diversidad de técnicas y herramientas que pueden ser utilizadas por el analista para desarrollar los sistemas de información, los cuales pueden ser la entrevista, la encuesta, el cuestionario y la observación.
1.5.2.1.La encuesta. Una encuesta es un conjunto de preguntas normalizadas dirigidas a una muestra representativa de la población o instituciones, con el fin de conocer estados de opinión o hechos específicos. La intención de la encuesta no es describir los individuos particulares quienes, por azar, son parte de la muestra sino obtener un perfil compuesto de la población. Una "encuesta" recoge información de una "muestra." Una "muestra" es usualmente sólo una porción de la población bajo estudio. (Tecnicas de recolección de datos, 2013) 1.5.2.2.Entrevista La entrevista es una conversación dirigida, con un propósito especifico y que usa un formato de preguntas y respuestas. Se establece así un diálogo, pero un diálogo peculiar, asimétrico, donde una de las partes busca recoger informaciones y la otra se nos presenta como fuente de estas informaciones. Una entrevista es un dialogo en el que la persona (entrevistador), generalmente un periodista hace una serie de preguntas a otra persona (entrevistado), con el fin de conocer mejor sus ideas, sus sentimientos su forma de actuar. (Tecnicas de recolección de datos, 2013) Tipo de preguntas *Preguntas abiertas: Son aquellas preguntas que describen hechos o situaciones por parte del entrevistado con una gran cantidad de detalles que a juicio del entrevistado son importantes. *Preguntas cerradas :En las preguntas cerradas las respuestas posibles están cerradas al entrevistado, debido a que solamente puede responder con un numero finito, tal como “ninguno”, “uno”, o “quince”. Una pregunta cerrada limita las respuestas disponibles al entrevistado 1.5.2.3. Cuestionario Los cuestionarios proporcionan una alternativa muy útil para la entrevista; si embargo, existen ciertas características que pueden ser apropiada en algunas situaciones e inapropiadas en otra. Al igual que la entrevistas, deben diseñarse cuidadosamente para una máxima efectividad. Selección de formas para cuestionarios
El desarrollo y distribución de los cuestionarios; por lo tanto, el tiempo invertido en esto debe utilizarse en una forma inteligente. También es importante el formato y contenido de las preguntas en la recopilación de hechos significativos. Existen dos formas de cuestionarios para recabar datos: cuestionarios abiertos y cerrados, y se aplican dependiendo de si los analistas conocen de antemano todas las posibles respuestas de las preguntas y pueden incluirlas. Con frecuencia se utilizan ambas formas en los estudios de sistemas. (Tecnicas de recolección de datos, 2013) 1.5.2.4.Observación La observación es otra técnica útil para el analista en su proceso de investigación, consiste en observar a las personas cuando efectúan su trabajo. La observación es una técnica de observación de hechos durante la cual el analista participa activamente actúa como espectador de las actividades llevadas a cabo por una persona para conocer mejor su sistema. El propósito de la observación es múltiple, permite al analista determinar que se está haciendo, como se está haciendo, quien lo hace, cuando se lleva a cabo, cuánto tiempo toma, donde se hace y porque se hace. (Tecnicas de recolección de datos, 2013)
II. PRESENTACION DE DATOS DE UNA SOLA VARIABLE
2.1. Distribución de frecuencias Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que contienen los datos. Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes datos:
La inspección de los datos originales no permite responder fácilmente a cuestiones como cuál es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la magnitud de la diferencia de actitud entre hombres y mujeres. Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompañados del número de veces (la frecuencia) que aparece cada valor:
X: Símbolo genérico de la variable. f: Frecuencia (también se simboliza como ni). La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los individuos del grupo estudiado es indiferente. La interpretación de los datos ha sido facilitada porque se ha reducido el número de números a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5 frecuencias). 2.1.1. Intervalos, marcas de clase y frecuencias Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos es necesario agruparlos, a estos grupos se los llama intervalos o clases. Un intervalo es una serie de números incluidos entre dos extremos, así por ejemplo, el intervalo 40 – 45 está formado por 40, 41, 42, 43, 44 y 45, siendo 40 el límite inferior, 45 el límite superior, 39,5 límite real inferior (límite inferior disminuido en 5 décimas) y 40,5 el límite real superior (límite superior aumentado en 5 décimas). La diferencia entre las fronteras superior e inferior de una clase se denomina amplitud de clase. El punto medio entre los dos extremos (o las dos fronteras) de una clase se denomina marca de clase. El número de datos incluidos en un intervalo de clase se denomina frecuencia de clase.
2.1.2. Construcción de una distribución de frecuencias para datos cuantitativos Al construir una distribución de frecuencias para datos cuantitativos es necesario primeramente decidir cuál va ser el número de clases. En general, este número depende fundamentalmente de la naturaleza de los datos a resumir y del objetivo que se persiga con es resumen. El número de clases no debe ser menor de 5 y mayor de 20, ya que un número mayor o menor de clases podría oscurecer el comportamiento de los datos. Para calcular el número de intervalos se aplica la regla de Sturges:
K= 1+3.3 Log N
Una vez determinado el número de clases, debe decidirse la amplitud de estas. Tomando la misma amplitud para todas las clases, este valor queda dado por.
Una vez obtenida la amplitud de clase se procede a calcular los intervalos y a realizar el conteo de valores para determinar la frecuencia de cada uno. 2.1.3. Distribución de frecuencias relativa Frecuencia Relativa (fr).- Indica la proporción con que se repite un valor. Es el cociente entre la frecuencia absoluta y el número total de datos. La suma de las frecuencias relativas es siempre Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el número total de datos. Las frecuencias relativas se designan con las letras fr. Se calcula.
PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.
Frecuencia Porcentual (f%).- Llamada también frecuencia relativa porcentual. Se obtiene multiplicando la frecuencia relativa por 100. La suma de las frecuencias porcentuales es siempre 100%. Se calcula así:
2.1.4. Distribución de frecuencias acumulada Frecuencia Acumulada (fa). Indica el número de valores que son menores o iguales que el valor dado. Es la suma de la frecuencia absoluta primera con la segunda, este valor con la tercera, y así sucesivamente. Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de la fi que integran cada una de las filas de una distribución de frecuencia, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la última. Las frecuencias acumuladas se designan con las letras Fi. Se calcula:
PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones. 2.2. Presentación de grafica de datos Una vez elaborada la tabla de distribución es importante construir su representación visual. Esta representación revela patrones de comportamiento de la variable en estudio. El tipo de gráfico que se utilice dependerá del tipo de datos y el concepto a representar. 2.2.1. Datos cualitativos Las gráficas que generalmente se utilizan para resumir dataos cualitativos, de atributo o categorías son las gráficas de barras y la de pastel.
2.2.1.1. Gráfica de barras
Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal. 2.2.2.2. Gráficas circular Es el más usual en variables cualitativas. Se representan mediante círculos. A cada valor de la variable se le asocia el sector circular proporcional a su frecuencia. Ejemplo: Los siguientes datos corresponden a una encuesta referente a elecciones locales de un partido político:
xi a favor en contra abstención
fi 50% 40% 10%
Para construir el diagrama de sectores partimos del hecho de que un círculo encierra un total de 360 grados. Luego, mediante una regla de tres simple, repartimos los 360 grados en distintos sectores, de acuerdo con cada porcentaje; tenemos así que para determinar el sector correspondiente al 50%, resolvemos la ecuación:
Esto es, el 50% corresponde a un sector circular de medida 180 grados. A continuación, con ayuda de un transportador, señalaremos el sector circular de medida 180 grados. Igualmente, para el 40% se tiene 144 grados y para el 10% se tiene 36 grados. La siguiente figura muestra la representación grafica.
2.2.2. Datos cuantitativos Todo lo que se puede medir y contar, decimos que se puede cuantificar. El concepto “datos cuantitativos” hace referencia precisamente a eso, a la información tangible, la que es obtenida mediante algún método de investigación. La manera de cuantificar los datos obtenidos en nuestro estudio nos dará la pauta de hacia qué rumbo dirigirse, de ahí la importancia de su correcto análisis para poder demostrar si estamos en lo correcto o no, en la hipótesis planteada. Se denomina investigación cuantitativa aquella que genera datos numéricos o estadísticos para cuantificar opiniones, comportamientos o cualquier variable que se haya definido para ser objeto de estudio. Por lo regular se utiliza como método de recolección las entrevistas caras a cara o vía telefónica y los diversos tipos de encuestas. Las encuestas online son la mejor solución, ya que así puedes llegar a más personas en menos tiempo y además, asegurar resultados más honestos para un posterior análisis. A través de una encuesta online podrás conocer opiniones, actitudes de los encuestados que formen parte de tu muestra representativa, por lo que también debes de valorar este factor para reducir el margen de error y el éxito de tu investigación.
2.2.2.1. Histograma Es la representación gráfica de las frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectángulos unidos entre sí, lo que significa que existe continuidad en la variable cuyos valores se representan en el eje horizontal que se halla dividido en intervalos de igual amplitud. Las áreas de los rectángulos son proporcionales a las frecuencias que representan.
2.2.2.2. Polígono de frecuencias
_ La altura de cada punto la determina el punto medio (abscisa) y la frecuencia simple (ordenada) de la clase _ Los puntos se unen con secciones de rectas _ Se procede como si existiera una clase adicional al principio y al final, ambas con frecuencia cero _ Útiles para representar dos distribuciones de frecuencia en un mismo gráfico
2.2.2.3. Ojivas La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la base "menor que" o sobre la base "o más". Puede determinar el valor de la mediana de la distribución.
Una grafica de distribución de frecuencia acumulada es llamada una sola ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas. _ Para representar la frecuencia acumulada _ La ordenada se levanta sobre el límite superior _ Tiene forma de S alargada
2.2.2.4. Graficas lineales Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se usan para representar series de tiempo o cronológicas.
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Se pueden usar para representar: una serie dos o más series
3.3. Medidas de dispersión Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos revelan una parte de la información que necesitamos acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su dispersión, extensión o variabilidad. La dispersión es importante porque:
Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.
Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones más grandes. 3.3.1. Medidas de distancia.
La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del conjunto de datos, a continuación se presentan tres de las llamadas medidas de distancia. 3.3.1.1.El rango o recorrido (r) Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmáx.-Xmín = Xn-X1 Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25., para calcular la media aritmética (promedio de las edades, se tiene que: R = Xn-X1 ) = 34-18 = 16 años
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el límite superior de la última clase menos el limite inferior de la primera clase. Rango para datos agrupados; R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)
Ejemplo: Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:
Clases
fa↓
fa↑
fra↓ fra↑
14.628 10 0.33 10
30
0.33 1.00
P.M.
fi
fr
Xi 7.420 – 21.835
21.835 – 36.250 29.043 4
0.13 14
20
0.46 0.67
36.250 – 50.665 43.458 5
0.17 19
16
0.63 0.54
50.665 – 65.080 57.873 3
0.10 22
11
0.73 0.37
65.080 – 79.495 72.288 3
0.10 25
8
0.83 0.27
79.495 – 93.910 86.703 5
0.17 30
5
1.00 0.17
Total
XXX
30 1.00 XXX XXX XXX XXX
Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion.shtml#ixzz4wyhXOwbz El rango de la distribución de frecuencias se calcula así: R= (lim. Sup. de la clase n – lim. Inf. De la clase 1) = (93.910 – 7.420) = 86.49
Propiedades del Rango o Recorrido:
El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (máximo y mínimo) en una distribución
Puesto que el recorrido se basa en los valores extremos éste tiende s ser errático. No es extraño que en una distribución de datos económicos o comerciales incluya a unos pocos valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos valores anormales, ignorando a los demás valores de la variable.
La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos,, puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.
En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia. 3.3.1.2.Rango intercuartílico
El rango intercuartílico IQR (o rango intercuartil) es una estimación estadística de la dispersión de una distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta medida se eliminan los valores extremadamente alejados. El rango intercuartílico es altamente recomendable cuando la medida de tendencia central utilizada es la mediana (ya que este estadístico es insensible a posibles irregularidades en los extremos).
Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para evaluar la dispersión de una distribución.
Ejercicio Sea un conjunto ordenado de las edades de los veinte sujetos (N=20) de un club.
Para calcular el rango intercuartílico, tendremos que calcular el primer y el tercer cuartil (Q1 y Q3). Primer cuartil El primer cuartil será el sujeto (N+1)/4=21/4=5,25. Como es decimal, será un número entre el X5=28 y X6=29.
El número decimal es el 5,25, por lo que i=5 y d=0,25. El cuartil 1 es:
Tercer cuartil El tercer cuartil es el sujeto 3(N+1)/4=63/4=15,75. Como el número es decimal, el cuartil estará entre X15=52 y X16=53.
El número decimal es el 15,75, por lo que i=15 y d=0,75. El cuartil 3 es:
Rango intercuartílico Una vez hemos calculado en primer y tercer cuartil, ya podemos calcular el rango intercuartílico.
http://www.universoformulas.com/estadistica/descriptiva/rango-intercuartilico/
3.3.1.3.Rango interpercentil Es la dfiferencia entre el percentil 99 (p99) y el percentil 1(p1) Rip=p99-p1
http://lourdesdemedida.blogspot.com/ Publicadas por lourdes zarate a la/s 14:02
3.3.2. Medidas de desviación promedio Las descripciones más completas de la dispersión son aquellas que manejan la desviación promedio respecto a alguna mediad de tendencia central. En esta clasificación las más utilizadas son la vaianza y la desviación estándar. Ambas medidas dan una distancia promedio de cualquier observación del conjunto de datos respecto a la medida de la distribución 3.3.2.1.La varianza (s2 ó δ2 ) La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es la media aritmética de la distribución. Más específicamente, la varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando más cerca estén las Xi a su media menos es la varianza. Y se define y expresa matemáticamente de la siguiente manera: La varianza para datos no agrupados Dado un conjunto de observaciones, tales como X1, X2, … , Xn, la varianza denotada usualmente por la letra minúscula griega δ (sigma) elevada al cuadrado (δ2)y en otros casos S2
según otros analistas, se define como: el cuadrado medio de las desviaciones con respecto a su media aritmética" Matemáticamente, se expresa como:
Ejemplo: Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 25, 27, y 34. Al calcular la media aritmética (promedio de las edades, se obtuvo 25.4 años, encontrar la varianza de las edades de estos estudiantes: Para calcular se utiliza una tabla estadística de trabajo de la siguiente manera: ( Xi Xi
( Xi -
)2
)
18
(18 – 25.5)=-7.4
(-7.4)2=54.76
23
(23 – 25.5)=-2.4
(-2.4)2= 5.76
25
(25 – 25.5)=-0.4
(-0.4)2= 0.16
27
(27 – 25.5)= 1.6
( 1.64)2= 2.16
34
(34 – 25.5)= 8.6
( 8.6)2 =73.96
Total
xxxx
Respuesta: la varianza de las edades es de 27.4 años
137.20
La varianza para datos agrupados Si en una tabla de distribución de frecuencias. Los puntos medios de las clases son X1, X2, … , Xn; y las frecuencias de las clases f1, f2, … , fn; la varianza se calcula así: Σ(Xi- )2f1 δ2 = ---------------Σfi Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre todo cuando se trabaja con números decimales o cuando la media aritmética es un número entero. Asimismo cuando se trabaja con máquinas calculadoras, La tarea de computar la varianza se simplifica utilizando la formula de computación que se da a continuación: ΣXi2fi - [(ΣXifi)2/N] δ2 = ---------------------------N donde N=Σfi Ejemplo: Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabrera’s y Asociados dispuestos en una tabla de distribución de frecuencias, a partir de los cuales se deberá calcular la varianza, para lo cual se construye la siguiente tabla estadística de trabajo, si se calculó anteriormente la media aritmética y se fijó en 43.458 (ver ejemplo del calculo en "media aritmética para datos agrupados) de la siguiente manera Punto medios clases
fi
Xi2
Xifi
X2fi
Xi
7.420 – 21.835
14.628
10
213.978
146.280
2,139.780
21.835 – 36.250
29.043
4
843,496
116.172
3,373.984
36.250 – 50.665
43.458
5
1,888.598
217.270
9,442.990
50.665 – 65.080
57.873
3
3,349.284
173.619
10,047.852
65.080 – 79.495
72.288
3
5,225.555
216.864
15,676.665
79.495 – 93.910
86.703
5
7,533.025
433.965
37,665.125
XXX
30
19,053.936
1,304.190
78,346.396
Total
= 21,649.344 / 30 = 721.645 Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645 Propiedades de la varianza :
s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando Xi=
La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:
Si a xi le sumamos una constante xi’ = xi + k tendremos (sabiendo que
)
Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Veámoslo:
Si a xi’ = xi · k tendremos (sabiendo que
)
Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresión
Siendo Ni è el nº de elementos del subconjunto (i) S2i è la varianza del subconjunto (i) 3.3.2.2.La desviación estándar (s ó δ) Es una medida de la cantidad típica en la que los valores del conjunto de datos difieren de la media. Es la medida de dispersión más utilizada, se le llama también desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima con respecto a este valor. Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva de esta. A la desviación se le representa por la letra minúscula griega "sigma" ( δ ) ó por la letra S mayúscula, según otros analistas. Cálculo de la Desviación Estándar δ = √δ2 ó S = √S2
Ejemplo: Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se obtuvo δ2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces δ = √27.44 = 5.29 años.
Igual procedimiento se aplica para encontrar le desviación estándar de las cuentas por cobrar de la Tienda Cabrera’s y Asociados, recordemos que la varianza obtenida fue de 721.645, luego entonces la desviación estándar es igual a δ =√721.645 = 26.86 balboas.
Propiedades de la Desviación Estándar
A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza):
La desviación estándar es siempre un valor no negativo S será siempre ³ 0 por definición. Cuando S = 0 è X = xi (para todo i).
Es la medida de dispersión óptima por ser la más pequeña.
La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.
Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar queda multiplicada por el valor absoluto de dicha constante.
Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion2.shtml#ixzz4wyiYeEaZ UNIVERSIDAD DE PANAMÁ CENTRO REGIONAL UNIVERSITARIO DE SAN MIGUELITO FACULTAD DE ECONOMÍA DEPARTAMENTO DE ESTADÍSTICA ECONÓMICO Y SOCIAL Curso: Est.115 : "Estadística Económica I". Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidasdispersion2.shtml#ixzz4wyl5i5cN
3.4.Medidas de forma 3.4.1. Asimetría Es una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.
3.3.1.1.Tipos de asimetría La asimetría presenta las siguientes formas: Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda, en símbolos
Nota: Sesgo es el grado de
asimetría de una distribución, es decir, cuánto se aparta de la simetría. Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Md=Mo Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda. También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos
3.3.1.2.Medidas de asimetría Coeficiente de Karl Pearson
Donde: = media aritmética. Md = Mediana. s = desviación típica o estándar.
Nota: El Coeficiente de Pearson varía entre -3 y 3 Si As < 0 ? la distribución será asimétrica negativa. Si As = 0 ? la distribución será simétrica. Si As > 0 ? la distribución será asimétrica positiva. Medida de Yule Bowley o Medida Cuartílica
Donde: = Cuartil uno;
= Cuartil dos = Mediana;
= Cuartil tres.
Nota: La Medida de Bowley varía entre -1 y 1 Si As < 0 ? la distribución será asimétrica negativa. Si As = 0 ? la distribución será simétrica. Si As > 0 ? la distribución será asimétrica positiva.
Medida de Fisher Para datos sin agrupar se emplea la siguiente fórmula:
Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:
Para datos agrupados en intervalos se emplea la siguiente fórmula:
Donde: = cada uno de los valores; n = número de datos; = media aritmética; f = frecuencia absoluta = cubo de la desviación estándar poblacional; xm = marca de clase Nota: Si As < 0 ?Indica que existe presencia de la minoría de datos en la parte izquierda de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica negativa Si As = 0 ? la distribución será simétrica Si As > 0 ? Indica que existe presencia de la minoría de datos en la parte derecha de la media, aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica positiva
Ejemplo ilustrativo: Calcular el Coeficiente de Pearson, Medida Cuartílica y la Medida de Fisher dada la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17 Solución: Calculando la media aritmética se obtiene:
Para calcular los cuartiles se ordena los datos de menor a mayor 6
9
9
12 12 12 15 17
Calculando el cuartil uno se obtiene:
Calculando el cuartil dos se obtiene:
Calculando el cuartil tres se obtiene:
Calculando la desviación estándar muestral se obtiene:
Calculando el Coeficiente de Pearson se obtiene:
Calculando la Medida de Bowley se obtiene
Calculando la desviación estándar poblacional se obtiene:
Calculando la Medida de Fisher se obtiene Datos 6
-166,375
9
-15,625
9
-15,625
12
0,125
12
0,125
12
0,125
15
42,875
17
166,375
Total
12
3.3.2. Curtosis o apuntamiento La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán puntiaguda es una distribución.
3.3.2.1.Tipos de curtosis La curtosis determina el grado de concentración que presentan los valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración. Mesocúrtica.- Existe una concentración normal. Platicúrtica.- Existe una baja concentración.
3.3.2.2.Medidas de curtosis Medida de Fisher Para datos sin agrupar se emplea la siguiente fórmula:
Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:
Para datos agrupados en intervalos se emplea la siguiente fórmula:
Donde: = cada uno de los valores; n = número de datos; = media aritmética; = Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase Nota: Si a < 3 ? la distribución es platicútica Si a = 3 ? la distribución es normal o mesocúrtica Si a > 3 ? la distribución es leptocúrtica Medida basada en Cuartiles y Percentiles
(letra griega minúscula kappa) = Coeficiente percentil de curtosis Nota: Si < 0,263 ? la distribución es platicúrtica Si = 0,263 ? la distribución es normal o mesocúrtica Si > 0,263 ? la distribución es leptocúrtica Esta medida no es muy utilizada. Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12, 12, 12, 15 y 17. Emplear la medida de Fisher y el coeficiente percentil de curtosis. Solución: Calculando la media aritmética se obtiene
Calculando la desviación estándar poblacional se obtiene:
Calculando la Medida de Fisher se obtiene: Datos 6
915,0625
9
39,0625
9
39,0625
12
0,0625
12
0,0625
12
0,0625
15
150,0625
17
915,0625
Total
2058,5
Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor: 6
9
9
12 12 12 15 17
Calculando el cuartil uno se obtiene:
Calculando el cuartil tres se obtiene:
Calculando el percentil 90 se tiene:
Calculando el percentil 10 se tiene:
Calculando el coeficiente percentil de curtosis se obtiene:
Como a= 2,23 y
la distribución es platicúrtica
REFERENCIAS BIBLIOGRÁFICAS BENALCÁZAR, Marco, (2002), Unidades para Producir Medios Instruccionales en Educación, SUÁREZ, Mario Ed. Graficolor, Ibarra, Ecuador. DAZA, Jorge, (2006), Estadística Aplicada con Microsoft Excel, Grupo Editorial Megabyte,
Lima, Perú. SUÁREZ, Mario, (2004), Interaprendizaje Holístico de Matemática, Ed. Gráficas Planeta, Ibarra, Ecuador. SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica TAPIA, Fausto Ibarra, Ecuador. Autor: Mario Orlando Suárez Ibujes
Leer más: http://www.monografias.com/trabajos87/medidas-forma-asimetria-curtosis/medidasforma-asimetria-curtosis.shtml#ixzz4wydx6Qff
4. Presentación y análisis de datos de dos variables 4.1.Tabla de contingencia La tabla de contingencia es un medio particular de representar simultáneamente dos carácteres observados en una misma población, si son discretos o continuos reagrupados en clases. Los dos carácteres son
e
escribirán
, el tamaño de la muestra es , las de
,
el efectivo conjunto de valor
e
el valor
. Se denota:
y
: es el número de individuos para los cuales
,
toma el
,
el efectivo marginal de toma el valor
. Las modalidades o clases de
: es el número de individuos para los cuales
se
el efectivo marginal de toma el valor
: es el número de individuos para los cuales
.
Se representan estos valores en una tabla de doble entrada, llamada tabla de contingencia:
Cada fila y cada columna corresponden a una submuestra particular. La fila de índice distribución en
, de los individuos para los cuales el carácter
La columna de índice carácter
toma el valor
es la distribución sobre
toma el valor
.
, de los individuos para los cuales el
. Dividiendo las filas y las columnas por sus sumas, obtenemos en
cada una, distribuciones empíricas formadas por frecuencias condicionales. Para y
es la
, las denotaremos:
y
http://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/sd/node17.html