Estadistica-conceptos.docx

  • Uploaded by: Fernando Cahuich
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estadistica-conceptos.docx as PDF for free.

More details

  • Words: 3,956
  • Pages: 22
Instituto tecnológico de Campeche Ingeniería industrial

Investigación conceptual 1ra unidad

Probabilidad y estadística

MI2

05/Febrero/2019

Contenido Estadística moderna ............................................................................................................................ 3 Métodos para la obtención de datos .................................................................................................. 4 Principio BEBS o GIGO en ingles .......................................................................................................... 5 ¿Cómo recolectar datos? .................................................................................................................... 6 Tipos de datos estadísticos ................................................................................................................. 7 1-Variables continúas: ................................................................................................................. 7 Datos de características cualitativas: .......................................................................................... 7 Propiedades que describen una serie numérica de datos .................................................................. 8 La media aritmética, .................................................................................................................... 8 La mediana. ................................................................................................................................. 8 La moda. ...................................................................................................................................... 8 Cuartiles....................................................................................................................................... 8 Mediciones de la Variación ......................................................................................................... 8 El rango:....................................................................................................................................... 8 El rango inter-cuartil: .................................................................................................................. 8 La varianza y la desviación estándar: .......................................................................................... 8 Varianza de muestra ................................................................................................................... 9 El Coeficiente de Variación:......................................................................................................... 9 Medidas de tendencias central ......................................................................................................... 10 Otras características generales de las medidas de tendencia central son las siguientes: ........ 10 Comparación entre la media, mediana y moda ................................................................................ 11 media......................................................................................................................................... 11 mediana..................................................................................................................................... 11 moda ......................................................................................................................................... 11 Ejemplo de diferencia entre MEDIA, MEDIANA y MODA ......................................................... 11 Medidas de dispersión ...................................................................................................................... 12 El manejo de grandes cantidades de datos....................................................................................... 13 Medidas de posición ......................................................................................................................... 14 Cuartiles: ................................................................................................................................... 14 Deciles ....................................................................................................................................... 14 Percentiles ................................................................................................................................. 14 Las distribuciones de frecuencias y de porcentajes .......................................................................... 15 1

Los histogramas, el polígono de frecuencias o de porcentajes y la curva de porcentaje acumulado u ojiva ................................................................................................................................................... 16 OJIVAS ....................................................................................................................................... 17 POLÍGONO DE FRECUENCIA ...................................................................................................... 17 Importancia de la forma de datos ..................................................................................................... 19 Graficas para datos cualitativos o categóricos .................................................................................. 20 GRÁFICAS ESTADÍSTICAS ........................................................................................................... 20

2

Estadística moderna Al proporcionar herramientas metodológicas generales para analizar la variabilidad, determinar relaciones entre variables, diseñar en forma óptima estudios y experimentos y mejorar las predicciones y toma de decisiones en situaciones de incertidumbre. Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones. La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es la herramienta fundamental que permite llevar a cabo el proceso relacionado de la estadística con la investigación científica. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde la ciencia de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales. La estadística se divide en dos grandes áreas: Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, grafico circular, entre otros. Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. La estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica. Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia.

3

Métodos para la obtención de datos Los principales métodos de recopilación de datos son: Registros: los registros y licencias son particularmente valiosos para los censos completos, pero se limitan a variables que cambian lentamente, como el número de embarcaciones pesqueras y sus características. Cuestionarios: formularios que los encuestados devuelven cumplimentados. Un método poco costoso que resulta útil cuando los índices de alfabetización son altos y los encuestados colaboran. Entrevistas: formularios que se cumplimentan a lo largo de una entrevista con el encuestado. Más caros que los cuestionarios, pero mejores para preguntas más complejas, y cuando se dan unos índices de alfabetización bajos o se encuentra menos colaboración. Observaciones directas: la realización de mediciones directas es el método más preciso para todas las variables, como las capturas, pero a menudo resulta caro. Muchos métodos, como los programas de observación, se limitan a la pesca industrial. Presentación de informes: la principal alternativa a la realización de mediciones directas consiste en pedir a los pescadores y a terceros que presenten informes de sus actividades. La preparación de informes presupone la alfabetización y requiere espíritu de colaboración, pero ello puede reforzarse mediante una obligación legal y mediciones directas.

4

Principio BEBS o GIGO en ingles Una variante reciente de GIGO lo traduce como (Entra Basura, basura Sale). Esto describe la tendencia de la gente de aceptar el rendimiento de un sistema sin juzgarlo críticamente. Aun si la entrada es basura, creemos en el resultado, normalmente porque no entendemos bien cómo funciona el sistema para producirlo. Esto se llama a veces ‘la fe ciega’. Si ‘entra basura’ en el proceso de riesgo puede haber una falta de objetivos convenidos, identificación de riesgo inadecuada o perezosa, o el uso de respuestas al riesgo poco apropiadas.

5

¿Cómo recolectar datos? La recolección de datos se puede definir como: el medio a través del cual el investigador se relaciona con los participantes para obtener la información necesaria que le permita lograr los objetivos de la investigación. De modo que para recolectar la información hay que tener presente: 1. Seleccionar un instrumento de medición el cual debe ser válido y confiable para poder aceptar los resultados. 2. Aplicar dicho instrumento de medición. 3. Organizar las mediciones obtenidas, para poder analizarlos.

6

Tipos de datos estadísticos Existen varios tipos de datos estadísticos, que se agrupan en dos clasificaciones: datos de características cuantitativas y cualitativas. Los datos de características cuantitativas: Son aquellos que se pueden expresar numéricamente y se obtienen a través de mediciones y conteos. Un dato cuantitativo se puede encontrar en cualquier disciplina; sicología, contabilidad, economía, publicidad, etc. Se clasifican en: 1-Variables continúas: Es cuando los datos estadísticos se generan a través de un proceso de medición se dice que estos son datos continuos; son aquellas que aceptan valores en cualquier punto fraccionario de un determinado intervalo, o sea, que aceptan fraccionamiento en un determinado intervalo. 2-Variables discretas: Se generan a través de un proceso de conteo. Son aquellas que no aceptan valores en puntos fraccionarios dentro de un determinado intervalo, o sea, son aquellas que no aceptan fraccionamiento dentro de un determinado intervalo. Datos de características cualitativas: Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente. Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos. Los datos de características cualitativas se clasifican en: 1-Datos nominales: Comprenden categorías, como el sexo, carrera de estudio, material de los pisos, calificaciones, etc. Las características mencionadas no son numéricas por su naturaleza, pero cuando se aplican, ya sea en una población o una muestra, es posible asignar a cada elemento una categoría y contar él número que corresponde a cada elemento. De esta manera estas características se convierten en numéricas. 2-Datos jerarquizados: Es un tipo de datos de características cualitativas que se refiere a las evaluaciones subjetivas cuando los conceptos se jerarquizan según la preferencia o logro. Las posiciones de una competencia de atletismo se jerarquizan en primer lugar, segundo lugar, tercer lugar, etc. Tanto los datos nominales como los jerarquizados, que por su naturaleza no son numéricas, se convierten en "datos discretos".

7

Propiedades que describen una serie numérica de datos Propiedades de los datos numéricos. Las tres mejores propiedades que describe una serie numérica de datos son: Tendencia central Variación Forma Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se calculan a partir de los datos de una población se denominan parámetros. Mediciones de tendencia Central La media aritmética, es el promedio. Se calcula sumando todas las observaciones y luego dividiendo el total entre el número de elementos involucrados. La media actúa como punto de equilibrio de tal forma que las observaciones menores compensan a las observaciones que son mayores. La media aritmética se ve afectada en gran medida por valores extremos. La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por valores extremos. Para calcular la mediana, primero se deben poner los datos en orden. Después usamos la fórmula del punto de posicionamiento. El cálculo del valor de la media se ve afectado por el número de observaciones, no por la magnitud de cualquier extremo. La moda. Es el valor de una serie de datos que aparece con más frecuencia. La moda no se ve afectada por la ocurrencia de cualquier valor extremo. Cuartiles. Los cuartiles son mediciones descriptivas que dividen los datos ordenados en cuatro cuartos. Mediciones de la Variación La variación es la cantidad de dispersión o propagación en los datos. El rango: es la diferencia entre la mayor y la menor observación en una serie de datos. El rango mide la propagación total en la serie de datos. La debilidad del rango es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Sería impropio usar el rango como una medición cuando uno de o ambos componentes son observaciones extremas. El rango inter-cuartil: es la diferencia entre el tercer y primer cuartil. No se ve influida por valores extremos. La varianza y la desviación estándar: a diferencia de las mediciones anteriores la varianza y la desviación estándar toman en cuenta como se distribuyen las observaciones. 8

Varianza de muestra Varianza de muestra es el promedio de las diferencias cuadradas entre cada una de las observaciones de una serie de datos y la media. La desviación estándar es simplemente la raíz cuadrada de la varianza. La varianza y la desviación miden la dispersión promedio alrededor de la media, es decir, como las observaciones mayores fluctúan por encima de ésta y como las observaciones menores se distribuyen por debajo de ésta. El Coeficiente de Variación: es una medida relativa de variación. Se expresa como porcentaje antes que en términos de las unidades de los datos particulares. Mide la dispersión en los datos relativa a la media. El coeficiente de variación es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.

9

Medidas de tendencias central Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son: media, mediana y moda. Las medidas de tendencia central se utilizan con bastante frecuencia para resumir un conjunto de cantidades o datos numéricos a fin de describir los datos cuantitativos que los forman. Las medidas de tendencia central son también frecuentemente usadas para comparar un grupo de datos con otro, por ejemplo: el promedio de ventas obtenido por un grupo de vendedores de una zona comparado con el promedio de ventas otro grupo de vendedores de otra zona, el promedio de reclamos de clientes de una sucursal, comparado con el promedio de reclamos de otra sucursal. Otras características generales de las medidas de tendencia central son las siguientes: • Permiten apreciar qué tanto se parecen lo grupos entre sí. • Son valores que se calculan para un grupo de datos y que se utiliza para describirlos de alguna manera. . Normalmente se desea que el valor sea representativo de todos los valores incluidos en el grupo. • Es el valor más representativo o típico de un grupo de datos, no es el valor más pequeño o el más grande, sino un valor que está en algún punto intermedio del grupo, más exactamente, se acerca a estar al centro de todos los valores, por ello se les llama medidas de tendencia central. • Se utilizan como mecanismo para resumir una característica de un grupo de datos en particular • También para comparar un grupo de datos contra otro. El cálculo de las medidas de tendencia central se hace mediante fórmulas, las cuales cambian según como se encuentren los datos del grupo con el que se va a trabajar, esto es si están como Datos no agrupados o como Datos agrupados (Distribuciones de frecuencias).

10

Comparación entre la media, mediana y moda MEDIA, MEDIANA y MODA son medidas estadísticas de tendencia central que pueden aplicarse a un conjunto de números o puntuaciones.

media La media aritmética o promedio, se calcula mediante la suma de todos los valores observados y dividiendo por el número de observaciones. La media es la forma más sencilla de resumir una sola variable y por lo general es la mejor medida de tendencia central para los propósitos de la inferencia estadística.

mediana La mediana es el valor medio o central de un conjunto de observaciones. Para encontrar la mediana, los valores deben estar ordenados. Si el total de elementos del conjunto de datos es par, MEDIANA calcula el promedio de los números centrales. Si el total de elementos es un número impar entonces la MEDIANA tomara el valor ubicado en el centro de la lista. La mediana es útil para variables como los precios de la edad, los ingresos, el volumen de negocios y la vivienda.

moda La moda es la incidencia más comúnmente encontrado en un conjunto de datos. Un conjunto de datos puede tener más de una moda. La moda es útil cuando el material más común, característica o valor de un conjunto de datos se requiere.

Ejemplo de diferencia entre MEDIA, MEDIANA y MODA Por Ejemplo, si los estudiantes que asisten a una clase tienen 18, 18, 19, 19, 21, 22 y 51 años La edad MEDIA del grupo sería la edad promedio 18 + 18 + 19 + 19 + 21 + 22 + 51 = 168/7 = 24 La edad MEDIANA del grupo sería el valor medio 19. La edad MODA sería el número que más se repite, en este caso 18 y 19.

11

Medidas de dispersión También llamadas medidas de variabilidad. Muestran la variabilidad de una distribución, indicando por medio de un número si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (desviación media) y otra es tomando las desviaciones al cuadrado (varianza). Las medidas de dispersión, variabilidad o variación nos indican si esos datos están próximos entre sí o sí están dispersos, es decir, nos indican cuán esparcidos se encuentran los datos. Estas medidas de dispersión nos permiten apreciar la distancia que existe entre los datos a un cierto valor central e identificar la concentración de estos en un cierto sector de la distribución, es decir, permiten estimar cuán dispersas están dos o más distribuciones de datos.

12

El manejo de grandes cantidades de datos En ingeniería, como en todas las ramas de la ciencia y la tecnología, resulta indispensable el manejo de grandes cantidades de datos. El manejo de estos datos, se realiza por técnicas matemáticas, que se han compilado en una ciencia denominada estadística, que es la encargada del manejo de datos, para describir los fenómenos, pero más importante aún, para predecirlos. En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Se hará referencia sobre el muestreo estadístico, técnicas, niveles y tipos fundamentales de un muestreo; se describen conceptos básicos que explican lo que esto se refiere al igual se aprecia cómo y qué tipo de técnicas se pueden utilizar para poner en práctica la realización de una auditoria con la finalidad de obtener una información determinada para lograr un objetivo específico. El muestreo estadístico es un procedimiento por el que se ingresan los valores verdaderos de una población a través de la experiencia obtenida con una muestra El muestreo como herramienta de la investigación científica arroja resultados que se pueden utilizar para concluir un determinado estudio X de población, al igual las técnicas selectivas que se requieren para dicho estudio de acuerdo a lo que se va a evaluar. El muestreo permite una reducción considerable de los costos materiales del estudio, una mayor rapidez en la obtención de la información y el logro de resultados con máxima calidad. Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Se suelen representar con histogramas y con diagramas de Pareto.

13

Medidas de posición Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se les llama " Medidas de Tendencia Central”. A continuación, se describen las medidas de posición más comunes utilizadas en estadística, como lo son: Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tercer cuartil.

Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).

Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero a los noventa y nueve percentiles).

14

Las distribuciones de frecuencias y de porcentajes Las distribuciones o tablas de frecuencias permiten resumir los datos en una tabla que recoge: • valores de la variable o modalidades del atributo, • frecuencia absoluta o número de veces que aparece cada valor o modalidad en la muestra, • porcentaje de veces que aparece cada valor de la variable o modalidad del atributo sobre el total de observaciones, • porcentaje válido calculado sobre el total de observaciones excluidos los valores missing, • porcentaje acumulado hasta cada uno de los valores de la variable ordenados de menor a mayor. Este porcentaje tiene interpretación sólo en los casos en que la variable sea susceptible de medida por lo menos en una escala ordinal.

15

Los histogramas, el polígono de frecuencias o de porcentajes y la curva de porcentaje acumulado u ojiva Un Histograma es un tipo especial de gráfica de barras que despliega la variabilidad dentro de un proceso, también toma datos variables (tales como alturas, pesos, densidades, tiempo, temperaturas, etc.) y despliega su distribución. Un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Tipos de histograma ·

Diagramas de barras simples

Representa la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa. ·

Diagramas de barras compuestas

Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, las cuales se representan así; la altura de la barra representa la frecuencia simple de las modalidades o categorías de la variable y esta altura es proporcional a la frecuencia simple de cada modalidad. ·

Diagramas de barras agrupadas

Se usa para representar la información de una tabla de doble entrada o sea a partir de dos variables, el cual es representado mediante un conjunto de barras como se clasifican respecto a las diferentes modalidades.

16

OJIVAS La representación gráfica de un cuadro de frecuencia acumulada son curvas llamadas ojivas. En la gráfica de ojiva, el último intervalo no se une con el eje horizontal. La ojiva apropiada para información que presente frecuencias mayores que el dato que se está comparando tendrá una pendiente negativa (hacia abajo y a la derecha) y en cambio la que se asigna a valores menores, tendrá una pendiente positiva. Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayores que y las ojivas menores que.

POLÍGONO DE FRECUENCIA El polígono de una variable cuantitativa corresponde al diagrama de líneas. Se construye a partir del histograma de frecuencias. Para esto, se unen los puntos medios de cada una de las barras con un segmento recta. Para que la gráfica sea un polígono, es necesario construir un segmento de recta. Para que la gráfica sea un polígono, es necesario construir un segmento de recta que inicie en el eje horizontal y termine en el punto medio de barra. De forma similar, se debe hacer en la última barra que la figura que se obtenga sea cerrada. Para construir el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma.

17

18

Importancia de la forma de datos La importancia de los datos estadísticos se funda en el hecho de que sirven para evaluar la tendencia futura de un fenómeno determinado. En efecto, luego de un análisis concienzudo, los datos estadísticos pueden revelar en alguna medida que esperar a futuro en algún área de la actividad humana. Es por ello por lo que la forma de recopilación de dichos datos es fundamental, buscando en todo momento que sean representativos de un universo más grande. Algunas de las aplicaciones de este procedimiento estadístico en función de datos recopilados pueden referir al ámbito de la política, de las finanzas, del mercadeo, etc.

19

Graficas para datos cualitativos o categóricos Los datos cualitativos pueden ser difíciles de ilustrar. El mejor método para presentar los datos, cualitativos o cuantitativos, es a través del uso de gráficas. Muchos métodos de gráficas pueden ilustrar los datos cualitativos y cuantitativos. Una representación visual de los datos reunidos te puede ayudar a describir rápidamente que el dato se está ilustrando sin tener que entrar en una explicación profunda, que tal vez no sea fácilmente entendida sin las gráficas de todas formas. Una gráfica es una forma rápida y eficiente de captar la atención y describir una idea sin utilizar mucho tiempo o muchas palabras.

GRÁFICAS ESTADÍSTICAS Las gráficas estadísticas nos permiten “familiarizarnos” con los datos que se han recopilado y resumido. Se considera como una técnica inicial de ANÁLISIS EXPLORATORIO DE DATOS que produce una representación visual. Las gráficas resultantes revelan un patrón de comportamiento de la variable en estudio. Se ofrecen muchos tipos de gráficos para describir el conjunto de datos. Dependiendo del tipo de datos y lo que se quiera representar, se hará uso del método gráfico más adecuado.

20

Bibliografías https://es.pdfcoke.com/doc/129480693/Conceptos-basicos-de-Probabilidades-y-EstadisticaInferencial

URL Conceptos básicos de estadística https://youtu.be/Xq3thcQqwbc

Tabla de frecuencias agrupadas en intervalo https://youtu.be/CuKr7GzohbI

21

More Documents from "Fernando Cahuich"