Apuntes Del Curso Probabilidad Y Estadística Descriptiva Para Ingeniería.pdf

  • Uploaded by: Juan Manuel Jimenez Rodriguez
  • 0
  • 0
  • July 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Apuntes Del Curso Probabilidad Y Estadística Descriptiva Para Ingeniería.pdf as PDF for free.

More details

  • Words: 33,832
  • Pages: 80
Apuntes del curso Probabilidad y Estadística Descriptiva para Ingeniería

Juan Manuel Jiménez Rodríguez, MBA [email protected] 2018

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

“—Winwood Reade escribe muy bien acerca del tema —dijo Holmes—. Hace observar que mientras el hombre, tomado individualmente, es un acertijo irresoluble, el conjunto de los hombres se convierte en una certidumbre matemática. No puede usted, por ejemplo, anunciar de antemano qué es lo que hará un hombre determinado, pero se puede prever con precisión lo que hará la mayoría de ellos. Eso es lo que dice la estadística.” Sir Arthur Conan Doyle

Sapere Aude Atrévete a saber i

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Tabla de contenido

Introducción .............................................................................................................................................................1 Historia de la Estadística ......................................................................................................................................1 Concepto de Estadística ........................................................................................................................................4 La observación estadística ....................................................................................................................................5 Fuentes estadísticas............................................................................................................................................10 Estadística descriptiva ...........................................................................................................................................12 Datos no agrupados...............................................................................................................................................12 Medidas de posición: Los cuantiles.....................................................................................................................13 Deciles .............................................................................................................................................................13 Cuartiles ..........................................................................................................................................................13 Quintiles ..........................................................................................................................................................13 Percentiles ......................................................................................................................................................13 Medidas de centralización o tendencia central ..................................................................................................14 Media Aritmética ............................................................................................................................................14 Mediana..........................................................................................................................................................15 Moda ..............................................................................................................................................................15 Medidas de Dispersión........................................................................................................................................15 Rango ..............................................................................................................................................................16 Varianza ..........................................................................................................................................................16 Desviación estándar o Típica ..........................................................................................................................17 Coeficiente de variación..................................................................................................................................17 Medidas de Forma o Distribución .......................................................................................................................18 Asimetría.........................................................................................................................................................18 Curtosis ...........................................................................................................................................................20 Datos Agrupados ...................................................................................................................................................20 Diagramas de tallo y hoja ...................................................................................................................................20 Tabla de frecuencias ...........................................................................................................................................21 Histogramas, polígonos de frecuencia y ojivas ..................................................................................................22 Diagramas de caja y bigotes ..............................................................................................................................26 Distribuciones de frecuencia ...............................................................................................................................27 Variables .........................................................................................................................................................27 Intervalos y límites de clase ............................................................................................................................28 Limites reales de clases...................................................................................................................................28 Sapere Aude Atrévete a saber ii

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Tamaño o anchura de un intervalo de clase ...................................................................................................28 Punto medio o marca de clase........................................................................................................................29 Reglas generales para formar las distribuciones de frecuencia .....................................................................29 Frecuencia absoluta ........................................................................................................................................29 Frecuencia relativa .........................................................................................................................................29 Frecuencia absoluta acumulada .....................................................................................................................29 Frecuencia relativa acumulada.......................................................................................................................30 Análisis e interpretación datos numéricos en las distribuciones de frecuencia..................................................30 Medidas de posición: los cuantiles .................................................................................................................30 Medidas de tendencia central ........................................................................................................................31 Medidas de variabilidad .................................................................................................................................31 Medidas de distribución .................................................................................................................................32 Ejercicio ...........................................................................................................................................................32 Probabilidad ...........................................................................................................................................................33 Espacios muestrales y eventos ...........................................................................................................................33 Conteo de los puntos de la muestra ...................................................................................................................36 El principio fundamental del conteo o Regla de multiplicación......................................................................36 Permutaciones ................................................................................................................................................37 Permutaciones por grupos..............................................................................................................................37 Permutaciones Circulares ...............................................................................................................................38 Permutaciones por clases ...............................................................................................................................38 Combinaciones................................................................................................................................................39 Concepto Clásico de Probabilidad ......................................................................................................................40 Concepto Frecuentista de Probabilidad ..............................................................................................................40 Concepto axiomático de probabilidad ................................................................................................................40 Concepto Subjetivo de Probabilidad ...................................................................................................................41 Reglas aditivas ....................................................................................................................................................43 Probabilidad condicional ....................................................................................................................................44 La regla de producto o regla multiplicativa........................................................................................................47 Probabilidad Total ..............................................................................................................................................49 Regla de Bayes ....................................................................................................................................................49 Variables aleatorias y distribuciones de probabilidad ........................................................................................51 Variable Aleatoria ...........................................................................................................................................51 Distribuciones discretas de probabilidad ........................................................................................................53 Media y varianza de una variable aleatoria ...................................................................................................56 Principales distribuciones de probabilidad .........................................................................................................60 Sapere Aude Atrévete a saber iii

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Distribuciones de probabilidad discreta .............................................................................................................60 Distribución binomial ......................................................................................................................................60 Experimentos Multinomiales y la Distribución Multinomial...........................................................................63 Distribución Hipergeométrica .........................................................................................................................64 Distribución Poisson........................................................................................................................................65 Distribuciones de probabilidad continua ............................................................................................................67 Distribución Normal ........................................................................................................................................67 Distribución normal estándar .........................................................................................................................69 Aplicaciones de la distribución normal ...........................................................................................................71 Aproximación normal a la binomial ...............................................................................................................73 Distribución exponencial.................................................................................................................................74

Sapere Aude Atrévete a saber iv

Introducción

La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. En realidad, es mucho más que sólo números apilados y gráficas bonitas; es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. Se nombran entre los más destacados clientes de ésta. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales. La Estadística es una ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. En general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. Algunos autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Algunos establecen que es “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada define la Estadística como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones. Historia de la Estadística Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto. En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo 1

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

de Israel con la finalidad de conocer el número de la población. También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera. Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la población y sus funcionarios públicos tenían la obligación de anotar nacimientos, defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio. Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra. Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media. Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos. Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés comenzó a publicar estadística semanales de los decesos. Esa costumbre continuó muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabía esperar. El trabajo de Graunt, condensado en su obra Natural and Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ...Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico. Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística. Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o permanecía estática. En los tiempos modernos tales métodos fueron resucitados por algunos reyes que necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados Sapere Aude Atrévete a saber 2

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros. Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante, durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos. Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces conocido, a las diversas ramas de la ciencia. Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación, aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H. Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las relaciones. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas. La historia de la estadística está resumida en tres grandes etapas o fases. ✓ Primera Fase: Los Censos: Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos. ✓ Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política: Las ideas mercantilistas extrañan una intensificación de este tipo de investigación. Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la población: los intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la historia natural. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa Aritmética Política. Sapere Aude Atrévete a saber 3

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Chaptal, ministro del interior francés, publica en 1801 el primer censo general de población, desarrolla los estudios industriales, de las producciones y los cambios, haciéndose sistemáticos durante las dos terceras partes del siglo XIX. ✓ Tercera Fase: Estadística y Cálculo de Probabilidades: El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en general para el estudio de fenómenos “cuyas causas son demasiados complejas para conocerlos totalmente y hacer posible su análisis”. Concepto de Estadística Es frecuente que la Estadística se identifique con una tabla o colección de datos ordenados y sistemáticos, lo que en realidad son estadísticas. Esta forma de entender la Estadística tiene su origen en el significado etimológico del término, dado que la palabra Estadística deriva del latín “status” y se remonta a los tiempos en los que los estados-naciones recababan datos, especialmente sobre renta y población, a efectos de recaudación impuestos y mantenimiento del ejército. Al identificarse esos datos con el estado, terminaron conociéndose como estadística. Debe reconocerse que la estadística nace con la necesidad del ser humano de desarrollarse en sociedad, pues se requiere de ella para lograr la armonía en cuanto al desarrollo social de las diferentes tribus y sus interrelaciones. Desde este punto de vista, la estadística es tan antigua como el hombre social. En cambio, la Estadística entendida como ciencia tiene un origen más reciente y el gran desarrollo que ha tenido a lo largo del siglo XX. Como ciencia, la Estadística está formada por el conjunto de métodos y técnicas que permiten la obtención, organización, síntesis, descripción e interpretación de datos, para la toma de decisiones en ambientes de incertidumbre. Este objetivo tiene su razón de ser en el hecho de que la Estadística misma, se preocupa del estudio de lo que podemos denominar como fenómenos de masas; ya que los datos aislados no suponen la necesidad de analizarlos, pues si la información es escasa no tiene sentido plantearse problemas de organización ni de síntesis. Si se estudian los gastos de transporte de las empresas distribuidoras de productos de consumo masivo y se tiene información para solo dos empresas, entonces con esos dos datos no tiene sentido preparar todo un análisis mediante una tablas o gráficos, pues la escasez de información no debiera ser nunca objeto de análisis estadístico, dada que la descripción de la misma es irrelevante y a partir de ella poco se puede decir en relación con los gastos en transporte de todas las empresas del ramo. La metodología estadística adquiere relevancia cuando se analiza un elevado volumen de datos, pues por lo general, tras esa “masa de datos” se esconden ciertas regularidades o leyes de comportamiento que nos permitirán, una vez descritas, tomar decisiones en ambiente de incertidumbre, siempre que esta pueda cuantificarse en términos de probabilidad, pues esas decisiones se basan en una serie de leyes que, a diferencia de las leyes de la física, no son exactas, sino que están sujetas a errores. Entonces, podemos establecer que la Estadística es una disciplina científica que se interesa en los fenómenos típicos o las regularidades que presentan un conjunto de datos y trata de determinar las propiedades de esos conjuntos. Está ligada con el método científico en la toma, organización, recopilación, presentación y análisis de Sapere Aude Atrévete a saber 4

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo a dichas conclusiones. Además, podemos dividir la Estadística en dos ramas principales: la Estadística Descriptiva, que es la más antigua de la Estadística y su objeto es el análisis de los datos para descubrir o describir las posibles regularidades que presenten, la que a su vez se divide en descriptiva (área de la estadística que busca describir y analizar un grupo dado, sin sacar inferencias o conclusiones de un grupo mayor) e inferencial (área de la estadística que trata de las condiciones bajo las cuales las inferencias obtenidas sobre una muestra representativa de una población, son válidas); y la Teoría de la Probabilidad, que nace después y se usa para trasladar el conocimiento estadístico al manejo de las incertidumbres. La unión de ambas ha dado lugar a lo que se conoce como Estadística Matemática. La observación estadística Se ha establecido que la Estadística se dedica al estudio de los fenómenos de masas, es decir, centra su interés en la observación de grupos amplios de entes o elementos, los cuales pueden ser personas o cosas, a los que se les llama Población. Ahora bien, una vez que se tiene claro que el objeto de la Estadística es la observación y estudio de las poblaciones, la siguiente cuestión que puede plantearse es como ha de realizarse esa observación. La misma puede ser exhaustiva o parcial. Las dos formas tienen ventajas e inconvenientes. En el caso de la observación exhaustiva o total, y si se asume que no hay errores de medida entonces, lo que se consigue es eliminar la incertidumbre. En primera instancia, debe definirse que el dato estadístico es la información numérica o cuantitativa sobre un tema, para un cierto período, organizada de tal forma que muestra los aspectos más significativos y de mayor interés de dicho tema. En general es un conjunto de números referidos a una misma característica y recogidos de tal modo que pueden ser comparados, analizados o interpretados. Frente a esa ventaja fundamental, la observación exhaustiva tiene un grave inconveniente: el coste. Se trata tanto de un coste económico, como social, ecológico, de espacio temporal, es decir, el coste desde una perspectiva global. Imaginemos la siguiente situación: ante la posibilidad de lograr un puesto en la Federación de estudiantes, un candidato quiere saber cuál es la intención de voto del electorado estudiantil. Para ello tiene dos opciones: preguntarle a todos los estudiantes o solo a un grupo de ellos. En el primer caso estamos frente a una observación exhaustiva y ante esta situación, para el candidato que lleva a delante la observación, no habrá incertidumbre alguna respecto al resultado final de las elecciones, siempre y cuando no haya errores de medida, los cuales se podrían originar en la falta de sinceridad en la respuesta de los electores, por las no respuestas, entre otras posibles causas. Normalmente no se realiza este tipo de observación dado que el tamaño de la población es demasiado grande, lo que conlleva un coste que hace poco aconsejable esa opción. Un ejemplo de una operación estadística de carácter exhaustivo, dentro de la estadística oficial, son los censos de población. La alternativa al enfoque anterior es la observación parcial, lo que implica que no se observa a toda la población. Dentro de esta forma de proceder se pueden distinguir dos categorías distintas: la subpoblación y la muestra. Con la primera lo que se hace es observar a un conjunto de entes o elementos de la población, que guardan entre si una cierta característica y que los diferencia de los demás. Así, retomando el ejemplo anterior, los electores que no han votado antes porque en las elecciones anteriores no habían ingresado a la institución educativa constituyen una subpoblación. Al proceder de esta forma se Sapere Aude Atrévete a saber 5

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

consigue realizar una operación estadística en menos tiempo y a menor costo pero, en cambio, la incertidumbre acerca de la intención de voto del electorado es enorme, pues esa subpoblación no representa en absoluto a toda la población. Su intención de voto no tiene por qué coincidir con la de los demás electores. No obstante, esta forma de observar la población puede resultar de gran interés en determinados casos. Pensemos que nuestro interés se centra es cuantificar la ocupación hotelera en una zona turística. En esta situación, en lugar de preguntar a todos los establecimientos que se dedican a esta actividad económica, podría resultar suficiente con preguntarle solo a los hoteles a partir de una cierta categoría, por ejemplo a los de tres y más estrellas pues, en este caso, esos elementos de la población son determinantes de la población total y los demás tienen poca incidencia en el volumen de ocupación. La segunda opción de la observación parcial consiste en tomar una muestra. En este caso se observará también un subconjunto de elementos de la población, pero ahora los elementos de la muestra no guardan ninguna característica especial que los diferencie de los demás; al contrario, con una muestra lo que se pretende es representar a toda la población. Podríamos decir que la muestra es una población de tamaño reducido. Las ventajas de observar la población de forma parcial y, en especial, para el caso de seleccionar muestras son, en algunos casos, evidentes: • En primer lugar, reduce el tiempo de observación, considerando que si el tiempo que se dedica a observar los elementos de la población es excesivo, podría ocurrir que los resultados llegaran más tarde de lo necesario. Siguiendo con el ejemplo de las elecciones, si el periodo de observación es superior al tiempo hasta que tengan lugar las elecciones, entonces cuando se disponga de resultados sobre intención de voto ya no son necesarios. En general, si lo que se pretende al observar la población es analizar una característica que no cambia mucho con el transcurso del tiempo, entonces no importará demasiado que el periodo de observación sea razonablemente largo. Por el contrario, si esa característica está sometida a fuertes variaciones en periodos de tiempo cortos o si el plazo de presentación de resultados es breve, en tales circunstancias la observación parcial, mediante una muestra, es el procedimiento más indicado. • En segundo lugar, está el tema de los costos, que en la observación parcial son más reducidos que en el caso de la exhaustiva. • Finalmente, la observación parcial presenta también la ventaja de que reduce las pruebas destructivas. Imaginemos que nos encontramos frente a un estudio de control de la calidad de la producción de una empresa que se dedica a la fabricación de vigas de hormigón para obras civiles. Esas vigas habrán de someterse a presiones altas para conocer su resistencia a la ruptura. Pero si somete toda la producción a este tipo de pruebas destructivas entonces no hay producción. Bastaría en este caso con seleccionar una muestra y, aplicarle ese tipo de pruebas a los elementos de la misma, para tener una idea razonable de cuál es la resistencia a la ruptura de las vigas producidas por la empresa. Pero no todo son ventajas en la observación parcial. El principal inconveniente se deriva de que la observación no es exhaustiva y en estos casos las características de la población serán desconocidas, pues aunque la muestra pretenda representar lo más fielmente posible a la población, con los datos de la muestra solo podremos conocer las características de esos valores muestrales. Entre las características observadas en la muestra y las de la población habrá siempre una diferencia que se conoce como error muestral. Es precisamente este error muestral el que lleva a que las decisiones, en relación con las características poblacionales, se tomen en situaciones de incertidumbre. Sapere Aude Atrévete a saber 6

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Veamos esto de una forma gráfica y sencilla. En la Figura se han representado una población con todos sus elementos y una muestra de los mismos. Como puede apreciarse, la población toma valores que van del 1 al 9, mientras que en la muestra el valor 4 no está incluido. Así pues, según la muestra, los valores de la población van del 1 al 3 y del 4 al 9, pero eso no es cierto, solo es aproximado. Se está cometiendo un error.

Población y muestra

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial. ✓ Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales. ✓ Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de una muestra tomada. El conjunto de los métodos que se utilizan para medir las características de la información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama método estadístico. Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes siete pasos: 1. 2. 3. 4. 5. 6. 7.

Definición del problema. Recopilación de la información existente. Obtención de información original. Clasificación. Presentación. Análisis. Obtención de conclusiones.

Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la digitación y que no son tan fácilmente identificables. Algunos de estos errores son:

Sapere Aude Atrévete a saber 7

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

✓ Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. ✓ Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. ✓ Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. ✓ Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada. Variables y atributos Se ha señalado que el objeto de estudio de la Estadística son las poblaciones, que están formadas por entes o elementos y que el número total de ellos determina el tamaño de la población. Para estudiar una población, lo primero que debe hacerse es observarla de alguna de las formas ya señaladas. Observar una población es equivalente a observar sus elementos y esos elementos poseen una serie de características que son las que realmente se observan. Por ejemplo, el conjunto de todas las empresas industriales radicadas en una localidad constituye una población. Los elementos de esa población son las empresas. Pero una empresa no se observa en abstracto, ya que lo que realmente tiene interés son sus características, como por ejemplo el número de empleados, el volumen de ventas, los costes salariales, los gastos en publicidad, los beneficios de las mismas, la naturaleza de los productos que fabrican, etc. A todas estas características de los elementos de una población se les conoce de forma genérica como variables y son susceptibles de medirse y a cada una de esas posibles mediciones o realizaciones se les conoce como valores, datos u observaciones. La naturaleza de las observaciones que realicemos en una investigación, será de gran importancia a la hora de elegir el método estadístico más apropiado para abordar su análisis. Por ejemplo, lo que estudiamos en cada individuo de la una muestra son las variables (edad, sexo, peso, talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar con la observación es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable. Entonces, podemos decir que una variable estadística es cada una de las características o cualidades que poseen los individuos de una población, una propiedad característica de la población que estamos interesados en estudiar. Sapere Aude Atrévete a saber 8

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

En general, las variables, o caracteres cuantitativos, son aquellos que pueden ser expresados mediante números y son susceptibles de medición, como, por ejemplo, la estatura, el peso, el salario, la edad, etc. Según Murray R. Spiegel, (1992) "una variable es un símbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. En el caso de que la variable pueda tomar solamente un valor, se le llama constante." Todos los elementos de la población poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto, estos distintos números o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable. Los atributos, también llamados caracteres cualitativos, son aquellos que no son susceptibles de medición, es decir que no se pueden expresar mediante un número. Según IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas características que pueden presentarse en individuos que constituyen un conjunto”. La forma de expresar los atributos es mediante palabras, por ejemplo; profesión, estado civil, sexo, nacionalidad, etc. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades". Por ejemplo, el estado civil de cada uno de los estudiantes del curso de estadística, no se presenta en la misma modalidad en todos. Se les denomina variable porque son características que, al ser medidas en diferentes individuos, son susceptibles de adoptar diferentes valores. Existen diferentes tipos de variables, entre ellas: 1. Según la medición: 1.1 Variables cualitativas 1.2 Variables cuantitativas 2. Según la influencia 2.1 Variables independientes 2.2 Variables dependientes 3. Otras 3.1 Variable interviniente 3.2 Variable moderadora Si analizamos las variables según la medición, encontraremos: 1. Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad, y no pueden ser medidas con números. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir: a. Variable cualitativa ordinal: También llamada variable cuasicuantitativa, puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: leve, moderado, grave. b. Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. Sapere Aude Atrévete a saber 9

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

2. Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas, por tanto se pueden realizar operaciones aritméticas con ella. Las variables cuantitativas además pueden ser: a. Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5). b. Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo, la masa (2,3 kg, 2,4 kg, 2,5 kg, ...) o la altura (1,64 m, 1,65 m, 1,66 m, ...), que solamente está limitado por la precisión del aparato medidor, en teoría permiten que siempre exista un valor entre dos variables. Si las analizamos según la influencia que asignemos a unas variables sobre otras, podrán ser: 1. Variables independientes: Una variable independiente es aquella cuyo valor no depende del de otra variable. Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de control, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo. Es aquella característica o propiedad que se supone ser la causa del fenómeno estudiado. En investigación experimental se llama así a la variable que el investigador manipula. 2. Variables dependientes: Una variable dependiente es aquella cuyos valores dependen de los que tomen otra variable. Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Hayman (1974) la define como propiedad o característica que se trata de cambiar mediante la manipulación de la variable independiente. La variable dependiente es el factor que es observado y medido para determinar el efecto de la variable independiente. Otros tipos de variables que se pueden determinar, son: 1. Variable interviniente: Son aquellas características o propiedades que de una manera u otra afectan el resultado que se espera y están vinculadas con las variables independientes y dependientes. 2. Variable moderadora: Según Tuckman: representan un tipo especial de variable independiente, que es secundaria, y se selecciona con la finalidad de determinar si afecta la relación entre la variable independiente primaria y las variables dependientes. Fuentes estadísticas Se ha indicado que el objetivo de la Estadística es el estudio de los fenómenos de masas y que ello requiere el manejo de una información numérica amplia. La cuestión inmediata que surge es saber de dónde se puede obtener esa información, sin la cual el análisis estadístico no se puede realizar. En definitiva, se trata de conocer las fuentes que suministran información de carácter estadístico. Estas fuentes son susceptibles de clasificarse según distintos criterios: Atendiendo al agente que elabore esa información, la misma puede agruparse en endógena y exógena; la primera sería la que elabora el propio investigador Si es endógena, la operación estadística conducente a recabar los datos necesarios para la realización del análisis estadístico, se supone que es realizada por el propio investigador, quien se encargará de observar los distintos caracteres, cuantitativos o cualitativos, relevantes de los elementos de una población. El resultado será una base de datos, obtenida mediante una muestra, o cualquiera de los otros procedimientos indicados con anterioridad, Sapere Aude Atrévete a saber 10

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

que permitirá el correspondiente análisis estadístico. Esta situación se da cuando no existe fuente alternativa exógena capaz de facilitar esa información. Si la fuente es exógena, la podemos definir como aquella cuyo objeto principal es la obtención de información estadística pero que no actúa como usuaria. Las fuentes exógenas son múltiples y a su vez se las puede clasificar en dos categorías distintas. Por un lado, están las fuentes oficiales o públicas y, por otro, las privadas. De todas ellas las que generan mayor volumen de información son las primeras, es decir, las oficiales o públicas. Estas últimas se pueden clasificar, a su vez, según el ámbito espacial en que desarrollan sus competencias en materia estadística. Así se tienen las fuentes de carácter internacional, las de ámbito estatal, las de ámbito regional o autonómico y las de carácter local.

Sapere Aude Atrévete a saber 11

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Estadística descriptiva Datos no agrupados Una de las principales funciones de la estadística consiste en la descripción de los datos; ya sea por medio de medidas (estimadores), gráficos o tablas en las que se puedan apreciar claramente el comportamiento y las tendencias de la información recopilada. Debemos recordar que la estadística es un sistema o método empleado en la recolección, organización, análisis e interpretación de los datos. Esta ciencia se divide en dos fases; la primera corresponde a la Estadística descriptiva, cuya finalidad es agrupar y representar la información de forma ordenada, de tal manera que nos permita identificar rápidamente aspectos característicos del comportamiento de los datos. La segunda fase corresponde a la Estadística de Inferencia, la cual busca dar explicación al comportamiento o hallar conclusiones de un amplio grupo de individuos, objetos o sucesos a través del análisis de una pequeña fracción de sus componentes (Muestra). En este capítulo nos concentraremos exclusivamente en la Estadística Descriptiva y los procedimientos que la componen, como las medidas de tendencia central, medidas de distribución y las medidas de dispersión. Antes de conocer cada una de estas medidas es necesario resaltar la diferencia entre Población y Muestra. Se denomina Población al total de los elementos que componen un conjunto, el cual es el objeto de interés de un estudio. Las poblaciones pueden ser finitas o infinitas de acuerdo si se conoce el total de los elementos que la componen o no. Generalmente es bastante difícil realizar un estudio con el total de la población, ya sea porque es demasiado grande, requiere demasiado tiempo para su análisis, los costos son muy elevados, se desconoce el total de elementos, etc. Por estas razones se suele sustraer una pequeña fracción de la población para realizar los análisis; de tal manera que las conclusiones que se extraigan sobre la fracción sean aplicables a la población. A esta fracción se le denomina Muestra y cada uno de los procedimientos estadísticos presenta algunas variaciones en sus ecuaciones de acuerdo si los datos representan muestras o poblaciones. Las medidas descriptivas son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en ella. El siguiente cuadro nos muestra un panorama global de las medidas descriptivas: Posición: que dividen un conjunto ordenado de datos en grupos con igual cantidad de elementos. Trataremos los deciles, cuartiles, quintiles y percentiles. Centralización: indican valores con respecto a los que los datos parecen agruparse. Estudiaremos la media aritmética, la mediana y la moda. Medidas descriptivas Dispersión: indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Estudiaremos el rango o recorrido, la varianza, la desviación estándar y el coeficiente de variación. Forma o distribución: identifican la forma en que se separan o aglomeran los valores de acuerdo con su representación gráfica. Estudiaremos los coeficientes de sesgo y de curtosis.

Sapere Aude Atrévete a saber 12

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Medidas de posición: Los cuantiles Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, los deciles, los quintiles y los percentiles. Deciles Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Por ejemplo, el tercer decil (D3) es el menor valor que es mayor que un 30% de los datos, el sétimo decil (D7) es el menor valor que es mayor que un 70% de los datos. Cuartiles Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles. El primer cuartil (Q1) es el menor valor que es mayor que una cuarta parte de los datos, el segundo cuartil (Q2) (la mediana), es el menor valor que es mayor que la mitad de los datos y el tercer cuartil (Q3) es el menor valor que es mayor que tres cuartas partes de los datos. Quintiles Son los cuatro valores que dividen al conjunto de datos ordenados en cinco partes iguales, son también un caso particular de los percentiles. Por ejemplo, el tercer quintil (K1) es el menor valor que es mayor que un 20% de los datos, el cuarto quintil (K4) es el menor valor que es mayor que un 80% de los datos. Percentiles Son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 (P15) deja por debajo al 15% de las observaciones, y por encima queda el 85%. Para obtener un cuantil, se obtiene primero el percentil correspondiente y luego se utiliza la fórmula general para calcular los percentiles: 𝑚 ∙ (𝑛 + 1) 𝑃𝑚 = 𝑌𝑗 + ( − 𝑗) (𝑌𝑗+1 − 𝑌𝑗 ) 100 Donde: 𝑚∙(𝑛+1)

j = parte entera de 100 , que representa la posición en los datos ordenados. Yj representa el valor de la posición j en los datos ordenados. Definamos un conjunto de datos no agrupados, es decir, datos y no grupos o clases de datos, como el siguiente: 78 31 86 44 50

48 22 68 75 84

1 32 72 42 64

82 84 6 3 98

Sapere Aude Atrévete a saber 13

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Lo primero que debemos hacer es ordenarlos: 1 3 6 22 31 32 42 44 48 50 64 68 72 75 78 82 84 84 86 98 A partir de ese ordenamiento, definiremos algunas medidas de posición: D3, Q2, K4; P15: 30∗(20+1) − 6) (𝑌6+1 − 𝑌6 ) = 32 + (6,3 − 6)(42 − 32) = 35 100 50∗(20+1) 𝑄2 = 𝑃50 = 𝑌10 + ( − 10) (𝑌10+1 − 𝑌10 ) = 50 + (10,5 − 10)(64 − 50) = 57 100 80∗(20+1) 𝐾4 = 𝑃80 = 𝑌16 + ( 100 − 16) (𝑌16+1 − 𝑌16 ) = 82 + (16,8 − 16)(84 − 82) = 83,6 15∗(20+1) 𝑃15 = 𝑌3 + ( 100 − 3) (𝑌3+1 − 𝑌3 ) = 6 + (3,15 − 3)(22 − 6) = 8,4

𝐷3 = 𝑃30 = 𝑌6 + (

Medidas de centralización o tendencia central Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se tienden a reunir los datos (“Punto central”). Estas medidas aplicadas a las características de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la población. Los principales métodos utilizados para ubicar el punto central son la media, la mediana y la moda. Media Aritmética Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones. ∑ 𝑥𝑖 𝜇 = 𝑥̅ = 𝑛 Sapere Aude Atrévete a saber

14

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras 1070

En el ejemplo que hemos estado utilizando, la media aritmética sería: 𝑥̅ = 20 = 53,5. Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la Media ponderada, la Media cuadrática, etc. En general, a la media aritmética se le conoce como media o como promedio. Mediana Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. La mediana nos indica el valor que separa los datos en dos fracciones iguales, con el cincuenta por ciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado la posición del medio de los datos; mientras que para las muestras con un número par de observaciones se deben promediar los valores de las dos posiciones centrales. En el ejemplo que estamos desarrollando, como el número de observaciones es par (20), entonces se deben 50+64 promediar los dos datos del centro de los datos ordenados: 𝑀𝑒 = = 57. Obsérvese que la mediana es igual 2 a Q2, D5 y P50. Moda La medida modal nos indica el valor que más veces se repite dentro de los datos. Es posible que en algunas ocasiones se presenten dos o más valores con la mayor frecuencia, lo que se conoce como multimodal, o que no se presente repetición de datos, lo que se conoce como amodal. En el ejemplo que estamos realizando, tenemos que el valor 84 se repite dos veces, y no hay otro valor que se repita, por lo que la moda es Mo = 84. Si hubiese un valor que se repite tres veces, aunque el 84 se repita dos veces, ese valor asumiría el rango de Moda. En conclusión, las Medidas de tendencia central nos permiten identificar los valores más representativos de los datos, de acuerdo con la manera como se tienden a concentrar. La Media (𝜇 𝑜 𝑥̅ ) nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana (Me) por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta por ciento de los datos. Por último, la Moda (Mo) nos indica el valor que más se repite dentro de los datos. En cuanto a la simbología, µ representa la media poblacional mientras que 𝑥̅ la media muestral, Me la mediana y Mo la moda.

Medidas de Dispersión Así como las medidas de tendencia central nos permiten identificar el punto central de los datos, las medidas de dispersión nos permiten reconocer qué tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones alrededor de su promedio aritmético (Media 𝑥̅ ). Este tipo de medidas son parámetros informativos que nos permiten conocer cómo los valores de los datos se reparten a través de Sapere Aude Atrévete a saber 15

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. Las medidas de dispersión más importantes y las más utilizadas son el Rango, la Varianza, la Desviación estándar (o Típica) y el Coeficiente de Variación. Rango Esta medida nos permite identificar la separación total entre los extremos de los datos, es decir, la longitud del rango de datos. Se calcula restándole al mayor valor de los datos, el menor valor de los datos: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 . En nuestro ejemplo, el rango sería: 𝑅 = 98 − 1 = 97. Varianza Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media 𝑥̅ ). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. La varianza se calcula como: (𝑥−𝜇)2 si es poblacional 𝑛 (𝑥−𝑥̅ )2 ∑ si es muestral 𝑛−1

𝜎2 = ∑ 𝑠2 = En nuestro ejemplo:

(1 - 53,5)^2 / 19 (3 - 53,5)^2 / 19 (6 - 53,5)^2 / 19 (22 - 53,5)^2 / 19 (31 - 53,5)^2 / 19 (32 - 53,5)^2 / 19 (42 - 53,5)^2 / 19 (44 - 53,5)^2 / 19 (48 - 53,5)^2 / 19 (50 - 53,5)^2 / 19 (64 - 53,5)^2 / 19 (68 - 53,5)^2 / 19 (72 - 53,5)^2 / 19 (75 - 53,5)^2 / 19 (78 - 53,5)^2 / 19 (82 - 53,5)^2 / 19 (84 - 53,5)^2 / 19 (84 - 53,5)^2 / 19 (86 - 53,5)^2 / 19 (98 - 53,5)^2 / 19

= = = = = = = = = = = = = = = = = = = =

145,07 134,22 118,75 52,22 26,64 24,33 6,96 4,75 1,59 0,64 5,80 11,07 18,01 24,33 31,59 42,75 48,96 48,96 55,59 104,22

s2 = 906,47 Sapere Aude Atrévete a saber 16

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Desviación estándar o Típica Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza. En nuestro ejemplo: 𝑠 = √906,47 = 30,11. Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente. Por lo que su media es: 𝑥̅ =

490+500+510+515+520 5

=

2535 5

= 507

El rango sería R = 520 -490 = 30. La varianza sería: 𝑠2 =

(490−507)2 +(500−507)2 +(510−507)2 +(515−507)2 +(520−507)2 5−1

=

289+49+9+64+169 4

=

580 4

= 145

Por lo tanto, la desviación estándar sería: 𝑠 = √145 = 12,04 Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuánto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado. En cuanto a la simbología, σ2 representa la varianza poblacional, s2 la varianza muestral, σ representa la desviación estándar poblacional, s la desviación estándar muestral y R representa el Rango. Coeficiente de variación En estadística, cuando se desea hacer referencia a la relación entre el tamaño de la media y la variabilidad de la variable, se utiliza el coeficiente de variación. Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado, presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor del coeficiente de variación mayor heterogeneidad de los valores de la variable; y a menor coeficiente de variación, mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas CV. Se calcula: 𝐶𝑉 = En nuestro ejemplo, el 𝐶𝑉 =

30,11 53,5

𝜎 𝑠 = ̅ |𝜇| |𝑥|

= 0,56. Sapere Aude Atrévete a saber 17

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Entre sus propiedades se detalla que el coeficiente de variación no posee unidades, es típicamente menor que uno, sin embargo en ciertas distribuciones de probabilidad puede ser 1 o mayor que 1, para su mejor interpretación se expresa como porcentaje, depende de la desviación típica, también llamada "desviación estándar", y en mayor medida de la media aritmética, dado que cuando ésta es 0 o muy próxima a este valor el CV pierde significado, ya que puede dar valores muy grandes, que no necesariamente implican dispersión de datos. El coeficiente de variación es común en varios campos de la probabilidad aplicada, como teoría de renovación y teoría de colas. En estos campos la distribución exponencial es a menudo más importante que la distribución normal. La desviación típica de una distribución exponencial es igual a su media, por lo que su coeficiente de variación es 1. Las distribuciones con un CV menor que uno, como la distribución de Erlang se consideran de "baja varianza", mientras que aquellas con un CV mayor que uno, como la distribución hiperexponencial se consideran de "alta varianza". Algunas fórmulas en estos campos se expresan usando el cuadrado del coeficiente de variación, abreviado como SCV. Medidas de Forma o Distribución Las medidas de forma o distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo con su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. Asimetría La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media. Existen tres tipos de curva de distribución según su asimetría: • • •

Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media. Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal. Asimetría positiva: la cola de la distribución se alarga para valores superiores a la media.

Existen tres coeficientes de asimetría:

Sapere Aude Atrévete a saber 18

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Coeficiente de asimetría de Fisher: El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a 3 su media x. Cuanto mayor sea la suma ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) , mayor será la asimetría. Sea el conjunto X = (x1, x2, …, xN), entonces la fórmula de la asimetría de Fisher es: 3 ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝐶𝐴𝐹 = 𝑁𝑠 3 • Si CAF < 0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media. • Si CAF = 0: la distribución es simétrica o insesgada. • Si CAF > 0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

En nuestro ejemplo: 𝐶𝐴𝐹 = −0,36, por lo que la distribución es asimétrica negativa. Compruébelo. Coeficiente de asimetría de Pearson: El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y la moda respecto a la dispersión del conjunto X = (x1, x2, …, xN). Este procedimiento, menos usado, lo emplearemos solamente en distribuciones unimodales y poco asimétricas. 𝑥̅ − 𝑀𝑜 𝐶𝐴𝑃 = 𝑠 • • •

Si CAP < 0: la distribución tiene una asimetría negativa, puesto que la media es menor que la moda. Si CAP = 0: la distribución es simétrica. Si CAP > 0: la distribución tiene una asimetría positiva, ya que la media es mayor que la moda.

En nuestro caso 𝐶𝐴𝑃 = −1,01, por lo que la distribución es asimétrica negativa. Compruébelo. Coeficiente de asimetría de Bowley: El coeficiente de asimetría de Bowley CAB toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar. Sea el conjunto X = (x 1, x2, …, xN), la asimetría de Bowley es: 𝑄3 + 𝑄1 − 2𝑀𝑒 𝐶𝐴𝐵 = 𝑄3 − 𝑄1 • Si CAB < 0: la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es menor que al tercero. Sapere Aude Atrévete a saber 19

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

• •

Si CAB = 0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana. Si CAB > 0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.

Para nuestro ejemplo 𝐶𝐴𝐵 = −0,46, por lo que la distribución es asimétrica negativa. Compruébelo. Curtosis La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución. Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva. La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será: 4 ∑𝑁 𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝐶𝐶 = −3 𝑁𝑠 4 En la distribución normal se verifica que μ4 = 3σ4, donde μ4 es el momento de orden 4 respecto a la media y ha sustraído 3, que es la curtosis de la distribución normal o gaussiana, con objeto de generar un coeficiente que valga 0 para la Normal y tome a ésta como referencia de apuntamiento. Tomando la distribución normal como referencia, una distribución puede ser: • Leptocúrtica, cuando CC > 0: más apuntada y con colas menos anchas que la normal. • Platicúrtica, cuando CC < 0: menos apuntada y con colas más anchas que la normal. • Mesocúrtica, cuando CC = 0: tiene una distribución normal.

Datos Agrupados Diagramas de tallo y hoja La media, mediana y la desviación estándar son resúmenes numéricos de una muestra o de una población. Los resúmenes gráficos también se usan para ayudar a visualizar una lista de números. Un resumen gráfico es el Sapere Aude Atrévete a saber 20

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

diagrama de tallo y hoja. Una gráfica de tallos y hojas constituye una manera simple de resumir un conjunto de datos. Cada elemento de la muestra se divide en dos partes: un tallo, que consta de uno o dos dígitos que están en el extremo izquierdo, y la hoja, que consta del siguiente dígito significativo. Cada renglón del diagrama de tallos y hojas contiene todos los elementos de la muestra con un tallo dado. El diagrama de tallos y hojas es una forma compacta de representar los datos. También indica un poco su forma. Si se tienen los datos: 91 66 74 50 62 74 79 71 94 79 56

17 50 28 58 50 4 13 41 68 13 4

87 76 61 87 32 65 21 32 50 87 70

27 28 31 45 42 46 45 76 27 17 94

19 56 95 57 93 95 38 59 17 38 81

Su diagrama de tallo y hojas sería: Tallo Hojas 0 4, 4 1 3, 3, 7, 7, 7, 9 2 1, 7, 7, 8, 8 3 1, 2, 2, 8, 8 4 1, 2, 5, 5, 6 5 0, 0, 0, 0, 6, 6, 7, 8, 9 6 1, 2, 5, 6, 8 7 0, 1, 4, 4, 6, 6, 9, 9 8 1, 7, 7, 7 9 1, 3, 4, 4, 5, 5 Tabla de frecuencias Una tabla de frecuencias es una tabla que reúne los datos obtenidos en una observación estadística, resumiéndolos en cuatro columnas que muestran la frecuencia de los datos (f), la frecuencia relativa (fr), la frecuencia acumulada (F) y la frecuencia acumulada relativa (Fr). La frecuencia de los datos (f) es la suma de las ocasiones en que aparecen los datos ya sea individualmente o agrupados en clases o tallo. La frecuencia relativa (fr) es la frecuencia de cada tallo o clase dividida entre la cantidad total de datos. La frecuencia acumulada es la suma de la frecuencia que se va acumulando en cada clase, F = f + Fanterior. La frecuencia acumulada relativa es la frecuencia acumulada de cada tallo o clase, dividida entre la cantidad total de datos. Sapere Aude Atrévete a saber 21

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

En el ejemplo anterior, la tabla de frecuencias sería: f fr 2 3,64% 6 10,91% 5 9,09% 5 9,09% 5 9,09% 9 16,36% 5 9,09% 8 14,55% 4 7,27% 6 10,91% 55 100,00%

F 2 8 13 18 23 32 37 45 49 55

Fr 3,64% 14,55% 23,64% 32,73% 41,82% 58,18% 67,27% 81,82% 89,09% 100,00%

Histogramas, polígonos de frecuencia y ojivas Un histograma es una gráfica que da una idea de la “forma” de una muestra, indicando las regiones donde los puntos de la muestra están concentrados y las regiones donde son escasos. En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos. En términos matemáticos, puede ser definido como una función inyectiva (mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una partición. El histograma, como es tradicionalmente entendido, no es más que la representación gráfica de dicha función. Se utiliza cuando se estudia una variable continua y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. Entre los diferentes tipos de diagramas que existen, los diagramas de barras simples representan la frecuencia simple (absoluta o relativa) mediante la altura de la barra la cual es proporcional a la frecuencia simple de la categoría que representa. El Polígono de frecuencias es un gráfico de líneas de las frecuencias absolutas de los valores de una distribución en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de dicho valor. La Ojiva de frecuencias acumuladas porcentuales es un gráfico acumulativo, el cual es muy útil cuando se quiere representar el rango porcentual de cada valor en una distribución de frecuencias. En los gráficos las barras se encuentran juntas y en la tabla los números poseen en el primer miembro un corchete y en el segundo un paréntesis, por ejemplo: [10-20). Los histogramas y los polígonos de frecuencia son dos representaciones gráficas de las distribuciones de frecuencia: 1. Un histograma o histograma de frecuencias consiste en una serie de rectángulos que tienen: a. Sus bases sobre un eje horizontal (el eje X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. b. Superficies proporcionales a las frecuencias de clase: Si los intervalos de clase tienen todos iguales tamaños, las alturas de los rectángulos son proporcionales a las frecuencias de clase y se acostumbra en Sapere Aude Atrévete a saber 22

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

tal caso a tomar las alturas numéricamente iguales a las frecuencias de clase. Si los intervalos de clase no son de igual tamaño, estas alturas deberán ser calculadas. 2. Un polígono de frecuencias es un gráfico de línea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectángulos en el histograma. Construcción de un histograma Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor menos el dato menor. Paso 2: Obtener los números de clases, existen varios criterios para determinar el número de clases (o barras), sin embargo, ninguno de ellos es exacto. Recomendamos de cinco a veinte clases, dependiendo de cómo estén los datos y cuántos sean. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos. Por ejemplo, la raíz cuadrada de 30 (número de artículos) es mayor que cinco, por lo que se seleccionan seis clases. Paso 3: Establecer la longitud de clase: es igual al rango dividido por el número de clases. Paso 4: Construir los intervalos de clases: Los intervalos resultan de dividir el rango de los datos con relación al resultado del Paso 2 en intervalos iguales. Paso 5: Graficar el histograma. En caso de que las clases sean todas de la misma amplitud, se hace un gráfico de barras, las bases de las barras son los intervalos de clases y altura son la frecuencia de las clases. Si se unen los puntos medios de la base superior de los rectángulos se obtiene el polígono de frecuencias. El histograma y el polígono de frecuencias correspondiente a una distribución de frecuencias de las alturas de estudiantes se muestran en el mismo sistema de ejes en la Fig. 1. Se acostumbra a prolongar el polígono con PQ y RS hasta las marcas de clase inferior y superior inmediatas, que corresponderían a la clase de frecuencia cero. En tal caso, la suma de las áreas de los rectángulos del histograma es igual al área total limitada por el polígono de frecuencias y el eje X.

Figura 1

Si las frecuencias del anterior gráfico de frecuencias se sustituyen por las correspondientes frecuencias relativas, se denomina distribución de frecuencias relativas o distribución porcentual. Las representaciones gráficas de distribuciones de frecuencia relativa pueden obtenerse del histograma o del polígono de frecuencias, sin más que cambiar la escala vertical de frecuencia a frecuencia relativa, conservándose exactamente el mismo Sapere Aude Atrévete a saber 23

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

diagrama. Los gráficos que resultan se llaman histogramas de frecuencias relativas o histogramas porcentuales y polígonos de frecuencias relativas o polígonos porcentuales, respectivamente. La frecuencia total de todos los valores menores que el límite real superior de clase de un intervalo de clase dado, se conoce como frecuencia acumulada hasta ese intervalo de clase inclusive. Una tabla que represente las frecuencias acumuladas se llama distribución de frecuencias acumuladas, tabla de frecuencias acumuladas o brevemente distribución acumulada, y se muestra un ejemplo en la Tabla 1. Altura Número de (cm) estudiantes Menor que 159,5 0 Menor que 162,5 5 Menor que 165,5 23 Menor que 168,5 65 Menor que 171,5 92 Menor que 174,5 100 Alturas de Estudiantes, Tabla 1

Un gráfico que muestre las frecuencias acumuladas menores que cualquier límite real superior de clase trazado sobre los límites reales superiores de clase se llama polígono de frecuencias acumuladas u ojiva y se muestra en la Fig. 2 para la distribución de la altura de los estudiantes. Frecuencias Acumuladas

100% 92%

80% 60%

100%

65%

40% 20% 0%

0% < 159,5

5% < 162,5

23% < 165,5

< 168,5

< 171,5

< 174,5

Altura en cm Figura 2

En algunos casos es preferible considerar una distribución de frecuencias acumuladas de todos los valores mayores o iguales al límite real inferior de clase de cada intervalo de clase. En este caso consideramos las alturas de 159,5 centímetros o más, 162,5 centímetros o más, etc., ésta se llama a veces distribución acumulada «o más», mientras que la considerada anteriormente es la distribución acumulada «menor que». De la una se obtiene fácilmente la otra. Las correspondientes ojivas se llaman «o más» y «menor que». Siempre que nos refiramos a distribuciones acumuladas u ojivas sin especificar, se entenderá que son del tipo «menor que». La frecuencia relativa acumulada o frecuencia porcentual acumulada es la frecuencia acumulada dividida por la frecuencia total. Por ejemplo, la frecuencia relativa acumulada de alturas menores que 168,5 centímetros es 65/100 = 65 %, queriendo con ello decir que el 65 % de los estudiantes tienen alturas menores de 168,5 centímetros. Si se utilizan en la Tabla 1 y Fig. 2 las frecuencias relativas acumuladas en lugar de las frecuencias acumuladas, los resultados se llaman distribuciones de frecuencias relativas acumuladas o distribuciones porcentuales acumuladas y polígonos de frecuencias relativas acumuladas u ojivas porcentuales, respectivamente. Sapere Aude Atrévete a saber 24

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extraída, de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase. Así se tiene que el polígono de frecuencias o el de frecuencias relativas para una población grande puede estar formado por muchos pequeños segmentos rectos que aproximan el conjunto a una curva, las curvas de este tipo pueden llamarse curvas de frecuencias o curvas de frecuencias relativas, respectivamente. Es razonable esperar que tales curvas teóricas provengan de la suavización de los polígonos de frecuencias o de los polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño de la muestra. Por esta razón una curva de frecuencias se conoce como un polígono de frecuencias suavizado. De una forma análoga las ojivas suavizadas provienen de la suavización de los polígonos de frecuencias acumuladas u ojivas. Normalmente es más sencillo suavizar una ojiva que un polígono de frecuencias. Las curvas de frecuencia presentan determinadas formas características que les distinguen como se indica en la Figura 3.

Simétrica o bien formada

Sesgada a la derecha (sesgo positivo)

Sesgada a la izquierda (sesgo negativo)

En forma de J

En forma de J invertida

En forma de U

Bimodal

Multimodal Figura 3

a. Las curvas de frecuencia simétricas o bien formadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal. b. En las curvas de frecuencia moderadamente asimétricas o sesgadas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo. c. En las curvas en forma de J o de / invertida, el máximo se presenta en un extremo. d. Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos. e. Una curva de frecuencias bimodal tiene dos máximos. Sapere Aude Atrévete a saber 25

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Una curva de frecuencias multimodal tiene más de dos máximos. Diagramas de caja y bigotes Un diagrama de caja constituye una gráfica que incluye la mediana, el primero y el tercer cuartil y cualquier dato atípico que se presente en una muestra. Los diagramas de caja son fáciles de comprender, pero hay una pequeña terminología asociada con ellos. El rango intercuartil es la diferencia entre el tercer y el primer cuartil. Observe que debido a que 75% de los datos son menores que el tercer cuartil y que 25% de los datos son menores que el primer cuartil, la mitad de los datos está entre el primero y el tercer cuartil. Por tanto, el rango intercuartil representa la distancia necesaria para atravesar la mitad de los datos de en medio. Se ha definido a los datos atípicos como puntos que son inusualmente grandes o pequeños. Para construirlo se siguen los siguientes pasos: Paso 1: Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC = Q3 – Q1). Paso 2: Los bigotes, las líneas que se extienden desde la caja, se extienden desde el valor mínimo de la serie hasta el valor máximo de la serie o hasta ± 1,5 veces el RIC. Cuando los datos se extienden más allá de estos valores relativos al RIC, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls, para lo que se consideran atípicos los valores inferiores a Q1 – 1,5RIC o superiores a Q3 + 1,5RIC. Luego se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes. Paso 3: Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls). Paso 4: El diagrama consta de una caja cuyo lado inferior es el primer cuartil y el lado superior es el tercer cuartil. La mediana se dibuja como una línea horizontal. Los datos “atípicos” se grafican por separado y se indican con cruces en la figura. Los que se extienden desde la parte superior a la inferior de la caja son líneas verticales llamadas “bigotes”. Éstos terminan en los puntos más extremos que no son atípicos. Los diagramas de caja y bigotes proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica. Son útiles para ver la presencia de valores atípicos también llamados outliers. Pertenece a las herramientas de la estadística descriptiva y permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos. Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja. Considere que se tienen los datos: 75 57 78 81 90 90 92 55 94 86 67 88 59 53 66 Con ellos se obtiene: Q1 = Q2 = Q3 =

Pm 59 78 90

m m(n+1)/100 j Yj Yj+1 25 4,00 4 59 66 50 8,00 8 78 81 75 12,00 12 90 90 Sapere Aude Atrévete a saber 26

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Min = 53 Max = 94 RIC = 31 Li = 12,5 Ls = 136,5

Distribuciones de frecuencia Las estadísticas son producto de la operación de contar o medir y pueden nacer de características cuantificables (en forma continua o discreta) o cualificables. Las distribuciones de frecuencias son las clasificaciones que se refieren a variables cuantitativas o cualitativas y que constituyen un instrumento de trabajo estadístico. En el análisis e interpretación de las estadísticas correspondientes a datos cuantitativos, es necesario disponer de elementos descriptivos que informen acerca de la forma o patrón de distribución de los datos, de la posición de la distribución (alrededor de qué valor tienden a concentrarse los datos, valores conocidos como datos centrales) y la dispersión o variabilidad de los datos alrededor de los valores centrales o medios. Para obtener estos elementos descriptivos se recurre a la Distribución de Frecuencias, que puede definirse como una ordenación o arreglo de datos en clases o categorías que muestran, para cada una de ellas, el número de elementos que contiene o la frecuencia de ellos. En el tema de las Distribuciones de Frecuencias, se utilizan términos como variables, intervalos o clases, frecuencias absolutas y frecuencias relativas. Variables Una variable es la característica que se está midiendo. Existen dos categorías o tipo de variables: la variable cualitativa, que expresa un atributo o característica, y la variable cuantitativa que es aquella que puede ser expresada numéricamente. La variable cualitativa a su vez puede subdividirse en variable discreta, aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores, y la variable continua, que puede tomar los infinitos valores de un intervalo. En muchas ocasiones la diferencia es más teórica que práctica, ya que los aparatos de medida dificultan que puedan existir todos los valores del intervalo. La variable se denota por las mayúsculas de letras finales del alfabeto castellano; a su vez cada una de estas variables puede tomar distintos valores, colocándole un subíndice, que indica orden: X = [X1, X2, X3, ......, XK-2, XK-1, XK]. Sapere Aude Atrévete a saber 27

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Intervalos y límites de clase Cuando se tiene una distribución con un gran número de variables, se suele agrupar en intervalos para facilitar la comprensión de los datos, lo cual tiene un inconveniente: se pierde información sobre la propia distribución. Se indica por Li al extremo inferior del intervalo, también llamado clase, y por Ls al extremo superior. Para operar se utiliza la marca de clase, el punto medio de un intervalo. Para calcularla, se puede definir como el promedio de los valores extremos del intervalo, esto es sumar los extremos y dividir entre 2. La amplitud del intervalo sería la longitud del intervalo, se representa por: a = Ls – Li y se obtiene dividiendo la amplitud general entre las clases. El número de clases no debe ser menor de 5 ni mayor de 20. Un símbolo que define una clase, tal como 50 - 55, se conoce como intervalo de clase. Los números extremos, 50 y 55, son los límites de clase; el número menor 50 es el límite inferior de la clase y el mayor 55 es el límite superior. Los términos clase e intervalo de clase se utilizan a menudo indistintamente, aunque el intervalo de clase es realmente un símbolo para la clase. Un intervalo de clase que, al menos teóricamente, no tiene límite superior o inferior, se conoce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos el intervalo de clase, «mayores de 65 años» es un intervalo de clase abierto. Puede decirse que los límites de clase son los valores que definen una clase separándola de la anterior y de la posterior, deben definir las clases de forma que sean exhaustivas (permiten clasificar todas las observaciones en alguna de ellas) y mutuamente excluyentes (ninguna observación puede ser incluida en más de una clase. Los límites indicados se muestran en la distribución y los reales señalan la extensión de la clase (se calculan dividiendo a la mitad las unidades que separan la clase). El valor central de la clase se denomina Punto Medio o Marca de Clase y si hay valores sobre los cuales existen concentraciones de datos, es recomendable que se asuman como punto medio. Las clases abiertas se usan cuando la amplitud escogida obliga a tener clases vacías y no permiten el cálculo del punto medio ni otras variables. Limites reales de clases Las variables se registran con una determinada aproximación, por lo que el intervalo de clase, por ejemplo 50 – 55, teóricamente incluye todas las medidas desde 49,50 a 55,50. Estos números, representados brevemente por los números exactos 49,5 y 55,5, se conocen como límites reales de clase o límites verdaderos de clase; el menor de ellos, 49,5, es el límite real inferior y el mayor de ellos, 55,5, es el límite real superior. Prácticamente, los límites reales de clase se obtienen sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los límites reales de clase se utilizan para simbolizar las clases. Por ejemplo, las clases podrían indicarse por 49,5 – 55,5, 55,5 – 60,5, sin embargo, con tal notación aparece una ambigüedad, pues los límites reales de clase no coincidirían con las observaciones reales. Así si una observación fuese 55,5 no sería posible discernir si pertenece al intervalo de clase 49,5 – 55,6 o al 55,5 – 60,5. Tamaño o anchura de un intervalo de clase El tamaño o anchura de un intervalo de clase es la diferencia entre los límites reales de clase que lo forman y se conoce como anchura de clase, tamaño de clase o longitud de clase. Si todos los intervalos de clase de una distribución de frecuencias tienen igual anchura, esta anchura común se representa por c. En tal caso, c es igual Sapere Aude Atrévete a saber 28

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

a la diferencia entre dos sucesivos límites de clase inferiores o superiores, reales o no. En el caso específico de los límites reales, el ancho de clase puede definirse como la diferencia entre dos límites reales de una misma clase. El ancho de clase también puede definirse a partir de la marca de clase (MC) señalando que es la diferencia entre dos marcas de clase consecutivas. Punto medio o marca de clase La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior de la clase y dividiendo por 2. Así, la marca de clase del intervalo 50 - 55 es (50 + 55)/2 = 52,5. La marca de clase se llama también punto medio de la clase. Para análisis matemáticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado se suponen coincidentes con la marca de clase. Así, todas las alturas en el intervalo de clase 50 - 55 centímetros se considerarán como de 52,5 centímetros. Reglas generales para formar las distribuciones de frecuencia 1. Determinar el mayor y el menor entre los datos registrados y así encontrar el rango (diferencia entre el mayor y el menor de los datos). 2. Dividir el rango en un número conveniente de intervalos de clase del mismo tamaño. Si esto no es posible, utilizar intervalos de clase de diferente tamaño o intervalos de clase abiertos. El número de intervalos de clase se toma generalmente entre 5 y 20 dependiendo de los datos. Los intervalos de clase se eligen también de forma que las marcas de clase o puntos medios coincidan con datos realmente observados, lo que tiende a aminorar el llamado error de agrupamiento en los análisis matemáticos posteriores. Sin embargo, los límites reales de clase no coincidirán con los datos observados. Otra forma de determinar el número de clases es utilizar la fórmula √𝑛, donde n es la cantidad de datos, siempre y cuando n sea un número pequeño, no mayor de 400. 3. Determinar el número de observaciones que caen dentro de cada intervalo de clase, es decir, encontrar las frecuencias de clase. Frecuencia absoluta Se denomina así al número de repeticiones que presenta una observación. Se representa por f. Se define como el número de observaciones pertenecientes a una misma clase. Frecuencia relativa Es la frecuencia absoluta dividida por el número total de datos (fr = f / N), se suele expresar en porcentaje. La suma de todas las frecuencias relativas siempre debe ser igual a la unidad. Frecuencia absoluta acumulada Es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al número total de observaciones: F1 = f1 F2 = f1 + f2 Fn = f1 + f2 + ...... +fn-1 + fn = N Sapere Aude Atrévete a saber 29

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Frecuencia relativa acumulada Es el resultado de dividir cada frecuencia absoluta acumulada por el número total de datos, se la suele representar con la notación: Fr. De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La última frecuencia relativa acumulada es igual a la unidad. Análisis e interpretación datos numéricos en las distribuciones de frecuencia Para el análisis estadístico tiene gran importancia el contar con elementos descriptivos acerca de la tendencia central, su posición, la forma o patrón de distribución de los datos y la dispersión o variabilidad alrededor de los valores centrales. Cuando se analiza una gran cantidad de datos, la distribución de frecuencias y su representación gráfica, ayudan significativamente a conocer estos aspectos. Es necesario, tanto para el análisis e interpretación del conjunto de datos como para realizar comparaciones entre varios conjuntos de valores, obtener medidas que resuman o condensen las características en cuanto a posición y variabilidad. Cuando se construyen y representan gráficamente distribuciones de frecuencias, puede notarse que es bastante corriente que adopten una forma similar a la de una campana, es decir, una acumulación de valores hacia la parte central y pocos valores en los extremos. Existe un sistema de símbolos, una notación, para el tratamiento de las medidas estadísticas, deducir las fórmulas y examinar las propiedades de las medidas. En general, la letra x se usa para indicar la variable en consideración; un subíndice i que toma valores enteros positivos, sirve para indicar el valor particular o específico de la variable en el iésimo elemento del grupo estudiado, el subíndice, por lo tanto, sirve para distinguir una observación de otra, también puede ser utilizado para indicar orden de selección, orden de magnitud o algún otro orden que interese. El cálculo de las medidas estadísticas requiere sumar ciertos números de una característica, operación de suma que puede indicarse con el símbolo ∑ (sigma), o símbolo de sumatoria. Medidas de posición: los cuantiles En algunas ocasiones es importante obtener valores que dividan el conjunto de datos en fracciones específicas. Así como la mediana divide el conjunto de datos en dos partes iguales, es decir, la mitad de los valores son inferiores a la mediana y la otra mitad son superiores, si cada una de estas mitades se volviera a dividir por la mitad, el conjunto quedaría dividido en cuatro partes y cada parte se llamará cuartil. Pero el conjunto puede dividirse también por 10 (deciles) o por 100 (percentiles) y todos se llaman cuantiles. Tanto la mediana, como los cuartiles y los deciles pueden expresarse como percentiles. Por ejemplo: Me = P 50 = D5 = Q2; Q3 = P75; D4 = P40. Así que conociendo los percentiles se puede averiguar cualquier cuantil. Para el cálculo de los percentiles el conjunto de datos debe estar ordenado, luego se aplica la siguiente fórmula: 𝑃𝑚 = 𝐿𝑟𝑖 + ((𝑚 ∗ 𝑁/100) – 𝐹𝑎 ) ∗ 𝑐⁄𝑓 Donde: Lri es el límite real inferior de la clase donde se ubica el percentil deseado. m es el valor del percentil buscado Pm es el valor del percentil m. N es la cantidad total de datos o frecuencia total. Fa es la frecuencia acumulada de la clase anterior al percentil buscado. Sapere Aude Atrévete a saber 30

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

f es la frecuencia de la clase del percentil buscado. c es el intervalo de la clase donde está el percentil m o ancho de clase. Medidas de tendencia central La moda se convierte en la clase modal, es decir, la clase en donde hay mayor densidad de frecuencias por unidad de intervalo. Luego de obtenida la clase modal, se obtiene entonces la moda. 𝑀𝑜 = 𝐿𝑟𝑖 + [(𝑓 − 𝑓𝑎 ) / (2𝑓 − 𝑓𝑎 − 𝑓𝑝 )] ∗ 𝑐, donde Lri es el límite inferior real de la clase modal, f es la frecuencia de la clase modal, fa es la frecuencia de la clase anterior a la clase modal y fp es la frecuencia posterior a la de la clase modal. La mediana se define como el valor de la observación al cual corresponde la frecuencia acumulada 𝑁 / 2 y se calcula 𝑀𝑒 = 𝐿𝑟𝑖 + [(𝑁/2 – 𝐹𝑎 ) /𝑓 ] ∗ 𝑐, donde N es el número total de observaciones o suma de las frecuencias absolutas, Lri es el límite inferior real de la mediana, f es la frecuencia absoluta de la clase donde está la mediana, Fa es la frecuencia acumulada de la clase anterior a la clase de la mediana y c el intervalo de la clase donde está la mediana. La media aritmética se calcula con la siguiente fórmula: ∑ 𝑥𝑖 𝑓𝑖 ∑ 𝑥𝑖 𝑓𝑖 𝑥̅ = = ∑ 𝑓𝑖 𝑛 Donde: xi es el punto medio de la clase i fi es la frecuencia de la clase n es la cantidad total de datos (∑ 𝑓𝑖 ) Medidas de variabilidad Cuando los datos están agrupados en una distribución de frecuencias, los valores individuales de cada medición u observación se desconocen y solo se sabe que la frecuencia representa el número de observaciones contenidas en cada clase o intervalo de variación, el cual contiene un valor representativo denominado marca de clase. El rango o recorrido de una distribución de frecuencia solo se puede estimar basándose en los límites de la misma. Así, para calcular el rango se resta al límite superior de la distribución el límite inferior de la misma, resultado que representa o aproxima al valor real del rango de los datos. Para calcular la varianza de los datos de una distribución de frecuencias, deben considerarse las limitaciones que la misma presenta en cuanto a la realidad de los datos y las realidades que esta distribución representa. En el caso de que se desee calcular la varianza de una muestra, debe usarse la fórmula: 2 ∑𝐾 𝑖=1 𝑓𝑖 ∗ (𝑥𝑖 − 𝑥̅ ) 𝑠2 = [ ] 𝑁−1 Donde: K es el número total de clases. xi es el punto medio de la clase i. 𝑥̅ es la media aritmética de la distribución de frecuencias. N es la frecuencia total

Sapere Aude Atrévete a saber 31

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Si se trata de una población, en vez de N – 1 se utiliza N. Para el cálculo de la desviación estándar, se obtiene la raíz cuadrada de la varianza; para el cálculo de la desviación relativa se divide la desviación absoluta entre la media (D = d / 𝑥̅ ) y para el cálculo del coeficiente de variación se divide la desviación estándar entre la media (CV = s / 𝑥̅ ) Medidas de distribución Para calcular el momento de orden r de una distribución de frecuencias de datos muestrales, se utiliza la siguiente fórmula: ∑𝑘𝑖=1 𝑥𝑖 ∗ 𝑓𝑖 𝑚𝑟 = 𝑁−1 Para los momentos de orden r respecto a la media, la formula sería: 𝑚𝑟 = ̅̅̅̅

∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )𝑟 ∗ 𝑓𝑖 𝑁−1

En el caso del sesgo y la curtosis, las fórmulas son casi las mismas. Para el sesgo: ̅̅̅̅3 𝑚 𝐶𝐴 = 𝐶𝑆 = 3 = 𝑠

∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )3 ∗ 𝑓𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )3 ∗ 𝑓𝑖 𝑁−1 = (𝑁 − 1) ∗ 𝑠 3 𝑠3

Y para la curtosis: ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )4 ∗ 𝑓𝑖 ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )4 ∗ 𝑓𝑖 𝑚4 ̅̅̅̅ 𝑁 − 1 𝐶𝐶 = 4 = −3 = −3 (𝑁 − 1) ∗ 𝑠 4 𝑠 𝑠4 Donde: K es el número total de clases. xi es el punto medio de la clase i. 𝑥̅ es la media aritmética de la distribución de frecuencias. N es la frecuencia total Si se trata de una población, en vez de N - 1 se utiliza N. Ejercicio Puede bajar un ejercicio del tema del vínculo ejercicio, el cual está hecho en Excel 2016.

Sapere Aude Atrévete a saber 32

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Probabilidad

En estadística, los fenómenos son eventos comunes, que atraen la atención del investigador, son observables y, en la mayoría de los casos, cuantificables y/o calificables. Los fenómenos o experimentos estadísticos se pueden clasificar como determinísticos o aleatorios. Los determinísticos son aquellos que repetidos en idénticas condiciones nos llevan siempre al mismo resultado. Los aleatorios, aunque las condiciones del experimento no cambien, tienen un resultado impredecible antes de realizarlo. De forma específica se dice que un experimento aleatorio es aquel que puede concretarse en al menos dos resultados posibles, con incertidumbre en cuanto a cuál de ellos tendrá lugar. En general diremos que las características de un experimento aleatorio son las siguientes: 1. El experimento se puede repetir u observar de forma indefinida en circunstancias prácticamente iguales. 2. Aunque no podemos predecir el resultado particular del experimento, sí podemos conocer el conjunto de todos los posibles resultados. 3. Si el experimento se repite pocas veces, los resultados parecen mostrar un comportamiento caótico, mientras que si se repite un número infinito de veces empieza a detectarse una regularidad en el comportamiento de los resultados. Espacios muestrales y eventos Una de las características del experimento aleatorio es que, aunque los resultados individuales no son predecibles con anterioridad, en cambio sí que podemos saber cuál es el conjunto de todos sus posibles resultados. A ese conjunto de posibles resultados se les llama espacio muestral y se representa por la letra S. Así pues, S será un conjunto formado por los resultados del experimento. 1. Un experimento consiste en lanzar una moneda y después lanzarla una segunda vez si sale escudo. Si en el primer lanzamiento sale corona, entonces se lanza un dado una vez. Determine el espacio muestral. S = {C1, C2, C3, C4, C5, C6, EE, EC} S C1, C2, C3, C4, C5, C6, EE, EC

Sapere Aude Atrévete a saber 33

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

2. Suponga que se seleccionan, de forma aleatoria, tres artículos de un proceso de fabricación. Cada artículo se inspecciona y se clasifica como defectuoso, D, o no defectuoso, N. Obtenga el espacio muestral.

S = {DDD, DDN, DND, DNN, NDD, NDN, NND, NNN} a. Sea A el evento de que el tercer artículo esté dañado, determine los puntos muestrales de este evento. A = {DDD, DND, NDD, NND} b. Sea B el evento de que el segundo artículo no esté dañado, determine los puntos muestrales de este evento. B = {DND, DNN, NND, NNN} c. Sea C el evento de que haya solo dos artículos dañados, determine los puntos muestrales de este evento. C = {DDN, DND, NDD} d. Determine el complemento de C (C’, CC, 𝐶̅ ). El complemento de un evento E es un evento que contiene todos los elementos del espacio muestral que no están en el evento E. Como S es igual a la unión de los eventos C y C’, entonces C’ es el espacio muestral menos los elementos de C. C’ = {DDD, DNN, NDN, NND, NNN} La intersección de dos eventos es el conjunto que contiene los elementos comunes de dichos eventos. e. Encuentre la intersección de A y B (A ∩ B). A ∩ B = {DND, NND} Sapere Aude Atrévete a saber 34

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

f. Encuentre la intersección A ∩ C’ A ∩ C’ = {DDD, NND} g. Sea D = {DNN, NDN, NNN} encuentre la intersección A ∩ D A ∩ D = {Φ} se dice que A y D son disjuntos o mutuamente excluyentes, porque no tienen elementos en común. La unión de dos eventos es el conjunto que contiene todos los elementos de ambos eventos, sin repetir. h. Encuentre la unión de B y D (B U D). B U D = {DND, DNN, NDN, NND, NNN} i. Encuentre la unión de B y C (B U C). B U C = {DND, DNN, NND, NNN, DDN, NDD} 3. Sean M = {x | 3 < x < 9} y N = {x | 5 < x < 12}, encuentre M U N y M ∩ N. M = {4, 5, 6, 7, 8} N = {6, 7, 8, 9, 10, 11} M U N = {4, 5, 6, 7, 8, 9, 10, 11} M U N = {x | 4 ≤ x ≤ 11} M ∩ N = {6, 7, 8} M ∩ N = {x | 5 < x < 9} 4. Sean A = {x | 0 < x ≤ 6}, B = {x | 4 < x < 8} y C = {x | x ≥ 5} para S = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Utilizando el Diagrama de Venn encuentre A ∩ B ∩ C. A = {1, 2, 3, 4, 5, 6} B = {5, 6, 7} C = {5, 6, 7, 8, 9, 10, 11, 12}

A ∩ B ∩ C = {5, 6}

Sapere Aude Atrévete a saber 35

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Conteo de los puntos de la muestra El principio fundamental del conteo o Regla de multiplicación Si una operación se puede llevar a cabo en n1 formas, y si para cada una de éstas se puede realizar una segunda operación en n2 formas, entonces las dos operaciones se pueden ejecutar juntas de n1∙n2 formas. Si una operación se puede ejecutar en n1 formas, y si para cada una de éstas se puede llevar a cabo una segunda operación en n2 formas, y para cada una de las primeras dos se puede realizar una tercera operación en n3 formas, y así sucesivamente, entonces la serie de k operaciones se puede realizar en n1∙n2∙∙∙nk formas. 5. ¿Cuántos puntos muestrales hay en el espacio muestral cuando se lanza un par de dados una vez? 6 ∙ 6 = 36 6. Un urbanista de un nuevo condominio ofrece a los posibles compradores de una casa elegir entre 4 distintos tipos de fachada y cada una de ellas puede ser de una planta, dos plantas o a desniveles ¿En cuántas formas diferentes puede un comprador ordenar una de estas casas? 4 ∙ 3 = 12 7. Si un miembro de un club que tiene 22 integrantes necesitara elegir un presidente y un tesorero, ¿de cuántas maneras diferentes se podría elegir a ambos? 22 ∙ 21 = 462 8. José va a armar una computadora y para comprar las partes tiene que elegir entre las siguientes opciones: tres marcas de tarjeta madre, cuatro marcas de discos duros, dos marcas de memorias, dos marcas de monitor y cinco tiendas locales en las que puede adquirir en conjunto los accesorios restantes. ¿De cuántas formas diferentes puede José comprar las partes? 3 ∙ 4 ∙ 2 ∙ 2 ∙ 5 = 240 9. Se tienen los números 1, 2, 4, 5, 6, 8, 9. ¿Cuántos números de 4 dígitos se pueden formar con ellos, si se pueden repetir? ¿Cuántos si no se pueden repetir? ¿Cuántos de los que no se pueden repetir son mayores al valor 3300? ___ ___ ___ ___ 7 7 7 7 = 2401 ___ ___ ___ ___ 7 6 5 4 = 840 ___ ___ ___ ___ 5 6 5 4 = 600 10.¿Cuántos números pares de cuatro dígitos se pueden formar con los dígitos 0, 1, 2, 4, 5, 6 y 9, si cada dígito se puede usar sólo una vez? Como el número debe ser par, tenemos sólo n1 = 4 opciones para la posición de las unidades. Para un número de cuatro dígitos la posición de los millares no puede ser 0, por lo que consideramos la posición de las unidades en dos partes: 0 o diferente de 0. Para las unidades igual a 0: ___ ___ ___ _0_ 6 5 4 1 = 120 Si la posición de las unidades no es 0, entonces: ___ ___ ___ ___ 5 5 4 3 = 300 Sapere Aude Atrévete a saber 36

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Para un total de 120 + 300 = 420 posibles números pares de cuatro dígitos con los números señalados. 11.¿Cuántos números impares de cuatro dígitos se pueden formar con los dígitos 0, 1, 2, 3, 5, 6 y 9, si cada dígito se puede usar sólo una vez? ¿Cuántos serán mayores a 5000? ___ ___ ___ ___ 5 5 4 4 = 400 Para determinar cuántos son mayores a 5000, debe considerarse si en el primer número hay un par o un impar. Si hay un par: ___ ___ ___ ___ 1 5 4 4 = 80 Si hay un impar, entonces ___ ___ ___ ___ 2 5 4 3 = 120 Da un total de 80 + 120 = 200 posibles números impares de cuatro dígitos con los números señalados. Permutaciones Para cualquier entero no negativo n, n!, denominado “n factorial”, se define como n! = n∙(n – 1) ∙∙∙ (2)∙(1), con el caso especial de 0! = 1. Entonces, el número de permutaciones de n objetos es n!. 12.Se tienen 6 letras y se quieren construir palabras de 6 letras, aunque no tengan sentido, ¿cuántas se pueden construir? 6! = 720 ______ 6 5 4 3 2 1 = 720 13.Se tienen los números 3, 4, 5, 6, 7 y se desea formar números de 5 dígitos. ¿Cuántos se pueden formar, si no se pueden repetir? 5! = 120 __ __ __ __ __ 5 4 3 2 1 = 120 Permutaciones por grupos 𝑛!

El número de permutaciones de n objetos distintos tomados en grupos de r a la vez es 𝑛𝑃𝑟 = (𝑛−𝑟)! donde n > r. 14.Se va a otorgar uno de tres premios (a la investigación, la enseñanza y el servicio) a un grupo de 25 profesores universitarios. Si cada profesor puede recibir un premio como máximo, ¿cuántas selecciones posibles habría? 25! 25𝑃3 = (25−3)! = 13 800 15.En una ONG compuesta por 75 asociados se va a elegir a un presidente y a un secretario. ¿Cuántas opciones diferentes de funcionarios son posibles si: a) No hay restricciones: 75P2 = 5 550 Sapere Aude Atrévete a saber 37

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

b) José participará sólo si él es el presidente: 74P1 = 74 74P2 = 5 402 Para un total de 74 + 5 402 = 5 476 c) Ana y Carlos participarán juntos o no lo harán: 2P2 = 2 73P2 = 5 256 Para un total de 2 + 5 256 = 5 258 d) Pedro y María no participarán juntos: Si Pedro y María no son elegidos tenemos: 73P2 = 5 256 Si Pedro o María son elegidos en alguno de los dos puestos tenemos, para cada uno: 2P2 ∙ 73P1 = 146 Entonces en total tenemos 5 256 + 146 + 146 = 5 548 Otra forma sería 75P2 – 2 = 5 548 Permutaciones Circulares Las permutaciones que ocurren al arreglar objetos en un círculo se llaman permutaciones circulares. Dos permutaciones circulares no se consideran diferentes a menos que los objetos correspondientes en los dos arreglos estén precedidos o seguidos por un objeto diferente, conforme avancemos en la dirección de las manecillas del reloj. El número de permutaciones de n objetos ordenados en un círculo es (n – 1)! 16.Anita invita a siete de sus amigos a cenar en su casa. Ella tiene una mesa circular de 8 plazas. De cuantas formas distintas los puede sentar si: a) No hay restricciones; (8 – 1)! = 5 040 b) Dos de sus amigos se tienen que sentar necesariamente juntos. 2! ∙ (7-1)! = 1 440 17.José es un Chef Profesional y tiene 4 sartenes de cerámica, tres de acero inoxidable, cinco de teflón, seis de titanio y 3 de hierro fundido. Los debe ordenar en un holder circular, pero los de cada tipo los debe dejar juntos. ¿De cuántas formas los puede ordenar? 4P4 ∙ 3P3 ∙ 5P5 ∙ 6P6 ∙ 3P3 ∙ (5-1)! = 1 791 590 400 Permutaciones por clases El número de permutaciones distintas de n objetos, en el que n1 son de una clase, n2 de una segunda clase,..., nk 𝑛! de una k-ésima clase es: 𝑛 !∙𝑛 !∙𝑛 !∙∙∙∙𝑛 ! donde n1 + n2 + n3 + ∙∙∙ + nk = n 1

2

3

𝑘

18.Durante un entrenamiento de fútbol colegial, el entrenador necesita tener a 8 jugadores parados en una fila defensiva. Entre estos 8 jugadores hay 1 de primer año, 2 de segundo año, 3 de tercer año y 2 de cuarto año. ¿De cuántas formas diferentes se pueden arreglar en una fila si lo único que los distingue es el año que cursan? 8! = 1 680 1!∙2!∙3!∙2!

Sapere Aude Atrévete a saber 38

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

19.Una empresa tiene 4 sucursales en un Mall, y tiene 12 empleados para repartir en dichas tiendas. La tienda A requiere de 5 empleados, la B requiere de 4 empleados, y las tiendas C y D requieren de 2 empleados cada una. ¿De cuántas formas puede repartir a sus empleados en las sucursales? Como n = 5 + 4 + 2 + 2 = 13 y se tienen 12 empleados, entonces no se puede hacer la repartición deseada. 20.Un hotel va a hospedar a nueve oradores que asisten a una conferencia, ¿en cuántas formas los puede asignar a una habitación triple y a tres dobles? 9! = 7560 3!∙2!∙2!∙2! Combinaciones En algunos casos es necesario determinar el número de formas de seleccionar r objetos de n sin importar el orden, a lo que se le llama obtener combinaciones. Una combinación es una partición de dos celdas, una contiene los r objetos seleccionados y la otra contiene los (n – r) objetos restantes. Las combinaciones se denotan como (𝑛𝑟) o nCr. El número de combinaciones de n objetos distintos tomados de r a la vez es: 𝑛!

(𝑛𝑟) = 𝑛𝐶𝑟 = 𝑟!(𝑛−𝑟)! 21.De cuatro ingenieros civiles y tres ingenieros mecánicos encuentre el número de comités que se pueden formar que consistan en dos civiles y un mecánico. 4! 24 24 (42) = 4𝐶2 = 2!(4−2)! = 2!∙2! = 4 = 6 3!

6

6

(31) = 3𝐶1 = 1!(3−1)! = 1∙2! = 2 = 3 6 ∙ 3 = 18 22.Encuentre el número de formas en las que se pueden asignar seis maestros a cuatro secciones de un curso universitario, si ningún maestro se asigna a más de una sección. 6! (64) = 6𝐶4 = 4!(6−4)! = 15 23.Marlita invitó a nueve de sus amigos a cenar. Ella tiene dos mesas circulares, una principal con 6 plazas y otra aledaña con 4 plazas. Todos sus amigos son igualmente estimados, pero dos de ellos son novios, por lo que decidió sentarlos juntos a la mesa principal y en la mesa secundaria ubicará a los 4 amigos que no estén en la principal. ¿De cuántas maneras puede sentar a sus amigos a la mesa principal, si no le importa cómo queden acomodados? ¿Y si le importa cómo queden acomodados? Marlita se ubica en la mesa por ser anfitriona, al igual que los novios. Dado lo anterior, quedan 3 plazas en la mesa principal y 7 amigos entre los cuales escoger. Si no le importa cómo queden acomodados, la respuesta sería que hay 1C1 ∙ 2C2 ∙ 7C3 ∙ 2! formas de sentarlos en la mesa, es decir, 70 formas (1C1 para ubicar a Marlita, 2C2 para ubicar a los novios, 7C3 para ubicar a los amigos y (3-1)! por tratarse de una mesa circular). Si le importa cómo queden acomodados, la fórmula sería igual, pero con permutaciones: 1P1 ∙ 2P2 ∙ 7P3 ∙ 2! = 840 formas de sentarlos en la mesa si el orden importa. 24.Un niño le pide a su madre que le lleve cinco cartuchos de Game-Boy™1 de su colección de 10 juegos recreativos y 5 de deportes. ¿De cuántas maneras podría su madre llevarle 3 juegos recreativos y 2 de deportes? 120 ∙ 10 = 1200 (10 ) = 10𝐶3 = 120 (52) = 5𝐶2 = 10 3 1

Marca registrada de Nintendo Co. Ltd.

Sapere Aude Atrévete a saber 39

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Concepto Clásico de Probabilidad El primero en dar una definición clásica de probabilidad fue Jakob Bernoulli en 1713, reformulada después por Abraham De Moivre de la siguiente manera: "...una fracción en la que el numerador es igual al número de apariciones del suceso y el denominador es igual al número total de casos en los que el suceso pueda o no pueda ocurrir. Tal fracción expresa la probabilidad de que ocurra el suceso". El enfoque clásico de la probabilidad está basado en la suposición de que todos los resultados del experimento son igualmente posibles. La probabilidad se calcula de la siguiente manera: Probabilidad =

número de posibles resultados del evento número total de resultados posibles del experimento

La principal dificultad que presenta esta interpretación de la probabilidad es que se basa en sucesos equiprobables, siendo fácil para problemas sencillos, como los de cartas, dados o urnas, es casi imposible para problemas más complejos. Concepto Frecuentista de Probabilidad Bernoulli resolvió la cuestión de cómo hallar la probabilidad de ocurrencia de un suceso aun siendo imposible contar los casos favorables: "Aquí hay otro camino disponible para alcanzar el resultado deseado. Lo que no se puede hallar a priori se puede obtener a posteriori, es decir, mediante la observación múltiple de los resultados de pruebas similares…" De esta manera, Bernoulli introdujo el concepto de probabilidad "frecuentista" o "estadística": asignar como probabilidad de un suceso el resultado que se obtendría si el proceso se repitiera en condiciones similares un número grande de veces. La probabilidad de que suceda un evento es determinada observando como sucede el evento en el pasado. En términos de fórmula: Probabilidad =

número de veces que sucedió el evento en el pasado número total de observaciones

Algunas dificultades que presenta este enfoque de la probabilidad es que no dice cuál es el número "grande" de observaciones necesario, o que se entiende por condiciones similares, porque si las condiciones son las mismas los resultados serán también los mismos. Concepto axiomático de probabilidad La definición axiomática de probabilidad se debe a Andréi Nikoláyevich Kolmogorov (1933), quien consideró la relación entre la frecuencia relativa de un suceso y su probabilidad cuando el número de veces que se realiza el experimento es muy grande.

Sapere Aude Atrévete a saber 40

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Dado un espacio muestral S, diremos que P es una probabilidad sobre un evento dado si las siguientes propiedades (axiomas) son verificadas: Axioma 1 La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y uno. 0 > P(A) > 1 Axioma 2 La probabilidad de que ocurra el espacio muestral es 1. P(S) = 1 Axioma 3 Si A y B son eventos mutuamente exclusivos, es decir que no tienen elementos en común, entonces: P(A B) = P(A) + P(B) Si se tienen n eventos mutuamente exclusivos A1, A2, A3,.....An, entonces: P(A1 A2 ... An) = P(A1) + P(A2) + ... + P(An) Concepto Subjetivo de Probabilidad En el segundo cuarto del siglo XX surgió una nueva interpretación, llamada ‘subjetiva’, según la cual la probabilidad mide el grado de creencia de un individuo en la verdad de una proposición, variando entre 0 (el individuo cree que es falso) a 1 (cree que es cierto). Esta interpretación fue propuesta por primera vez por el filósofo Frank P. Ramsey . Para los subjetivistas la probabilidad de un suceso debe variar en función de la nueva información recibida respecto del suceso. Según este enfoque la probabilidad de que un evento en particular suceda es asignada basándose en cualquier información disponible, como intuición, opiniones etc. 25.¿Cuál es la probabilidad de obtener un 2 en el lanzamiento de un dado? 1 𝑃(2) = 6 26.¿Cuál es la probabilidad de obtener un número impar en el lanzamiento de un dado? 3 1 𝑃(1, 3, 5) = 6 = 2 27.¿Cuál es la probabilidad de obtener un número primo en el lanzamiento de un dado? 3 1 𝑃(2, 3, 5) = 6 = 2 28.¿Cuál es la probabilidad de ganar el premio mayor de la lotería, si se compra un entero? 1 𝑃(𝐺𝑜𝑟𝑑𝑜) = 100000 = 0,00001 = 0,001% 29.¿Y si se compran dos o tres enteros de lotería? La probabilidad se mantiene, lo que aumenta es la posibilidad. La probabilidad es una variable cuantitativa, la posibilidad es una variable cualitativa. 30.Se lanza dos veces una moneda, ¿cuál es la probabilidad de que se obtenga al menos una corona? S = {EC, CE, CC, EE} P(al menos una corona) = ¾ = 0,75 = 75% Sapere Aude Atrévete a saber 41

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

31.Se carga un dado de forma que sea dos veces más probable que salga un número par que uno impar. Si E es el evento de que ocurra un número menor que 4 en un solo lanzamiento del dado, encuentre P(E). Si F es el evento de que ocurra un número mayor o igual a 3, determine P(F). X w P(X) 1 1 1/9 2 2 2/9 3 1 1/9 4 2 2/9 5 1 1/9 6 2 2/9 Total 9 1 P(< 4) = 4/9 P(≥ 3) = 6/9 = 2/3 32.En el ejemplo anterior, sea A el evento de que salga un número par y sea B el evento de que salga un número divisible entre 3. Encuentre P(AUB) y P(A∩B). 𝐴𝑈𝐵 = {2, 3, 4, 6} → 𝑃(𝐴𝑈𝐵) = 2⁄9 + 1⁄9 + 2⁄9 + 2⁄9 = 7⁄9 𝐴 ∩ 𝐵 = {6} → 𝑃(𝐴 ∩ 𝐵) = 2⁄9 33.A una clase de estadística para ingenieros asisten 15 estudiantes de ingeniería industrial, 10 de ingeniería topográfica, 10 de ingeniería mecánica, 10 de ingeniería eléctrica y 8 de ingeniería civil. Si el profesor elige al azar a un estudiante para que conteste una pregunta, ¿qué probabilidades hay de que el elegido sea a) estudiante de ingeniería industrial, b) estudiante de ingeniería civil o estudiante de ingeniería topográfica? 𝑎) 𝑃(𝐼𝐼) = 15⁄53 (8 + 10)⁄ 18 𝑏) 𝑃(𝐼𝐶 𝑈 𝐼𝑇) = 53 = ⁄53 34.En un juego de cartas, Danielita ha ganado 20 de los 45 juegos realizados. ¿Cuál es la probabilidad de que Dani gane el próximo juego? 𝑃(Dani gane el próximo juego) = 20⁄45 = 4⁄9 35.En una mano de póquer (cinco cartas), encuentre la probabilidad de tener dos ases y tres jotas. 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑑𝑜𝑠 𝑎𝑠𝑒𝑠 = 4𝐶2 = 6 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑡𝑟𝑒𝑠 𝑗𝑜𝑡𝑎𝑠 = 4𝐶3 = 4 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑑𝑜𝑠 𝑎𝑠𝑒𝑠 𝑦 𝑡𝑟𝑒𝑠 𝑗𝑜𝑡𝑎𝑠 = 6 ∙ 4 = 24 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑟𝑒𝑝𝑎𝑟𝑡𝑖𝑟 𝑢𝑛𝑎 𝑚𝑎𝑛𝑜 𝑑𝑒 5 𝑐𝑎𝑟𝑡𝑎𝑠 = 52𝐶5 = 2 598 960 𝑃(𝑑𝑜𝑠 𝑎𝑠𝑒𝑠 𝑦 𝑡𝑟𝑒𝑠 𝑗𝑜𝑡𝑎𝑠) = 24⁄2 598 960 = 1⁄108 290 = 9,23 ∙ 10−6 = 0,000 923% 36.En una mano de póquer (cinco cartas), encuentre la probabilidad de tener tres ases y una Q y una K. 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑡𝑟𝑒𝑠 𝑎𝑠𝑒𝑠 = 4𝐶3 = 4 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑢𝑛𝑎 𝑟𝑒𝑖𝑛𝑎 = 4𝐶1 = 4 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑢𝑛 𝑟𝑒𝑦 = 4𝐶1 = 4 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑡𝑒𝑛𝑒𝑟 𝑡𝑟𝑒𝑠 𝑎𝑠𝑒𝑠, 𝑢𝑛𝑎 𝑄 𝑦 𝑢𝑛𝑎 𝐾 = 4 ∙ 4 ∙ 4 = 64 𝐹𝑜𝑟𝑚𝑎𝑠 𝑑𝑒 𝑟𝑒𝑝𝑎𝑟𝑡𝑖𝑟 𝑢𝑛𝑎 𝑚𝑎𝑛𝑜 𝑑𝑒 5 𝑐𝑎𝑟𝑡𝑎𝑠 = 52𝐶5 = 2 598 960 𝑃(𝑡𝑟𝑒𝑠 𝑎𝑠𝑒𝑠, 𝑢𝑛𝑎 𝑄 𝑦 𝑢𝑛𝑎 𝐾) = 64⁄2 598 960 = 4⁄162 435 = 2,46 ∙ 10−5 = 0,002 5% Sapere Aude Atrévete a saber 42

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Reglas aditivas Si A y B son dos eventos, entonces P(A U B) = P(A) + P(B) – P(A ∩ B).

Si A y B son mutuamente excluyentes o disjuntos, entonces P(A U B) = P(A) + P(B).

37.Al final del cuatrimestre, Dani se va a graduar en la Facultad de Ingeniería de una universidad. Después de tener entrevistas en dos empresas en donde quiere trabajar, determina que la probabilidad que tiene de lograr una oferta de empleo en la empresa A es 0,8 y que la probabilidad de obtenerla en la empresa B es 0,6. Si, por otro lado, considera que la probabilidad de recibir ofertas de ambas empresas es 0,5, ¿qué probabilidad tiene de obtener al menos una oferta de esas dos empresas? P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = 0,8 + 0,6 – 0,5 = 0,9 38.¿Cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par de dados? 6 2 8 2 P (A ∪ B) = P (A) + P (B ) = + = = 36

36

36

9

Si A1, A2,..., An son mutuamente excluyentes, entonces P(A1 ∪ A2 ∪ ・・・ ∪ An) = P(A1) + P(A2) + ・・・ + P(An). Un conjunto de eventos {A1, A2,… An} de un espacio muestral S se denomina partición de S si A1, A2,…, An son mutuamente excluyentes y A1 ∪ A2 ∪ ・・・ ∪ An = S. Por lo tanto, tenemos que si A1, A2,..., An es una partición de un espacio muestral S, entonces P(A1 ∪ A2 ∪ ・・・ ∪ An) = P(A1) + P(A2) + ・・・ + P(An) = P(S) = 1. Para tres eventos no excluyentes A, B y C, P(A ∪ B ∪ C) = P(A) + P(B) + P(C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C) + P(A ∩ B ∩ C). S

C

Sapere Aude Atrévete a saber 43

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

39.Las probabilidades de que un individuo que compra un automóvil nuevo elija uno de color verde, uno blanco, uno rojo o uno azul son 0,09, 0,15, 0,21 y 0,23, respectivamente, ¿cuál es la probabilidad de que un comprador dado adquiera un automóvil nuevo que tenga uno de esos colores? P(V ∪ B ∪ R ∪ A) = P(V) + P(B) + P(R) + P(A) = 0,09 + 0,15 + 0,21 + 0,23 = 0,68 40.Si las probabilidades de que un mecánico automotriz dé servicio a 3, 4, 5, 6, 7, 8 o más vehículos en un día de trabajo dado son 0,12, 0,19, 0,28, 0,24, 0,10 y 0,07, respectivamente, ¿cuál es la probabilidad de que dé servicio al menos a 5 vehículos el siguiente día de trabajo? P(E) = 0,28 + 0,24 + 0,10 + 0,07 = 0,69 P(E′) = P (Ec) = 0,12 + 0,19 = 0,31 P(E) = 1 – 0,31 = 0,69 41.Suponga que las especificaciones del fabricante para la longitud del cable de cierto tipo de computadora son 2000 ± 10 milímetros. En esta industria se sabe que el cable pequeño tiene la misma probabilidad de salir defectuoso (de no cumplir con las especificaciones) que el cable grande. Es decir, la probabilidad de que aleatoriamente se produzca un cable con una longitud mayor que 2010 milímetros es igual a la probabilidad de producirlo con una longitud menor que 1990 milímetros. Se sabe que la probabilidad de que el procedimiento de producción cumpla con las especificaciones es 0,99. a) ¿Cuál es la probabilidad de que un cable elegido al azar sea muy largo? b) ¿Cuál es la probabilidad de que un cable elegido al azar sea más grande que 1990 milímetros? Sea E el evento de que un cable cumpla con las especificaciones. Sean P y G los eventos de que el cable sea muy pequeño o muy grande, respectivamente. Entonces: a) P (1990 ≤ X ≤ 2010) = P(E) = 0,99 y P(P) = P(G) = (1 – 0,99) / 2 = 0,005 = 0,5%. b) Si la longitud de un cable seleccionado al azar se denota con X, tenemos P (1990 ≤ X ≤ 2010) = P(E) = 0,99 Como P (X ≥ 2010) = P(G) = 0,005 P (X ≥ 1990) = P(E) + P(G) = 0,99 + 0,005 = 0,995 Esto también se resuelve de la siguiente forma: P (X ≥ 1990) + P (X < 1990) = 1 Así, P (X ≥ 1990) = 1 – P (X < 1990) = 1 – P(P) = 1 – 0,005 = 0,995 Probabilidad condicional La probabilidad de que ocurra un evento B cuando se sabe que ya ocurrió algún evento A se llama probabilidad condicional y se denota con P(B|A). El símbolo P(B|A) por lo general se lee como “la probabilidad de que ocurra B, dado que ocurrió A”, o simplemente, “la probabilidad de B, dado A”. La probabilidad condicional de B, dado A, que se denota con P(B|A), se define como: 𝑃(𝐵|𝐴) =

𝑃(𝐴∩𝐵) 𝑃(𝐴)

, siempre que P(A) > 0.

Se puede establecer también que P(A|B) es: 𝑃(𝐴|𝐵) =

𝑃(𝐴∩𝐵) 𝑃(𝐵)

, siempre que P(B) > 0.

Dos eventos A y B son independientes si y solo si P(B|A) = P(B) o P(A|B) = P(A), si se asume la existencia de probabilidad condicional. De otra forma, A y B son dependientes. Sapere Aude Atrévete a saber 44

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

42.Una empresa cuenta con 500 empleados. La siguiente tabla muestra la distribución de empleados en lo relativo a su escolaridad. Si se escoge un empleado al azar, determine la probabilidad de que (a) solo tenga como escolaridad la escuela, (b) tenga más de treinta y cinco años y su escolaridad es técnica, (c) sea universitario de más de 35 años, (d) tenga un postgrado y 35 años o menos, (e) tenga entre 35 y 45 años y haya logrado como máximo estudios técnicos, (f) tenga como mínimo estudios de colegio, (g) se seleccionó una persona con escolaridad técnica de más de 25 años, cual es la probabilidad de que tenga más de 35 años, (h) se seleccionó una persona de 45 años o menos, cual es la probabilidad de que al menos tenga escolaridad técnica. Escolaridad \ Edad Escuela Colegio Técnica Universidad Postgrado Total

≤25 8 35 80 13 1 137

>25 y ≤35 12 30 40 33 3 118

>35 y ≤45 15 40 30 12 5 102

>45 45 30 50 8 10 143

Total 80 135 200 66 19 500

a) A: Solo tiene como escolaridad la escuela 𝑃(𝐴) = 80⁄500 = 8⁄50 = 4⁄25 = 0,16 = 16% b) B: Tiene más de treinta y cinco años y su escolaridad es técnica 𝑃(𝐵) = 𝑃(𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 𝑡é𝑐𝑛𝑖𝑐𝑎|𝑡𝑖𝑒𝑛𝑒 𝑚á𝑠 𝑑𝑒 35 𝑎ñ𝑜𝑠) =

80 500 245 500

80

16

= 245 = 49 = 0,3265 = 32,65%

c) C: Es universitario de más de 35 años 𝑃(𝐶) = 𝑃(𝑡𝑖𝑒𝑛𝑒 𝑚á𝑠 𝑑𝑒 35 𝑎ñ𝑜𝑠|𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑎𝑟𝑖𝑜) = 20⁄66 = 10⁄33 = 0,3030 = 30,30% d) D: Tiene un postgrado y 35 años o menos 𝑃(𝐵) = 𝑃(𝑡𝑖𝑒𝑛𝑒 35 años o menos|tiene un postgrado) = 4⁄19 = 0,2105 = 21,05% e) E: Tiene entre 35 y 45 años y ha logrado como máximo estudios técnicos 𝑃(𝐵) = 𝑃(tiene como máximo estudios técnicos|tiene entre 35 y 45 años) = 85⁄102 = 5⁄6 = 0,8333 = 83,33% 80

f) F: Tiene como mínimo estudios de colegio. 𝑃(𝐵) = 1 − 500 = 420⁄500 = 21⁄25 = 0,84 = 84% g) G: Se seleccionó una persona con escolaridad técnica de más de 25 años y tiene más de 35 años 𝑃(𝐵) = 𝑃(𝑡𝑖𝑒𝑛𝑒 𝑚á𝑠 𝑑𝑒 35 𝑎ñ𝑜𝑠|𝑡𝑖𝑒𝑛𝑒 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 𝑡é𝑐𝑛𝑖𝑐𝑎 𝑑𝑒 𝑚á𝑠 𝑑𝑒 25 𝑎ñ𝑜𝑠) = 80⁄120 = 2⁄3 = 0,6667 = 66,67% h) H: se seleccionó una persona de 45 años o menos y al menos tiene escolaridad técnica 𝑃(𝐻) = 𝑃(𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑡𝑖𝑒𝑛𝑒 𝑒𝑠𝑐𝑜𝑙𝑎𝑟𝑖𝑑𝑎𝑑 𝑡é𝑐𝑛𝑖𝑐𝑎|𝑡𝑖𝑒𝑛𝑒 45 𝑎ñ𝑜𝑠 𝑜 𝑚𝑒𝑛𝑜𝑠) = 217⁄357 = 31⁄51 = 0,6078 = 60,78%

Sapere Aude Atrévete a saber 45

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

43.Sea la población de adultos de una pequeña ciudad que cumplen con los requisitos para obtener un título universitario, clasificada de acuerdo con su género y situación laboral. Los datos se presentan en la siguiente tabla: Empleado Desempleado Total Hombre 460 40 500 Mujer 140 260 400 Total 600 300 900 Se selecciona al azar a uno de estos individuos para que realice un viaje a través del país con el fin de promover las ventajas de establecer industrias nuevas en la ciudad. Nos interesaremos en los eventos siguientes, determine la probabilidad para cada caso señalado: a) Se elige un hombre y el elegido tiene empleo. b) Se elige una persona desempleada que resulta ser mujer. c) Se elige una mujer que tiene empleo. d) Se elige un hombre que no tiene empleo. e) Se elige entre los hombres y resulta que no tiene empleo. f) De todas las mujeres se elige una y resulta estar empleada. 460 900 600 900

a) 𝑃(𝐻|𝐸) =

=

460 600

= 23⁄30 = 0,7667 = 76,67%

260

b) 𝑃(𝑀|𝐷) = 300 = 13⁄15 = 0,8667 = 86,67% 140 c) 𝑃(𝑀|𝐸) = 600 = 7⁄30 = 0,2333 = 23,33% 40 d) 𝑃(𝐻|𝐷) = = 2⁄15 = 0,1333 = 13,33% 300 40

2

140

7

e) 𝑃(𝐷|𝐻) = 500 = 25 = 0,08 = 8% f) 𝑃(𝐸|𝑀) = 400 = 20 = 0,35 = 35% 44.La probabilidad de que un vuelo programado normalmente salga a tiempo es P(D) = 0,83, la probabilidad de que llegue a tiempo es P(A) = 0,82 y la probabilidad de que salga y llegue a tiempo es P(D ∩ A) = 0,78. Calcule la probabilidad de que un avión a) llegue a tiempo, dado que salió a tiempo; b) salió a tiempo, dado que llegó a tiempo y c) llegue a tiempo dado que no salió a tiempo. a) La probabilidad de que llegue a tiempo dado que salió a tiempo sería: 0,78 𝑃(𝐴|𝐷) = = 0,939759 = 93,98% 0,83

b) La probabilidad de que haya salido a tiempo dado que llegó a tiempo sería: 0,78 𝑃(𝐷|𝐴) = 0,82 = 0,9512195 = 95,12% c) La probabilidad de que llegue a tiempo dado que no salió a tiempo sería: 𝑃(𝐴|𝐷 ′ ) =

𝑃(𝐴∩𝐷𝐶 ) ̅) 𝑃(𝐷

=

0,82−0,78 1−0,83

0,04

4

= 0,17 = 17 = 0,235294 = 23,53%

45.Considere un proceso industrial en el ramo textil, en el que se producen listones de una tela específica. Los listones pueden resultar con defectos en dos de sus características: la longitud y la textura. En el segundo caso el proceso de identificación es muy complicado. A partir de información histórica del proceso se sabe que 10% de los listones no pasan la prueba de longitud, que 5% no pasan la prueba de textura y que sólo 0,8% no pasan ninguna de las dos pruebas. Si en el proceso se elige un listón al azar y una medición rápida identifica que no pasa la prueba de longitud, ¿cuál es la probabilidad de que la textura esté defectuosa? Considere que T es el defecto en la textura y L el defecto en la longitud. Lo que se busca es P(T|L): 𝑃(𝑇|𝐿) = 0,008⁄0,1 = 2⁄25 = 0,08 = 8%

Sapere Aude Atrévete a saber 46

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

46.Considere el evento en el que se sacan 2 cartas, una después de la otra, de una baraja ordinaria, con reemplazo. Se definen los eventos A: la primera carta es un as y B: la segunda carta es una espada. Encuentre P(B) y P(B|A). 4 1 𝑃(𝐴) = 52 = 13 13 𝑃(𝐵) = = 1⁄4 52 𝑃(𝐵|𝐴) = 𝑃(𝐵) = 13⁄52 = 1⁄4 La regla de producto o regla multiplicativa La regla multiplicativa o regla de producto, nos permite calcular la probabilidad de que ocurran dos eventos. Si en un experimento pueden ocurrir los eventos A y B, entonces: 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵|𝐴) = 𝑃(𝐴) de donde: P(A ∩ B) = P(A)P(B|A) siempre que P(A) > 0. Por consiguiente, la probabilidad de que ocurran A y B es igual a la probabilidad de que ocurra A multiplicada por la probabilidad condicional de que ocurra B, dado que ocurre A. Como los eventos A ∩ B y B ∩ A son equivalentes, se deduce que también podemos escribir: P(A ∩ B) = P(B ∩ A) = P(B)P(A|B) En otras palabras, no importa que evento se considere como A ni que evento se considere como B. 47.Suponga que tenemos una caja de fusibles que contiene 20 unidades, de las cuales 5 están defectuosas. Si se seleccionan 2 fusibles al azar y se retiran de la caja, uno después del otro, sin reemplazar el primero, ¿cuál es la probabilidad de que ambos fusibles estén defectuosos? 5 4 20 1 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵|𝐴) = 20 ∙ 19 = 380 = 19 = 0,0526 = 5,26% 48.Una bolsa contiene 4 bolas blancas y 3 negras, y una segunda bolsa contiene 3 blancas y 5 negras. Se saca una bola de la primera bolsa y se coloca sin verla en la segunda bolsa. ¿Cuál es la probabilidad de que ahora se saque una bola negra de la segunda bolsa?

𝑃((𝑁1 ∩ 𝑁2 ) 𝑈 (𝐵1 ∩ 𝑁2 )) = 𝑃(𝑁1 ∩ 𝑁2 ) + 𝑃(𝐵1 ∩ 𝑁2 ) = 𝑃(𝑁1 ) ∙ 𝑃(𝑁2 |𝑁1 ) + 𝑃(𝐵1 ) ∙ 𝑃(𝑁2 |𝐵1 ) 3 6 4 5 38 𝑃(𝑁1 ) ∙ 𝑃(𝑁2 |𝑁1 ) + 𝑃(𝐵1 ) ∙ 𝑃(𝑁2 |𝐵1 ) = ( ) ∙ ( ) + ( ) ∙ ( ) = = 0,6032 = 60,32% 7 9 7 9 63 Sapere Aude Atrévete a saber 47

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

49.Una pequeña ciudad dispone de un carro de bomberos y una ambulancia para emergencias. La probabilidad de que el carro de bomberos esté disponible cuando se necesite es 0,98 y la probabilidad de que la ambulancia esté disponible cuando se le requiera es 0,92. En el evento de un herido en un incendio, calcule la probabilidad de que tanto la ambulancia como el carro de bomberos estén disponibles, suponiendo que operan de forma independiente. 𝑃(𝐴 ∩ 𝐵) = 0,92 ∙ 0,98 = 0,9016 Si en un experimento pueden ocurrir los eventos A1, A2,..., Ak, entonces: P(A1 ∩ A2 ∩···∩Ak) = P(A1)∙P(A2|A1) ∙P(A3|A1 ∩ A2)・・・P(Ak|A1 ∩ A2 ∩・・・∩Ak-1) Si los eventos A1, A2,..., Ak son independientes, entonces: P(A1 ∩ A2 ∩···∩Ak) = P(A1) ∙P(A2)・・・P(Ak) 50.Se sacan tres cartas seguidas, sin reemplazo, de una baraja ordinaria. Encuentre la probabilidad de que ocurra el evento A1 ∩ A2 ∩ A3, donde A1 es el evento de que la primera carta sea un as rojo, A2 el evento de que la segunda carta sea un 10 o una jota y A3 el evento de que la tercera carta sea mayor que 3 pero menor que 7. 2 𝑃(𝐴1 ) = 52 = 1⁄26 𝑃(𝐴2 |𝐴1 ) = 8⁄51 12 𝑃(𝐴3 |𝐴1 ∩ 𝐴2 ) = 50 = 6⁄25 8 𝑃(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ) = 1⁄26 ∙ 8⁄51 ∙ 6⁄25 = 5525 = 0,001448 = 0,1448% 51.La contaminación de los ríos en Costa Rica es un grave problema. Considere los siguientes eventos: A = {El río está contaminado}, B = {Una prueba en una muestra de agua detecta contaminación} y C = {Se permite la pesca}. Suponga: P (A) = 0,25, P (B | A) = 0,70, P (B | Ac) = 0,22 P (C | A ∩ B) = 0,22 P (C | Ac ∩ B) = 0,18 P (C | A ∩ Bc) = 0,78 P (C | Ac ∩ Bc) = 0,92 a. Encuentre P (A ∩ B ∩ C) P (A ∩ B ∩ C): = P(A) ∙ P(B | A) ∙ P(C|A ∩ B) = 0,25 ∙ 0,70 ∙ 0,22 = 0,0385 = 3,85% b. Encuentre P (Bc ∩ C) P(Bc ∩ C) = P(A ∩ Bc ∩ C) + P(Ac ∩ Bc ∩ C) = P(A) ∙ P(Bc | A) ∙ P(C | A ∩ Bc) + P(Ac) ∙ P(Bc | Ac) ∙ P(C | Ac ∩ Bc) P(Bc ∩ C) = 0,25 ∙ (1 - 0,70) ∙ 0,78 + (1 - 0,25) ∙ (1 - 0,22) ∙ 0,92 = 0,0585 + 0,5382 = 0,5967 = 59,67% c. Encuentre P(C) P(C) = P(A ∩ B ∩ C) + P(A ∩ Bc ∩ C) + P(Ac ∩ B ∩ C) + P(Ac ∩ Bc ∩ C) P(C) = 0,0385 + 0,0585 + P(Ac) ∙ P(B|Ac) ∙ P(C|Ac ∩ B) + 0,5382 = 0,6352 + (1 – 0,25) ∙ 0,22 ∙ 0,18 = 0,6649

Sapere Aude Atrévete a saber 48

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Probabilidad Total Sea el caso en donde el espacio muestral se parte en k subconjuntos y tenemos un evento que se interseca con varios de esos subconjuntos, como se muestra en el siguiente diagrama: S

El teorema de probabilidad total o regla de eliminación indica: Si los eventos B1, B2,... Bk constituyen una partición del espacio muestral S, tal que P(Bi) ≠ 0 para i = 1, 2,..., k, entonces, para cualquier evento A de S se tiene que: 𝑃(𝐴) = ∑𝑘𝑖=1 𝑃(𝐵𝑖 ∩ 𝐴) = ∑𝑘𝑖=1 𝑃(𝐵𝑖 ) ⋅ 𝑃(𝐴|𝐵𝑖 ). 52.Tres máquinas de cierta planta de ensamble, B1, B2 y B3, montan 30%, 45% y 25% de los productos, respectivamente. Se sabe por experiencia que 2%, 3% y 2% de los productos ensamblados por cada máquina, respectivamente, tienen defectos. Ahora bien, suponga que se selecciona de forma aleatoria un producto terminado. ¿Cuál es la probabilidad de que esté defectuoso? 𝑃(𝐷) = 𝑃(𝐵1 ) ∙ 𝑃(𝐷|𝐵1 ) + 𝑃(𝐵2 ) ∙ 𝑃(𝐷|𝐵2 ) + 𝑃(𝐵3 ) ∙ 𝑃(𝐷|𝐵3 ) 49 𝑃(𝐷) = 0,3 ∙ 0,02 + 0,45 ∙ 0,03 + 0,25 ∙ 0,02 = = 0,0245 = 2,45% 2000 Regla de Bayes La Regla de Bayes señala que si los eventos B1, B2,..., Bk constituyen una partición del espacio muestral S, donde P(Bi) ≠ 0 para i = 1, 2,...,k, entonces, para cualquier evento A en S, tal que P(A) ≠ 0, 𝑃(𝐵𝑗 |𝐴) =

𝑃(𝐵𝑗 ∩𝐴) ∑𝑘 𝑖=1 𝑃(𝐵𝑖 ∩𝐴)

=

𝑃(𝐵𝑗 )⋅𝑃(𝐴|𝐵𝑗 ) ∑𝑘 𝑖=1 𝑃(𝐵𝑖 )⋅𝑃(𝐴|𝐵𝑖 )

53.Con referencia al ejemplo anterior, si se elige al azar un producto y se encuentra que está defectuoso, ¿cuál es la probabilidad de que haya sido ensamblado con la máquina B3? 𝑃(𝐵3 |𝐷) = 𝑃(𝐵

𝑃(𝐵3 )∙𝑃(𝐷|𝐵3 )

1 )∙𝑃(𝐷|𝐵1 )+𝑃(𝐵2 )∙𝑃(𝐷|𝐵2 )+𝑃(𝐵3 )∙𝑃(𝐷|𝐵3 )

=

0,25∙0,02 0,0245

0,005

10

= 0,0245 = 49 = 0,2041 = 20,41%

𝑃(𝐵3 |𝐷) = 0,2040816327 = 20,41% 54.En un colegio los alumnos pueden optar por cursar como lengua extranjera inglés o francés. En un determinado curso, el 90% de los alumnos estudia inglés y el resto francés. El 30% de los que estudian inglés son hombres y de los que estudian francés el 40% son hombres. Elegido un alumno al azar, ¿cuál es la probabilidad de estudie francés dado que es mujer? 𝑃(𝐹|𝑀) =

𝑃(𝐹)⋅𝑃(𝑀|𝐹) 𝑃(𝐹)⋅𝑃(𝑀|𝐹)+𝑃(𝐹)⋅𝑃(𝐻|𝐹)

0,1⋅0,6

= 0,1⋅0,6+0,1⋅0,4 = 0,6 = 60%

Sapere Aude Atrévete a saber 49

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

55.El 20% de los empleados de una empresa son ingenieros y otro 20% son economistas. El 75% de los ingenieros ocupan un puesto directivo y el 50% de los economistas también, mientras que los no ingenieros y los no economistas solamente el 20% ocupa un puesto directivo. ¿Cuál es la probabilidad de que un empleado directivo elegido al azar sea ingeniero? 𝑃(𝐼|𝐷) =

𝑃(𝐼)∙𝑃(𝐷|𝐼) 𝑃(𝐼)∙𝑃(𝐷|𝐼)+𝑃(𝐸)∙𝑃(𝐷|𝐸)+𝑃(𝑁)∙𝑃(𝐷|𝑁)

=

0,2∙0,75 0,2∙0,75+0,2∙0,5+0,6∙0,2

15

= 37 = 0,4054

56.Una empresa de manufactura emplea tres planos analíticos para el diseño y desarrollo de un producto específico. Por razones de costos los tres se utilizan en momentos diferentes. De hecho, los planos 1, 2 y 3 se utilizan para 30%, 20% y 50% de los productos, respectivamente. La tasa de defectos difiere en los tres procedimientos de la siguiente manera: P(D|P1) = 0,01, P(D|P2) = 0,03, P(D|P3) = 0,02, en donde P(D|Pj) es la probabilidad de que un producto esté defectuoso, dado el plano j. Si se observa un producto al azar y se descubre que está defectuoso, ¿cuál de los planos tiene más probabilidad de haber sido utilizado y, por lo tanto, de ser el responsable? 𝑃(𝐷) = 0,3 ∙ 0,01 + 0,2 ∙ 0,03 + 0,5 ∙ 0,02 = 0,003 + 0,006 + 0,01 = 0,019 = 1,9% 0,003 3 𝑃(𝐷|𝑃1 ) = = = 0,1579 = 15,79% 0,019 0,006

19 6

0,01

10

𝑃(𝐷|𝑃2 ) = 0,019 = 19 = 0,3158 = 31,58% 𝑃(𝐷|𝑃3 ) = 0,019 = 19 = 0,5263 = 52,63% El plano que tiene más probabilidad de haberse usado es el plano 3. 57.La probabilidad de que haya un accidente en una fábrica que dispone de alarma es 0,1. La probabilidad de que suene esta sí se ha producido algún incidente es de 0,97 y la probabilidad de que suene si no ha sucedido ningún incidente es 0,02. En el supuesto de que haya funcionado la alarma, ¿cuál es la probabilidad de que no haya habido ningún incidente? 𝑃(𝑁)∙𝑃(𝑆|𝑁)

𝑃(𝑁|𝑆) = 𝑃(𝑁)∙𝑃(𝑆|𝑁)+𝑃(𝐴)𝑃(𝑆|𝐴) 𝑃(𝑁|𝑆) =

0,9∗0,02 0,9∗0,02+0,1∗0,97

=

0,018 0,115

= 0,1565 = 15,65%

La probabilidad de que no haya habido ningún incidente y que la alarma haya sonado es de un 15,65%. 58.Una empresa tiene cuatro inspectores de producto que colocan una etiqueta con la fecha de caducidad en cada uno de los productos producidos en una línea de ensamblaje. El inspector A coloca la etiqueta en el 20% de los productos y no la pone una vez cada 200 unidades; el inspector B la coloca en el 40% de los productos y no la pone en uno de cada cien productos; el inspector C la coloca en el 25% de los productos y no lo hace en el 2% de los casos; finalmente el inspector D etiqueta el resto de los productos, pero falla en 2 de cada 300 productos. Si se recibe una queja de un consumidor respecto a que su producto no tiene fecha de caducidad, cuál es la probabilidad de que el inspector C sea el culpable. Inspector % Etiquetado A 20% B 40% C 25% D 15% 𝑃(𝐶 | 𝑄𝑢𝑒𝑗𝑎) =

0,25 ∙ 0,02 0,2 ∙ 0,005+0,4 ∙ 0,01+0,25 ∙ 0,02+0,15 ∙ 0,0067

% Error 1/200 = 0,005 1/100 = 0,01 2% = 0,02 2/300 = 0,0067

0,005 ̅̅̅ = 45, ̅45 ̅̅̅% = 0,011 = 0, ̅45

La probabilidad de que el inspector C sea el culpable de que el producto no tenga fecha de caducidad es de un 45,45%. Sapere Aude Atrévete a saber 50

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

59.Tenemos tres urnas: A con 3 bolas rojas y 5 negras, B con 2 bolas rojas y 1 negra y C con 2 bolas rojas y 3 negras. Escogemos una urna al azar y extraemos una bola. Si la bola ha sido roja, ¿cuál es la probabilidad de haber sido extraída de la urna A? La probabilidad pedida es P(A|R). Utilizando el teorema de Bayes, tenemos: 𝑃(𝐴)𝑃(𝑅|𝐴)

P(A|R) = 𝑃(𝐴)𝑃(𝑅|𝐴)+𝑃(𝐵)𝑃(𝑅|𝐵)+𝑃(𝐶)𝑃(𝑅|𝐶) 𝑃(𝐴|𝑅) =

1 3 ∙ 3 8 1 3 1 2 1 2 ∙ + ∙ + ∙ 3 8 3 3 3 5

45

= 173 = 0,2601 = 26,01%

La probabilidad de que la bola roja haya sido extraída de la urna A es de un 26,01%. 60.Se sabe que el 65% de los accidentes de tráfico que se producen durante la noche de los sábados se deben a la ingesta excesiva de alcohol, el 25% se deben a la imprudencia del conductor y el resto a otras causas, (fallo mecánico…etc.). En estos accidentes, el resultado es nefasto el 30% de las veces en el primer caso, el 20% en el segundo y el 5% en el tercero. a) Calcular la probabilidad de que uno de estos accidentes no tenga resultado nefasto. b) Si se produce un accidente sin resultado nefasto, calcular la probabilidad de que la causa de dicho accidente sea la ingesta excesiva de alcohol. a) La probabilidad pedida es P(NN): 𝑃(𝑁𝑁) = 0,65 ∙ 0,70 + 0,25 ∙ 0,80 + 0,10 ∙ 0,95 = 0,75 = 75% b) La probabilidad pedida es P(NN|A): 0,65 ∙ 0,70 91 𝑃(𝑁𝑁|𝐴) = = = 0,6067 = 60.67% 0,75 150 La probabilidad de que uno de los accidentes tenga resultado no nefasto es 75% y la probabilidad de que la causa de un accidente no nefasto sea la ingesta excesiva de alcohol es de un 60,67%. 61.Supongamos que tenemos 4 cajas con componentes electrónicos dentro. La caja 1 contiene 2000 componentes, con un 5% de defectuosos; la caja 2 contiene 500 componentes, con un 40% de defectuosos; las cajas 3 y 4 contienen 1000 componentes cada una, con un 10% de defectuosos. ¿Cuál es la probabilidad de escoger al azar un componente defectuoso? Si se escoge un componente al azar y resulta ser defectuoso, ¿cuál es la probabilidad de que pertenezca a la caja 1? Caja 1 Caja 2 Caja 3 Caja 4 Total Total de productos 2000 500 1000 1000 4500 % del Total 4/9 1/9 2/9 2/9 1 % Defectuoso por caja 5% 40% 10% 10% % Defectuoso = P(D) 1/45 2/45 1/45 1/45 1/9 𝑃(𝐷|𝐶1) =

1 45 1 9

1

= 5 = 0,20 = 20%

La probabilidad de escoger al azar un componente defectuoso es de 1/9 = 11,11% y la probabilidad de que pertenezca a la caja 1 es de un 20%.

Variables aleatorias y distribuciones de probabilidad Variable Aleatoria Concepto: Una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral. Por convención, la letra mayúscula (X) representa a la Variable Aleatoria y la minúscula (x) a un valor específico de la variable. Sapere Aude Atrévete a saber 51

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 62 Se prueban tres componentes electrónicos, determinando si están defectuosos (D) o no defectuosos (N), encuentre el espacio muestral y asigne un valor X a cada elemento del espacio muestral, indicando el número de componentes defectuosos. S x S x NNN 0 NDD 2 NND 1 DND 2 NDN 1 DDN 2 DNN 1 DDD 3 X = {0, 1, 2, 3} Ejercicio 63 Un empleado de una bodega de materiales de una construcción entrega cascos de seguridad al azar a tres empleados de la empresa. El orden de recepción son José, Marco y Pedro. Liste los puntos del espacio muestral para los posibles órdenes de regreso de los cascos y encuentre el valor b de la variable aleatoria B que representa el número de asociaciones acertadas. Definamos como elementos J que representa a José, M que representa a Marco y P que representa a Pedro. Los cascos se entregan en el orden JMP. Orden b Orden b JMP 3 MJP 1 JPM 1 PMJ 1 PJM 0 MPJ 0 B = {0, 1, 3} Ejercicio 64 Se sacan tres bolas de manera sucesiva, sin reemplazo, de una urna que contiene 2 bolas rojas, 3 negras y 2 azules. Determine el espacio muestral y los valores de la variable aleatoria X, que representan la cantidad de bolas azules que se sacan de la urna. Definamos como elementos R que representa al color rojo, N que representa al color negro y A que representa al color azul. Los puntos muestrales serán: Puntos Muestrales NNN NNR NRN RNN NRR

x 0 0 0 0 0

Puntos Muestrales RNR RRN NNA NAN ANN

x 0 0 1 1 1

Puntos Muestrales NAA ANA AAN AAR ARA

x 2 2 2 2 2

Puntos Muestrales RAA RRA RAR ARR ANR

x 2 1 1 1 1

Puntos Muestrales RNA RAN NAR NRA ARN

x 1 1 1 1 1

X = {0, 1, 2} Ejercicio 65 Suponga que un ingeniero eléctrico tiene seis resistores a la mano. Tres de ellos tienen etiqueta de 10 Ω y los otros tres tienen etiqueta de 20 Ω. El ingeniero quiere conectar un resistor de 10 Ω y un resistor de 20 Ω en serie, para crear una resistencia de 30 Ω. Ahora se supone que, en efecto, los tres resistores etiquetados con 10 Ω tienen las resistencias reales de 9, 10 y 11 Ω y que los tres resistores etiquetados con 20 Ω tienen las resistencias reales de 19, 20 y 21 Ω. Encuentre el espacio muestral y determine los valores de la variable aleatoria Z, si éstos son la suma de las resistencias. Sapere Aude Atrévete a saber 52

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Resultado z Resultado z Resultado z (9, 19) 28 (10, 19) 29 (11, 19) 30 (9, 20) 29 (10, 20) 30 (11, 20) 31 (9, 21) 30 (10, 21) 31 (11, 21) 32 Z = {28, 29, 30, 31, 32} Ejercicio 66 Se lanza un dado hasta que ocurra un tres. Determine el espacio muestral y la variable aleatoria Z de la ocurrencia del número 3. Sea F la no ocurrencia del número 3 y V la ocurrencia del mismo. Entonces el espacio muestral de la ocurrencia del número tres será {V, FV, FFV, FFFV, FFFFV, FFFFFV, FFFFFFV, ….}, Z = {1} Concepto: Si un espacio muestral contiene un número finito de posibilidades, o una serie interminable con tantos elementos como números enteros existen, se llama espacio muestral discreto. Concepto: Si un espacio muestral contiene un número infinito de posibilidades, igual al número de puntos en un segmento de recta, se le denomina espacio muestral continuo. En los ejercicios 62 a 65, el espacio muestral es finito y discreto, mientras que en el número 66 el espacio muestral es infinito y discreto. Concepto: Una variable aleatoria se llama variable aleatoria discreta si se puede contar su conjunto de posibles resultados, caso contrario, si la variable aleatoria toma valores en la escala continua se le denomina variable aleatoria continua. Ejercicio 67 Con frecuencia los chips de computadora tienen imperfecciones en su superficie. Para cierto tipo de chip de computadora, 9% no tiene imperfecciones, 22% contiene una imperfección, 26% presenta dos imperfecciones, 20% contiene tres imperfecciones, 12% tiene cuatro imperfecciones y 11% presenta cinco imperfecciones. Sea Y el número de imperfecciones en un chip elegido aleatoriamente. ¿Cuáles son los valores posibles de Y? ¿Y es discreta o continua? Los valores posibles para Y son los enteros 0, 1, 2, 3, 4 y 5. La variable aleatoria Y es discreta, ya que solamente asume valores enteros. Distribuciones discretas de probabilidad Concepto: Denominaremos distribución de probabilidad, función de masa de probabilidad o distribución de probabilidad de la variable aleatoria X, al conjunto de pares ordenados (x, f(x)) si para cada posible resultado de X se cumple: • 𝑓(𝑥) ≥ 0 • ∑𝑥 𝑓(𝑥) = 1 • 𝑃(𝑋 = 𝑥) = 𝑓(𝑥)

Sapere Aude Atrévete a saber 53

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 68 Determine la función de masa de los ejercicios realizados.

S NNN NND NDN DNN

X 0 1 1 1

f(x) 1/8 1/8 1/8 1/8

S NDD DND DDN DDD

X 2 2 2 3

f(x) 1/8 1/8 1/8 1/8

X 0 1 2 3 Σ f(x) 1/8 3/8 3/8 1/8 1 Orden JMP JPM PJM

B f(b) Orden 3 1/6 PMJ 1 1/6 MPJ 0 1/6 MJP

B f(b) 1 1/6 0 1/6 1 1/6

X 0 1 3 Σ f(x) 2/6 3/6 1/6 1 Puntos Muestrales NNN NNR NRN RNN NRR RNR RRN

X f(x) 0 0 0 0 0 0 0

1/25 1/25 1/25 1/25 1/25 1/25 1/25

Puntos Muestrales NNA NAN ANN NAA ANA AAN AAR

X f(x) 1 1 1 2 2 2 2

1/25 1/25 1/25 1/25 1/25 1/25 1/25

Puntos Muestrales ARA RAA RRA RAR ARR ANR RNA

X f(x) 2 2 1 1 1 1 1

1/25 1/25 1/25 1/25 1/25 1/25 1/25

Puntos Muestrales RAN NAR NRA ARN

X f(x) 1 1 1 1

1/25 1/25 1/25 1/25

X 0 1 2 Σ f(x) 7/25 12/25 6/25 1 Resultado (9, 19) (9, 20) (9, 21)

Z 28 29 30

f(x) Resultado Z f(x) Resultado Z f(x) 1/9 (10, 19) 29 1/9 (11, 19) 30 1/9 1/9 (10, 20) 30 1/9 (11, 20) 31 1/9 1/9 (10, 21) 31 1/9 (11, 21) 32 1/9 X 28 29 30 31 32 Σ f(x) 1/9 2/9 3/9 2/9 1/9 1

Ejercicio 69 Se tiene un embarque de 8 microcomputadores iguales, que va dirigido a una tienda especializada, el cual contiene 3 computadores defectuosos. Si una empresa compra 2 computadores elegidos al azar, determine la distribución de probabilidad del número de computadores defectuosos que puede adquirir la empresa. Sapere Aude Atrévete a saber 54

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Sea 𝑓(𝑥) =

5 (𝑥3)∙(2−𝑥 ) 8 (2)

=

3𝐶𝑥

∙ 5𝐶(2−𝑥) 8𝐶2

la función de masa de probabilidad del caso propuesto. Entonces: X 0 1 2 Σ f(x) 5/14 15/28 3/28 1

Ejercicio 70 Si una agencia turística vende el 50% de su inventario de tiquetes a Qatar 2022 con hotel 5 estrellas, encuentre la fórmula de la distribución de probabilidad del número de tiquetes de dicho tipo entre los siguientes cuatro tiquetes que venda la agencia y determine la distribución de probabilidad. Dado que en cada venta puede o no venderse el tiquete con la condición indicada, por el Teorema Fundamental del Conteo sabemos que hay 24 posibles formas de vender los tiquetes, lo cual resulta en 16. Entonces la fórmula sería: 𝑓(𝑥) =

(𝑥4) 16

, para x = 0, 1, 2, 3, 4. X 0 1 2 3 4 Σ f(x) 1/16 1/4 3/8 1/4 1/16 1

Concepto: La distribución acumulada F(x) de una variable aleatoria discreta X con distribución de probabilidad f(x) es: F(X) = P(X ≤ x) = ∑ 𝑓(𝑡) 𝑝𝑎𝑟𝑎 − ∞ < 𝑥 < ∞ 𝑡≤𝑥

Ejercicio 71 Determine las distribuciones acumuladas de los ejercicios 69 y 70. X 0 1 2 f(x) 5/14 15/28 3/28 F(X) 10/28 25/28 1 X 0 1 2 3 4 f(x) 1/16 4/16 6/16 4/16 1/16 F(X) 1/16 5/16 11/16 15/16 1 Ejercicio 72 Determine las distribuciones acumuladas del ejercicio 68. X 0 1 2 3 f(x) 1/8 3/8 3/8 1/8 F(X) 1/8 4/8 7/8 1 X 0 1 3 f(x) 2/6 3/6 1/6 F(X) 2/6 5/6 1 X 0 1 2 f(x) 7/25 12/25 6/25 F(X) 7/25 19/25 1

Sapere Aude Atrévete a saber 55

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

X 28 29 30 31 32 f(x) 1/9 2/9 3/9 2/9 1/9 F(x) 1/9 3/9 6/9 8/9 1 Ejercicio 73 Sea W la variable aleatoria que da el número de escudos menos el número de coronas en tres lanzamientos de una moneda. Liste los elementos del espacio muestral S para los tres lanzamientos de la moneda y asigne un valor w de W a cada punto muestral. Determine la distribución de probabilidad y la distribución acumulada. Pto Muestral EEE EEC ECE CEE ECC CEC CCE CCC W 3 1 1 1 -1 -1 -1 -3 W -3 -1 1 3 f(w) 1/8 3/8 3/8 1/8 F(w) 1/8 4/8 7/8 1 Ejercicio 74 Un embarque de 8 automóviles extranjeros contiene 3 que tienen ligeras manchas de pintura. Suponga que una agencia recibe 4 de estos automóviles al azar, liste los elementos del espacio muestral S usando las letras M y N para “manchado” y “sin mancha”, respectivamente; luego asigne a cada punto muestral un valor x de la variable aleatoria X que representa el número de automóviles con manchas de pintura que compró la agencia. Encuentre la distribución acumulada. Puntos Puntos Puntos X X X Muestrales Muestrales Muestrales MMMN 3 MNMN 2 MNNN 1 MMNM 3 MNNM 2 NMNN 1 MNMM 3 NMMN 2 NNMN 1 NMMM 3 NMNM 2 NNNM 1 MMNN 2 NNMM 2 NNNN 0 X 0 1 2 3 f(x) 1/15 4/15 6/15 4/15 F(X) 1/15 5/15 11/15 1 Media y varianza de una variable aleatoria Sea X una variable aleatoria con distribución de probabilidad f(x), se calcula la media de X como: 𝜇 = 𝐸(𝑋) = ∑ 𝑥𝑓(𝑥) 𝑥

donde la sumatoria se hace sobre todos los valores posibles de X. A veces la media de X se llama esperanza, o valor esperado, de X y también se denota por E(X) o por μ. Ejercicio 75 Un inspector de calidad muestrea un lote que contiene siete componentes, tres defectuosos y cuatro buenos. El inspector toma una muestra de tres componentes. Encuentre el valor esperado del número de componentes buenos en esta muestra. Sapere Aude Atrévete a saber 56

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

La función de masa de la distribución será: 𝑓(𝑥) =

3 (𝑥4)(3−𝑥 )

(73)

=

4𝐶𝑥

∙ 3𝐶(3−𝑥) 7𝐶3

X 0 1 2 3 Σ f(x) 1/35 12/35 18/35 4/35 1 F(x) 1/35 13/35 31/35 1 x∙f(x) 0 12/35 36/35 12/35 12/7 𝜇 = 𝐸(𝑋) = ∑ 𝑥𝑓(𝑥) = 12/7 𝑥

Ejercicio 76 En un juego de azar se pagarán $25 a una persona si y solo si salen escudos o coronas cuando se lanzan tres monedas, caso contrario la persona debe pagar $ 10. ¿Cuál es su ganancia esperada? Dado que cada moneda solo puede presentar dos resultados (escudo o corona) se puede establecer por el Teorema Universal del Conteo que se van a tener ocho posibles resultados (2 x 2 x 2 = 8), de los cuales solo 2 van a ser éxito (3 escudos o 3 coronas). Así las cosas, de acuerdo con la probabilidad clásica, la probabilidad de ganar es ¼ y la de perder es de ¾, por lo que la ganancia esperada es: E(X) = 0,25 ∙ $25 – 0,75 ∙ $10 = –$1,25. Ejercicio 77 Encuentre la Esperanza Matemática de los ejercicios 71 a 74. X 0 1 2 Σ f(x) 5/14 15/28 3/28 1 F(X) 10/28 25/28 1 1 x∙f(x) 0 15/28 6/28 ¾ X 0 1 2 3 4 f(x) 1/16 4/16 6/16 4/16 1/16 F(X) 1/16 5/16 11/16 15/16 1 x∙f(x) 0 4/16 12/16 12/16 4/16

Σ 1 1 2

X 0 1 2 3 Σ f(x) 1/8 3/8 3/8 1/8 1 F(X) 1/8 4/8 7/8 1 x∙f(x) 0 3/8 6/8 3/8 3/2 X 0 1 3 Σ f(x) 2/6 3/6 1/6 1 F(X) 2/6 5/6 1 x∙f(x) 0 3/6 3/6 1 X 0 1 2 Σ f(x) 7/25 12/25 6/25 1 F(X) 7/25 19/25 1 x∙f(x) 0 12/25 12/25 24/25 Sapere Aude Atrévete a saber 57

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

X 28 29 30 31 32 Σ f(x) 1/9 2/9 3/9 2/9 1/9 1 F(x) 1/9 3/9 6/9 8/9 1 x∙f(x) 28/9 58/9 90/9 62/9 32/9 30 W -3 -1 1 3 Σ f(w) 1/8 3/8 3/8 1/8 1 F(w) 1/8 4/8 7/8 1 x∙f(x) -3/8 -3/8 3/8 3/8 0 X 0 1 2 3 Σ f(x) 1/15 4/15 6/15 4/15 1 F(X) 1/15 5/15 11/15 1 x∙f(x) 0 4/15 12/15 12/15 28/15 Se define a la varianza poblacional de una variable aleatoria discreta como: 𝜎𝑥2 = ∑𝑥(𝑥 − 𝜇𝑥 )2 𝑓(𝑥) Una fórmula alternativa para la varianza está dada por: 𝜎𝑥2 = ∑𝑥 𝑥 2 𝑓(𝑥) − 𝜇𝑥2 La desviación estándar es la raíz cuadrada de la varianza: 𝜎𝑥 = √𝜎𝑥2 . Ejercicio 78 Calcule las varianzas y las desviaciones estándar de los ejercicios anteriores. X 0 1 2 3 Σ f(x) 1/35 12/35 18/35 4/35 1 x∙f(x) 0 12/35 36/35 12/35 12/7 2 f(x)(x – μ) 144/1715 60/343 72/1715 324/1715 24/49 x2f(x) 0 12/35 72/35 36/35 24/7 σ2 = 24/7 – (12/7)2 = 24/49,

σ =

2√6 7

Ejercicio 76 11025 3675 3675 𝜎𝑥2 = ∑𝑥(𝑥 − 𝜇𝑥 )2 𝑓(𝑥) = (25 − −1,25)2 ∙ 0,25 + (−10 − −1,25)2 ∙ 0,75 = + = 𝜎𝑥2 = ∑𝑥 𝑥 2 𝑓(𝑥) − 𝜇𝑥2 = 252 ∙ 0,25 + (−10)2 ∙ 0,75 − (−1,25)2 = 𝜎=

3675 16

64

64

16

35∙√3 4

X 0 1 2 Σ f(x) 5/14 15/28 3/28 1 xf(x) 0 15/28 6/28 ¾ x2f(x) 0 15/28 12/28 27/28 σ2 45/112 σ

3√35 28

Sapere Aude Atrévete a saber 58

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

X 0 1 2 3 4 Σ f(x) 1/16 4/16 6/16 4/16 1/16 1 xf(x) 0 4/16 12/16 12/16 4/16 2 x2f(x) 0 4/16 24/16 36/16 1 5 2 σ 1 σ 1 X f(x) xf(x) x2f(x) σ2 σ

0 1 2 3 Σ 1/8 3/8 3/8 1/8 1 0 3/8 6/8 3/8 3/2 0 3/8 12/8 9/8 3 ¾ √3⁄ 2 X 0 1 3 Σ f(x) 2/6 3/6 1/6 1 xf(x) 0 3/6 3/6 1 x2f(x) 0 3/6 9/6 2 σ2 1 σ 1

X 0 1 2 Σ f(x) 7/25 12/25 6/25 1 xf(x) 0 12/25 12/25 24/25 x2f(x) 0 12/25 24/25 36/25 2 σ 324/625 σ 18/25 X 28 29 30 31 32 Σ f(x) 1/9 2/9 3/9 2/9 1/9 1 xf(x) 28/9 58/9 90/9 62/9 32/9 30 x2f(x) 784/9 1682/9 300 1922/9 1024/9 2704/3 σ2 4/3 2√3 σ 3 W -3 -1 1 3 Σ f(w) 1/8 3/8 3/8 1/8 1 xf(x) -3/8 -3/8 3/8 3/8 0 x2f(x) 9/8 3/8 3/8 9/8 3 σ2 3 σ √3

Sapere Aude Atrévete a saber 59

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

X 0 1 2 3 Σ f(x) 1/15 4/15 6/15 4/15 1 xf(x) 0 4/15 12/15 12/15 28/15 x2f(x) 0 4/15 24/15 36/15 64/15 2 σ 176/225 4√11 σ 15 Ejercicio 79 Un resistor en un circuito dado tiene una resistencia en el rango de 99 Ω - 101 Ω. Un ingeniero obtiene dos resistores. La probabilidad de que ambos satisfagan la especificación es 0,36, la probabilidad de que exactamente uno de ellos satisfaga la especificación es 0,48 y la probabilidad de que ninguno de ellos lo haga es 0,16. Sea X el número de resistores que satisface la especificación. Determine la función de masa de probabilidad, la media, la varianza y la desviación estándar de X. X 0 1 2 Σ f(x) 0,16 0,48 0,36 1 x∙f(x) 0 0,48 0,72 1,2 x2f(x) 0 0,48 1,44 1,92 σ2 0,48 2√3 σ 5 Principales distribuciones de probabilidad Distribuciones de probabilidad discreta

La distribución de probabilidad discreta describe el comportamiento de una variable aleatoria, independientemente de si se representa de forma gráfica o mediante un histograma, en forma tabular o con una fórmula. A menudo las observaciones que se generan mediante diferentes experimentos estadísticos tienen el mismo tipo general de comportamiento. En consecuencia, las variables aleatorias discretas asociadas con estos experimentos se pueden describir esencialmente con la misma distribución de probabilidad y, por lo tanto, es posible representarlas usando una sola fórmula. De hecho, se necesitan sólo unas cuantas distribuciones de probabilidad importantes para describir muchas de las variables aleatorias discretas que se encuentran en la práctica. Distribución binomial Con frecuencia un experimento consta de pruebas repetidas, cada una con dos resultados posibles que se pueden denominar éxito o fracaso. La aplicación más evidente tiene que ver con la prueba de artículos a medida que salen de una línea de ensamble, donde cada prueba o experimento puede indicar si un artículo está o no defectuoso. Podemos elegir definir cualquiera de los resultados como éxito. El proceso se conoce como proceso de Bernoulli y cada ensayo se denomina experimento de Bernoulli. Por ejemplo, si extraemos cartas de una baraja y éstas no se reemplazan, cambian las probabilidades en la repetición de cada ensayo; es decir, la probabilidad de seleccionar una carta de corazones en la primera extracción es 1/4, pero en la segunda es una Sapere Aude Atrévete a saber 60

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

probabilidad condicional que tiene un valor de 13/51 o 12/51, dependiendo de si resulta un corazón en la primera extracción; entonces éste ya no sería considerado un conjunto de experimentos de Bernoulli. En términos estrictos el proceso de Bernoulli se caracteriza por lo siguiente: 1. El experimento consta de ensayos repetidos. 2. Cada ensayo produce un resultado que se puede clasificar como éxito o fracaso. 3. La probabilidad de un éxito, que se denota con p, permanece constante de un ensayo a otro. 4. Los ensayos repetidos son independientes. Considere el conjunto de experimentos de Bernoulli en el que se seleccionan tres artículos al azar de un proceso de producción, luego se inspeccionan y se clasifican como defectuosos o no defectuosos. Un artículo defectuoso se designa como un éxito. El número de éxitos es una variable aleatoria X que toma valores integrales de cero a 3. Los ocho resultados posibles y los valores correspondientes de X son: Resultado NNN NND NDN DNN NDD DND DDN DDD X 0 1 1 1 2 2 2 3 Como los artículos se seleccionan de forma independiente y se asume que el proceso produce 25% de artículos defectuosos. 9 𝑃(𝑁𝐷𝑁) = 𝑃(𝑁)𝑃(𝐷)𝑃(𝑁) = 0,75 ∙ 0,25 ∙ 0,75 = = 0,140625 64 Cálculos similares dan las probabilidades para los otros resultados posibles. La distribución de probabilidad de X es, por lo tanto, x 0 1 2 3 f(x) 27/64 27/64 9/64 1/64 El número X de éxitos en n experimentos de Bernoulli se denomina variable aleatoria binomial. La distribución de probabilidad de esta variable aleatoria discreta se llama distribución binomial y sus valores se denotarán como b(x; n, p), ya que dependen del número de ensayos y de la probabilidad de éxito en un ensayo dado. Por consiguiente, para la distribución de probabilidad de X el número de productos defectuosos es: 9 𝑃(𝑋 = 2) = 𝑓(2) = 𝑏(2; 3, 0,25) = 64 Generalicemos ahora la ilustración anterior con la intención de obtener una fórmula para b(x; n, p). Esto significa que deseamos encontrar una fórmula que dé la probabilidad de x éxitos en n ensayos para un experimento binomial. Un experimento de Bernoulli puede tener como resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 – p. Entonces, la distribución de probabilidad de la variable aleatoria binomial X, el número de éxitos en n ensayos independientes, es: 𝑛 𝑏(𝑥; 𝑛, 𝑝) = ( ) ∙ 𝑝 𝑥 ∙ 𝑞 𝑛−𝑥 = 𝑛𝐶𝑥 ∙ 𝑝 𝑥 ∙ 𝑞 𝑛−𝑥 , 𝑥 = 0, 1, 2, … . . , 𝑛 𝑥 La media y la varianza de la distribución binomial b (x; n, p) son μ = n∙p y σ2 = n∙p∙q. Ejercicio 80 La probabilidad de que cierta clase de componente sobreviva a una prueba de choque es de 3/4. Calcule la probabilidad de que sobrevivan exactamente 2 de los siguientes 4 componentes que se prueben. 3 4 27 𝑏 (2; 4, ) = ( ) ∙ 0,752 ∙ 0,252 = = 0,21094 4 2 128 Sapere Aude Atrévete a saber 61

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 81 La probabilidad de que un paciente se recupere de una rara enfermedad sanguínea es de 0,4. Si se sabe que 15 personas contrajeron la enfermedad, ¿cuál es la probabilidad de que a) sobrevivan al menos 10, b) sobrevivan de 3 a 8, y c) sobrevivan exactamente 5? 15 𝑖 15−𝑖 a) 𝑏(≥ 10; 15, 0,4) = ∑15 ) = 0,03383 𝑖=10 (( 𝑖 ) ∙ 0,4 ∙ 0,6 b) 𝑏(3 ≤ 𝑥 ≤ 8; 15, 0,4) = ∑8𝑖=3 ((15 ) ∙ 0,4𝑖 ∙ 0,615−𝑖 ) = 0,87784 = 0,90495 − 0,02711 = 0,87784 𝑖 c) 𝑏(5; 15, 0,4) = (15 ) ∙ 0,45 ∙ 0,610 = 0,18594 5 Ejercicio 82 Una cadena grande de tiendas al detalle le compra cierto tipo de dispositivo electrónico a un fabricante, el cual le indica que la tasa de dispositivos defectuosos es de 3%. a) El inspector de la cadena elige 20 artículos al azar de un cargamento. ¿Cuál es la probabilidad de que haya al menos un artículo defectuoso entre estos 20? 𝑏(𝑥 ≥ 1; 20, 0,03) = 1 − (20 ) ∙ 0,030 ∙ 0,9720 = 1 − 0,5438 = 0,45621 0 20 𝑖 20−𝑖 𝑏(𝑥 ≥ 1; 20, 0,03) = ∑20 = 0,45621 𝑖=1( 𝑖 ) ∙ 0,03 ∙ 0,97 b) Suponga que el detallista recibe 10 cargamentos en un mes y que el inspector prueba aleatoriamente 20 dispositivos por cargamento. ¿Cuál es la probabilidad de que haya exactamente tres cargamentos que contengan al menos un dispositivo defectuoso de entre los 20 seleccionados y probados? Cada cargamento puede o no contener al menos un artículo defectuoso, por lo que el hecho de probar el resultado de cada cargamento puede considerarse un experimento de Bernoulli con p = 0,4562. Si se supone la independencia de un cargamento a otro, y si se denota con Y el número de cargamentos que contienen al menos un artículo defectuoso, Y sigue otra distribución binomial: 𝑏(3; 10, 0,4562) = (10 ) ∙ 0,45623 ∙ 0,54387 = 0,16021 3 Ejercicio 83 Se conjetura que hay impurezas en 30% del total de pozos de agua potable de cierta comunidad rural. Para obtener información sobre la verdadera magnitud del problema se determina que debe realizarse algún tipo de prueba. Como es muy costoso probar todos los pozos del área, se eligen 10 al azar para someterlos a la prueba. a) ¿Si se utiliza la distribución binomial, cual es la probabilidad de que exactamente 3 pozos tengan impurezas, considerando que la conjetura es correcta? 𝑏(3; 10, 0,3) = (10 ) ∙ 0,33 ∙ 0,77 = 0,26683 3 b) ¿Cuál es la probabilidad de que más de 3 pozos tengan impurezas? 𝑃(𝑥 > 3) = 1 − 𝑏(𝑥 ≤ 3; 10, 0,3) = 1 − 0,64961 = 0,35039 Otras formas: 𝑃(𝑥 > 3) = 1 − (0,2668 + (10 ) ∙ 0,32 ∙ 0,78 + (10 ) ∙ 0,31 ∙ 0,79 + (10 ) ∙ 0,30 ∙ 0,710 ) 2 1 0 𝑃(𝑥 > 3) = 1 − (0,2668 + 0,2335 + 0,1211 + 0,0282) = 1 − 06496 = 0,35039 10 𝑖 10−𝑖 Otra forma:𝑏(𝑥 > 3; 10, 0,3) = ∑10 = 0,35039 𝑖=4( 𝑖 ) ∙ 0,3 ∙ 0,7 Ejercicio 84 Considere la situación del ejercicio anterior. La idea de que el 30% de los pozos tienen impurezas es solo una conjetura del consejo local del agua. Suponga que se eligen 10 pozos de forma aleatoria y resulta que 6 contienen impurezas. ¿Que implica esto respecto de la conjetura? Utilice un enunciado de probabilidad. Debemos preguntarnos: ¿si la conjetura es correcta, podríamos haber encontrado 6 o más pozos con impurezas? Sapere Aude Atrévete a saber 62

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

𝑃(𝑥 ≥ 6) = ∑10 𝑥=6 𝑏(𝑥; 10, 0,3) = 1 − 0,95265 = 0,04735 En consecuencia, es poco probable (4,73% de probabilidad) que se encuentren 6 o más pozos que contengan impurezas si solo 30% de ellos las contienen. Esto pone seriamente en duda la conjetura y sugiere que el problema de la impureza es mucho más grave. Ejercicio 85 Todos los días se seleccionan, de manera aleatoria, 15 unidades de un proceso de manufactura con el propósito de verificar el porcentaje de unidades defectuosas en la producción. Con base en información histórica, la probabilidad de tener una unidad defectuosa es de 0,05. La gerencia ha decidido detener la producción cada vez que una muestra de 15 unidades tenga dos o más defectuosas. ¿Cuál es la probabilidad de que, en cualquier día, la producción se detenga? 𝑃(𝑥 ≥ 2) = 1 − 𝑏(𝑥 ≤ 1; 15, 0,05) = 1 − 0,8290 = 0,1710 15 𝑖 15−𝑖 𝑃(𝑥 ≥ 2) = ∑15 = 0,1710 2 ( 𝑖 ) ∙ 0,05 ∙ 0,95 Ejercicio 86 Un club nacional de automovilistas comienza una campaña telefónica con el propósito de aumentar el número de miembros. Con base en experiencia previa, se sabe que una de cada 20 personas que reciben la llamada se une al club. Si en un día 25 personas reciben la llamada, ¿cuál es la probabilidad de que por lo menos dos de ellas se inscriban al club? 𝑝 = 1⁄20 = 0,05 𝑃(𝑥 ≥ 2) = 1 − 𝑃(𝑥 ≤ 1) = 1 − 𝑏(𝑥 ≤ 1; 25, 0,05) = 0,3576 25 𝑖 25−𝑖 𝑃(𝑥 ≥ 2) = ∑25 = 0,3576 2 ( 𝑖 ) ∙ 0,05 ∙ 0,95 Experimentos Multinomiales y la Distribución Multinomial El experimento binomial se convierte en un experimento multinomial si cada prueba tiene más de dos resultados posibles. Si una prueba dada puede conducir a los k resultados E1, E2, …., Ek con probabilidades p1, p2, …., pk, entonces la distribución de probabilidad de las variables aleatorias X1, X2, ….., Xk, que representan el número de ocurrencias para E1, E2, …., Ek en n pruebas independientes es: 𝑓(𝑥1 , 𝑥2 , … . . , 𝑥𝑘; 𝑝1 , 𝑝2 , … . . , 𝑝𝑘 , 𝑛) = (𝑥

𝑛 1 ,𝑥2 ,…..,𝑥𝑘

𝑥

𝑥

𝑥

) 𝑝1 1 𝑝2 2 … . . 𝑝𝑘 𝑘 = 𝑥

𝑛!

𝑥

1 !𝑥2 !𝑥3 !⋯𝑥𝑘 !

𝑥

𝑥

𝑝1 1 𝑝2 2 … . . 𝑝𝑘 𝑘

con ∑𝑘𝑖=1 𝑥𝑖 = 𝑛 𝑦 ∑𝑘𝑖=1 𝑝𝑖 = 1 Ejercicio 87 Si se lanza seis veces un par de dados, ¿cuál es la probabilidad de obtener un total de 7 u 11 dos veces, un par igual una vez y cualquier otra combinación tres veces? E1: obtener 7 u 11 dos veces. E2: obtener un par una vez. E3: obtener cualquier otra combinación tres veces. P(E1) = 6/36 + 2/36 = 8/36 = 2/9 P(E2) = 6/36 = 1/6 P(E3) = 1 – 1/6 – 2/9 = 11/18 X1: 2; X2: 1; X3: 3 n: 6 2 1 11

2 2 1 1 11 3

6!

2 2 1 1 11 3

6655

6 𝑓 (2, 1, 3; 9 , 6 , 18 , 6) = (2,1,3 ) (9) (6) (18) = (2!∙1!∙3!) (9) (6) (18) = 59049 = 11,27%

Sapere Aude Atrévete a saber 63

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 88 De acuerdo con la teoría genética, cierta cruza de conejillos de indias tendrá crías rojas, negras y blancas, con relación 8:4:4. Encuentre la probabilidad de que entre ocho crías 5 sean rojas, 2 negras y 1 blanca. E1: obtener 5 crías rojas; E2: obtener 2 crías negras; E3: obtener 1 cría blanca. P(E1) = 8/16 = 0,5 P(E2) = 4/16 = 0,25 P(E3) = 4/16 = 0,25 X1: 5 X2: 2 X3: 1 n=8 8!

21

8 𝑓(5, 2, 1; 0,5, 0,25, 0,25, 8) = (5,2,1 ) (0,5)5 (0,25)2 (0,25)1 = (5!2!1!) (0,5)5 (0,25)2 (0,25)1 = 256 = 8,2%

Ejercicio 89 Las probabilidades de que un delegado a cierta convención llegue por aire, autobús, automóvil o tren son 0,4, 0,2, 0,3 y 0,1, respectivamente. ¿Cuál es la probabilidad de que, entre nueve delegados de esta convención seleccionados al azar, tres lleguen por aire, tres por autobús, uno en automóvil y dos en tren? E1: 3 llegan por aire. E2: 3 llegan en autobús. E3: 1 llega en automóvil. E4: 2 llegan en tren. P(E1) = 0,4 P(E2) = 0,2 P(E3) = 0,3 P(E4) = 0,1 9! 𝑓(3, 3, 1, 2; 0,4, 0,2, 0,3, 0,1, 9) = ( ) (0,4)3 (0,2)3 (0,3)1 (0,1)2 = 0,77% 3!3!1!2!

Distribución Hipergeométrica La distribución hipergeométrica es una distribución discreta relacionada con muestreos aleatorios y sin reemplazo. Supóngase que se tiene una población de N elementos de los cuales, n pertenecen a la categoría A y N - n a la B. La distribución hipergeométrica mide la probabilidad de obtener x (0 ≤ x ≤ n) elementos de la categoría A en una muestra sin reemplazo de n elementos de la población original. En la distribución de probabilidad de la variable aleatoria hipergeométrica X, el número de éxitos en una muestra aleatoria de tamaño n que se selecciona de N artículos de los que k se denominan éxito y N – k fracaso, es ℎ(𝑥; 𝑁, 𝑛, 𝑘) =

𝑁−𝑘 (𝑘 𝑥)( 𝑛−𝑥 )

(𝑁 𝑛)

, 𝑥 = 0, 1, 2, … . . , 𝑛

La media y la varianza de la distribución hipergeométrica h(x; N, n, k) son: 𝜇=

𝑛𝑘 𝑁

𝑦 𝜎2 =

𝑁−𝑛 𝑛𝑘 𝑘 ∙ (1 − 𝑁) 𝑁−1 𝑁

Ejercicio 90 Se selecciona al azar un comité de 5 personas entre tres ingenieros civiles y seis mecánicos, determine la distribución de probabilidad para el número de civiles en el comité. Encuentre μ y σ2. La formulación sería h(x; 9, 5, 3) por lo que la fórmula general sería: ℎ(𝑥; 9, 5, 3) =

9−3 (𝑥3)(5−𝑥 )

(95)

, 𝑥 = 0, 1, 2, 3 X 0 1 2 3 h(x) 1/21 5/14 10/21 5/42

5∙3 5 = 3 = 1, 6̅ 9 9−5 3 3 𝜎 2 = 9−1 ∙ 5 ∙ 9 (1 − 9)

𝜇=

5 = 9 = 0, 5̅

Sapere Aude Atrévete a saber 64

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 91 Lotes de 40 componentes cada uno se denominan aceptables si no contienen más de tres componentes defectuosos. El procedimiento para muestrear el lote es seleccionar cinco componentes al azar y rechazar el lote si se encuentra un componente defectuoso. ¿Cuál es la probabilidad de que se encuentre exactamente un componente defectuoso en la muestra si hay tres defectuosos en todo el lote? Encuentre μ y σ2. ℎ(1; 40, 5, 3) =

(31)(40−3 5−1 ) (40 5)

5∙3 3 = 8 = 0,375 40 40−5 5∙3 3 𝜎 2 = 40−1 ∙ 40 (1 − 40)

(31)(37 4)

=

(40 5)

595

= 1976 = 30,111%

𝜇=

259

= 832 ≈ 0,3113

Distribución Poisson Es una distribución comúnmente usada en el trabajo científico y se puede considerar es una aproximación de la distribución binomial, cuando n es grande y p es pequeña. A partir de la distribución binomial, cuando n es grande y p pequeña, se puede determinar que la función de masa depende de la media (np) y muy pocos de los valores específicos de n y p, por lo que se puede aproximar la función de masa con una cantidad que dependa solo del producto np, a la cual llamaremos λ. Entonces la función de masa de la nueva distribución, cuyo nombre es Distribución Poisson en honor de su desarrollador, será: 𝑝(𝑥) = 𝑃(𝑋 = 𝑥) = {

𝑒 −𝜆

𝜆𝑥 𝑥!

𝑠𝑖 𝑥 𝑒𝑠 𝑢𝑛 𝑒𝑛𝑡𝑒𝑟𝑜 𝑛𝑜 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜

0 𝑐𝑜𝑛 𝑐𝑢𝑎𝑙𝑞𝑢𝑖𝑒𝑟 𝑜𝑡𝑟𝑜 𝑣𝑎𝑙𝑜𝑟 𝑐𝑜𝑛 𝜇 = 𝜆 𝑦 𝜎 2 = 𝜆

Ejercicio 92 Si λ = 3, determine Poisson (x = 2), Poisson (x = 10), Poisson (x = 0), Poisson (x = -1) y Poisson (x = 0,5) 32

p(2) = 𝑒 −3 2! = 0,22404 310

p(10) = 𝑒 −3 10! = 0,00081 30

p(0) = 𝑒 −3 = 0,04979 0! 𝑝(−1) = 0 𝑝(0,5) = 0 Ejercicio 93 Si λ = 4, determine Poisson (x ≤ 2), Poisson (x > 1) p(x ≤ 2) = 0,2381 p(x > 1) = 1 – p(x ≤ 1) = 1 – 0,0916 = 0,9084 ó p(x ≥ 2) = 0,90842. Ejercicio 94 Unas partículas están suspendidas en una medida de concentración de 10 partículas por ml. Se agita por completo un volumen grande de la suspensión y después se extrae 1 ml. ¿Cuál es la probabilidad de que solo se extraigan 8 partículas? p(8) = 𝑒 −10

108 8!

= 0,1126

Sapere Aude Atrévete a saber 65

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 95 Unas partículas están suspendidas en una medida de concentración de 6 partículas por ml. Se agita por completo un volumen grande de la suspensión y después se extrae 3 ml. ¿Cuál es la probabilidad de que solo se extraigan 15 partículas? 1815 p(15) = 𝑒 −18 = 0,07858 15! Ejercicio 96 La tía Eka hornea galletas con chispas de chocolate en grupos de 100 galletas. Agrega 300 chispas en la masa. Cuando las galletas están listas le ofrece una. ¿Cuál es la probabilidad de que su galleta no tenga chispas de chocolate? 30 p(0) = 𝑒 −3 = 0,04979 = 4,979% 0! Ejercicio 97 Los sobrinos de la tía Eka se quejan de que ella es muy tacaña con las chispas de chocolate y le piden que agregue suficientes chispas a la masa de forma que solo un 1% de las galletas no tenga chispas de chocolate. ¿Cuántas chispas debe agregar en la masa de las 100 galletas para cumplir su propósito? 𝜆0

𝑛

p(0) = 𝑒 −𝜆 0! = 0,01 → 𝑒 −𝜆 = 0,01 𝜆 = 100 = 0,01𝑛 → 𝑒 −0,01𝑛 = 0,01 Por calculadora: 𝑛 = 461. Manualmente: 𝑙𝑛 𝑒 −0,01𝑛 = ln 0,01 → − 0,01𝑛 = −4,6052 𝑛 = 461 Ejercicio 98 Suponga que el número de visitas a un sitio web, durante un intervalo fijo, sigue una distribución Poisson. Considere que la media de la razón de visitas es de cinco por minuto. Determine la probabilidad de que haya solo 17 visitas en los siguientes 3 minutos. p(17) = 𝑒 −15

1517 17!

= 0,08474

Ejercicio 99 Una suspensión contiene partículas en una concentración desconocida de λ por ml. Se agita por completo la suspensión y después se extraen 4 ml y se cuentan 17 partículas. Estime λ. 17 𝜆 = 4 = 4,25 𝑝𝑎𝑟𝑡í𝑐𝑢𝑙𝑎𝑠/𝑚𝑙 Ejercicio 100 Durante un experimento de laboratorio el número promedio de partículas radiactivas que pasan a través de un contador en un milisegundo es 4. ¿Cuál es la probabilidad de que entren 6 partículas al contador en un milisegundo dado? 46 −4 p(6) = 𝑒 = 0,1042 6! Ejercicio 101 El número promedio de camiones-tanque que llega cada día a cierta ciudad portuaria es 10. Las instalaciones en el puerto pueden alojar a lo sumo 15 camiones-tanque por día. ¿Cuál es la probabilidad de que en un día determinado lleguen más de 15 camiones y se tenga que rechazar algunos? 10𝑥

−10 𝑃(𝑥 > 15) = 1 − ∑15 = 1 − 0,9513 = 0,04874 𝑥=0 𝑒 𝑥! 𝑃(𝑥 > 15) = 1 − 0,9513 = 0,0487

Sapere Aude Atrévete a saber 66

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejercicio 102 Un analista de empresas ha pronosticado que el 3,5% de las pequeñas empresas irán a la bancarrota en 2018. Para una muestra de 100 pequeñas empresas, estime la probabilidad de que al menos tres de ellas entren en bancarrota, suponiendo que la predicción del experto es correcta. 𝑃(𝑥 ≥ 3) = 1 − ∑2𝑥=0 𝑒 −3,5

3,5𝑥 𝑥!

= 1 − 32085 = 0,67915 = 67,915%

Ejercicio 103 Una empresa electrónica observa que el número de componentes que fallan antes de cumplir 100 horas de funcionamiento es una variable aleatoria de Poisson. Si el número promedio de estos fallos es ocho, a) ¿cuál es la probabilidad de que falle un componente en 25 horas?, b) ¿y de que fallen no más de dos componentes en 50 horas?, c) ¿cuál es la probabilidad de que fallen por lo menos diez en 125 horas? 21 = 0,27067 1! 4𝑥 2 𝑝(≤ 2) = ∑𝑥=0 𝑒 −4 = 0,2381 𝑥! 10𝑥 𝑃(𝑥 ≥ 10) = 1 − ∑9𝑥=0 𝑒 −10 𝑥! =

a) p(1) = 𝑒 −2 b) c)

0,54207

Distribuciones de probabilidad continua Distribución Normal

La más común de las distribuciones de probabilidad continua en el campo de la estadística es la distribución normal. Su gráfica tiene la forma de una campana:

Esta distribución describe aproximada y adecuadamente muchos fenómenos que ocurren en la naturaleza y en general en el campo científico. Además, los errores en las mediciones científicas se aproximan extremadamente bien mediante esta distribución. Una variable aleatoria continua X que tiene la distribución en la forma de la figura mostrada se denomina variable aleatoria normal. La ecuación matemática para la distribución de probabilidad de la variable normal depende de los parámetros μ y σ, es decir de su media aritmética y de su desviación estándar. Denotamos los valores de la densidad de X como n(x; μ, σ) y la función sería: 1 𝑥−𝜇 2 1 −( )( ) 𝑛(𝑥; 𝜇, 𝜎) = 𝑒 2 𝜎 , −∞ < 𝑥 < ∞ 𝜎√2𝜋

Sapere Aude Atrévete a saber 67

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Ejemplos de diferentes curvas normales: En el primer ejemplo se observa que las dos curvas están centradas en su media aritmética, las cuales se ubican en diferentes lugares del eje x. Son curvas normales con μ1 < μ2 y σ1 = σ2.

En el segundo ejemplo se observa que las dos curvas tienen igual media aritmética, están centradas en ella, pero tienen diferente desviación estándar. Son curvas normales con μ1 = μ2 y σ1 < σ2.

En el tercer ejemplo se observa que las dos curvas tienen diferente media aritmética, están centradas en ella, y diferente desviación estándar. Son curvas normales con μ1 < μ2 y σ1 < σ2.

De la inspección de las figuras anteriores y al examinar la primera y segunda derivada de n(x; μ, σ), se pueden obtener las siguientes propiedades de la curva normal: 1. La moda ocurre en x = μ. 2. La curva es simétrica alrededor de un eje vertical que pasa por μ. 3. La curva tiene como puntos de inflexión x = μ ± σ. Es cóncava hacia abajo si μ – σ < X < μ + σ y en los demás puntos es cóncava hacia arriba. 4. La curva se aproxima en forma asintótica a eje horizontal, en cualquier dirección, conforme se aleja de μ. 5. El área total bajo la curva y sobre el eje horizontal es igual a 1. 6. E(x) = μ. 7. E[(X – μ)2] = σ2.

Sapere Aude Atrévete a saber 68

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Muchas variables aleatorias tienen distribuciones de probabilidad que se pueden describir de manera adecuada mediante la curva normal, una vez que se especifiquen μ y σ2. La curva de cualquier distribución continua de probabilidad o función de densidad, se construye de modo que el área bajo la curva limitada por las dos ordenadas x1, x2, es igual a la probabilidad de que la variable aleatoria X tome un valor entre x1 y x2. Así, para la curva normal de la siguiente figura:

𝑃(𝑥1 < 𝑋 < 𝑥2 ) = á𝑟𝑒𝑎 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎 𝑥2

𝑃(𝑥1 < 𝑋 < 𝑥2 ) = ∫ 𝑛(𝑥; 𝜇, 𝜎)𝑑𝑥

=

𝑥2

1 𝜎√2𝜋



𝑥1 1 𝑥−𝜇 2 −( )( ) 𝑒 2 𝜎

𝑑𝑥

𝑥1

La dificultad se encuentra al resolver las integrales de funciones de densidad normal, por lo que se necesita de la tabulación de las áreas de la curva normal para una referencia rápida. Se puede transformar todas las observaciones de cualquier variable aleatoria normal X a un nuevo conjunto de observaciones de una variable aleatoria normal con media cero y varianza 1. Distribución normal estándar La distribución de una variable aleatoria normal con media cero y varianza 1 se llama distribución normal estándar y para estandarizar una curva normal, se utiliza la siguiente fórmula: 𝑥−𝜇 𝑍= 𝜎 Las distribuciones original y transformada se ilustran en la siguiente figura:

Sapere Aude Atrévete a saber 69

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Como todos los valores de X caen entre x1 y x2, tienen valores correspondientes entre z1 y z2, el área bajo la curva X entre las ordenadas (x1, x2) es igual al área bajo la curva Z entre las ordenadas transformadas (z1, z2). Así las cosas, se puede construir una tabla que represente a la curva normal estándar y con esta y la transformación, se pueden calcular todos los valores de diferentes curvas normales. Ejercicio 104 Dado un fenómeno que se comporta de forma normal, encuentre la probabilidad de que se presenten 8 errores si μ = 5 y σ = 2. 𝑛(8; 5, 2) =

1 8−5 1 −( )( ) 2 2 𝑒 2√2𝜋

2

= 0,0648

Por transformación: 8−5 𝑍1 = 2 = 1,5 Si tomamos la probabilidad de Z = 1,5 por tabla obtenemos 0,93319, que es el valor acumulado de la probabilidad. Por ello, dado que el fenómeno es discreto y estamos usando una distribución continua, requerimos restarle el valor anterior más aproximado o calcular un área de acción. Si determinamos que el valor anterior más aproximado es Z = 1,49 y lo buscamos en la tabla obtendremos 0,93189 y luego de la resta, la probabilidad deseada nos daría P(8) ≈ 0,93319 – 0,93189 = 0,0013. Si resolvemos en el área determinada entre 7,5 y 8,5 obtendremos: 7,5−5 8,5−5 𝑍2 = = 1,25 𝑍3 = = 1,75 2 2 P(Z2) = 0,89435 P(Z3) = 0,95994 P(8) = 0,95994 - 0,89435 = 0,06559 La diferencia radica en que la comisión de errores no es un fenómeno continuo sino discreto (no se pueden cometer 7,5 errores, solo 7 u 8), por lo que no se puede aplicar la tabla, solo la fórmula. Por App: 𝑛(8; 5, 2) = 𝑛(8,5; 5, 2) − 𝑛(7,5; 5, 2) = 0,95994 − 0,89435 = 0,06559 Ejercicio 105 Dada una distribución normal estándar, encuentre el área bajo la curva que yace a la derecha de Z = 1,84 y la que yace entre Z = -1,97 y Z = 0,86. P(Z > 1,84) = 0,03288 P(-1,97 < Z < 0,86) = 0,80511 – 0,02442 = 0,78069

Ejercicio 106 Dada una distribución normal estándar, encuentre el valor de k tal que P(Z > k) = 0,3015 y de P(k < Z < -0,18) = 0,4197 a) P(Z > k) = 0,3015 k = 0,52009 Sapere Aude Atrévete a saber 70

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

b) P(k < Z < -0,18) = P(-0,18) – P(k) = 0,4197 → P(k) = P(-0,18) – 0,4197 P(-0,18) = 0,42858 P(k) = 0,42858 – 0,4197 = 0,00888 k = -2,37058 Ejercicio 107 Dada una distribución normal con μ = 45 y σ = 12, encuentre la probabilidad de que X tome un valor entre 50 y 72. 𝑃(50 < 𝑥 < 72) = 0,98778 − 0,66154 = 0,32624 Otra forma: 50−45 𝑍1 = 12 = 0,416̅ 72−45

𝑍2 = = 2,25 12 𝑃(50 < 𝑥 < 72) = 𝑃(0,42 < 𝑍 < 2,25) = 0,98778 − 0,66154 = 0,32624 Ejercicio 108 Dada una distribución normal con μ = 200 y σ = 40, encuentre la probabilidad de que X tome un valor mayor de 252. 𝑃(𝑥 > 252) = 0,09680 252−200 𝑍 = 40 = 1,30 𝑃(𝑥 > 252) = 𝑃(𝑍 > 1,30) = 1 − 0,90320 = 0,09680 Ejercicio 109 Dada una distribución normal con μ = 35 y σ = 8, encuentre el valor de x que tiene el 40% del área a la izquierda y el valor de y que tiene el 18% del área a la derecha. a) 𝑃(𝑋 < 𝑥) = 0,4 → 𝑥 = 32,97322 b) 𝑃(𝑋 > 𝑥) = 0,18 → 𝑥 = 42,32292 Aplicaciones de la distribución normal Ejercicio 110 Cierto tipo de batería de almacenamiento dura en promedio 3,0 años, con una desviación estándar de 0,5 años. Suponga que las duraciones de la batería se distribuyen normalmente, encuentre la probabilidad de que una batería dada dure menos de 2,3 años. 𝑃(𝑥 < 2,3) = 0,08076 = 8,076% La probabilidad de que una batería dada dure menos de 2,3 años es de 8,076%. Ejercicio 111 Una empresa fabrica focos que tienen una duración, antes de fundirse, que se distribuye normalmente con una media igual a 800 horas y una desviación estándar de 40 horas. Encuentre la probabilidad de que un foco se funda entre 778 y 834 horas. 𝑃(778 < 𝑥 < 834) = 0,80234 − 0,29116 = 0,51118 La probabilidad de que un foco se funda entre 778 y 834 horas es de 51,12%. Ejercicio 112 En un proceso industrial, el diámetro de un cojinete es una parte componente importante. El comprador establece que las especificaciones en el diámetro sean de 3,00 ± 0,01 cm. La implicación es que ninguna parte Sapere Aude Atrévete a saber 71

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

que caiga fuera de estas especificaciones se aceptará. Se sabe que en el proceso el diámetro de un cojinete tiene una distribución normal con media 3,000 cm y una desviación estándar de 0,005 cm. En promedio ¿cuántos cojinetes se descartarán? 𝑃(2,99 < 𝑥 < 3,01) = 0,97725 − 0,02275 = 0,9545 1 − 0,9545 = 0,0455 El 4,55% de los cojinetes se rechazarán. Además, obsérvese que se hace uso de la condición de simetría de la distribución normal, para hacer los cálculos. Ejercicio 113 Se utilizan medidores para rechazar todos los componentes donde cierta dimensión no está dentro de la especificación 1,50 ± d. Se sabe que esta medición se distribuye de forma normal con media 1,50 y desviación estándar 0,2. Determine el valor d tal que las especificaciones “cubran” el 95% de las mediciones. Como se requiere que cubra un 95% de las mediciones, el 5% no cubierto corresponde tanto al lado izquierdo como al derecho, por tanto, dada la simetría de la distribución, se deja un 2,5% para cada lado. Nuevamente por simetría: 𝑃(1,5 − 𝑑 < 𝑥 < 1,5 + 𝑑) = 95% 𝑃(𝑥 < 1,5 + 𝑑) = 0,975 → 1,5 + 𝑑 = 1,89199 → 𝑑 = 0,39199 𝑃(1,5 − 𝑑 < 𝑥) = 0,025 → 1,5 − 𝑑 = 1,10801 → 𝑑 = 0,39199 𝑑 = 0,39199 Ejercicio 114 Cierta máquina fabrica resistores eléctricos que tienen una resistencia media de 40 ohmios y una desviación estándar de 2 Ω. Suponga que la resistencia sigue una distribución normal y se puede medir con cualquier grado de precisión. ¿Qué porcentaje de resistores tendrán una resistencia que exceda 43 Ω? 𝑃(𝑥 > 43) = 0,06681 = 6,68% Ejercicio 115 Encuentre el porcentaje de resistores que exceden 43 Ω para el ejemplo anterior, si la resistencia se mide al ohmio más cercano. 𝑃(𝑥 > 43,5) = 0,04006 = 4,01% Ejercicio 116 La calificación promedio para un examen es 74 y la desviación estándar es 7. Si el 12% de la clase obtiene A y las calificaciones siguen una curva que tiene distribución normal, ¿cuál es la A más baja posible y la B más alta posible? 𝑍88% ≈ 1,175 𝑋 = 𝑍𝜎 + 𝜇 = 1,175 ∙ 7 + 74 = 82,225 O, utilizando la App: X = 82,22491 La A más baja posible es 83 y la B más alta posible es 82. Ejercicio 117 Refiérase al ejercicio anterior y encuentre el sexto decil. El sexto decil, D6, es el valor x que deja 60% del área a la izquierda. Entonces, por tablas, Z = 0,255. X = Zσ + μ = 0,255 ∙ 7 + 74 = 75,785 Por App sería X = 75,77343 Es decir, el 60% de las calificaciones es 76 o menos. Sapere Aude Atrévete a saber 72

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Aproximación normal a la binomial La distribución normal a menudo es una buena aproximación a una distribución discreta, cuando la distribución discreta adquiere una forma de campana simétrica. Desde la perspectiva teórica, algunas distribuciones convergen a la normal conforme sus parámetros se aproximan a ciertos límites. La distribución normal es una distribución de aproximación conveniente, pues la función de distribución acumulada se tabula muy fácil. La distribución binomial se aproxima bien por la normal en problemas prácticos cuando se trabaja con la función de distribución acumulada. Si X es una variable aleatoria binomial con media μ = np y varianza σ2 = npq, entonces la forma limitante de la distribución de 𝑋 − 𝑛𝑝 𝑍= √𝑛𝑝𝑞 Conforme n → ∞, es la distribución normal estándar n(z; 0, 1). La distribución normal con μ = np y σ2 = npq no solo proporciona una aproximación muy precisa a la distribución binomial cuando n es grande y p no está extremadamente cercana a 0 o 1, sino que también proporciona una aproximación bastante buena aun cuando n es pequeña y p está razonablemente cercana a ½. Ejercicio 118 La probabilidad de que un paciente se recupere de una rara enfermedad de la sangre es de un 40%. Si se sabe que 100 personas contraen esta enfermedad, ¿cuál es la probabilidad de que menos de 30 sobrevivan? μ = np = 100 ∙ 0,4 = 40 𝜎 = √𝑛𝑝𝑞 = √100 ∙ 0,4 ∙ 0,6 = √24 = 4,898979486 Por fórmula: 𝑋 − 𝑛𝑝 29,5 − 40 𝑍= = = −2,14 4,898979486 √𝑛𝑝𝑞 𝑃(𝑥 < 29,5) = 𝑃(𝑍 < −2,14) = 0,01618 = 1,62% Por App: 𝑃(𝑥 < 29,5) = 0,01604 = 1,6% Ejercicio 119 Una prueba de opción múltiple tiene 200 preguntas cada una, con cuatro respuestas posibles de las cuales solo una es correcta. ¿Cuál es la probabilidad de que con puras conjeturas se obtengan de 25 a 30 respuestas correctas para 80 de los 200 problemas acerca de los que el estudiante no tiene conocimientos? μ = np = 80 ∙ 0,25 = 20 𝜎 = √𝑛𝑝𝑞 = √80 ∙ 0,25 ∙ 0,75 = √15 = 3,872983346 Por fórmula: 24,5−20 𝑍1 = = 1,16 𝑍2 =

√15 30,5−20 √15

= 2,71

𝑃(25 < 𝑥 < 30) = 𝑃(1,16 < 𝑍 < 2,71) = 0,99664 − 0,87698 = 0,11966 = 11,97% Por App: 𝑃(25 < 𝑥 < 30) = 0,99665 − 0,87736 = 0,11929 = 11,93%

Sapere Aude Atrévete a saber 73

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Distribución exponencial La distribución exponencial es una distribución continua que algunas veces se utiliza para modelar el tiempo que transcurre antes de que ocurra un evento, al que a menudo se le llama tiempo de espera. También en algunas ocasiones la distribución exponencial se utiliza para modelar el tiempo de vida de un componente; además, hay una relación cercana entre la distribución exponencial y la distribución de Poisson. La función de densidad de probabilidad de la distribución exponencial tiene un parámetro, que representa una constante positiva, λ cuyo valor determina la localización y forma de la función. La función de densidad de probabilidad de la distribución exponencial con parámetro λ > 0 es: −λx 𝑓(𝑥) = {λe , 𝑥 > 0 0, 𝑥 ≤ 0 La figura presenta gráficas de la función de densidad de probabilidad exponencial para varios valores de λ:

La función de distribución acumulativa es: −λx 𝐹(𝑥) = {1 − e , 𝑥 > 0 0, 𝑥 ≤ 0

La media y la varianza de una variable aleatoria exponencial son: 1 𝜇𝑥 = 𝜆 𝜎𝑥2 =

1 𝜆2

Ejercicio 120 Si X ~ Exp(2), encuentre μX, σ2X, P(X ≤ 1), la mediana y el percentil 30. 1 𝜇𝑥 = 2 = 0,5 1

𝜎𝑥2 = 22 = 0,25 𝑃(𝑋 ≤ 1) = 1 − e−2 = 1 − 0,1353352832 = 0,8646647168 𝑃(𝑋 ≤ 𝑀𝑒 ) = 1 − e−2x = 0,5 e−2x = 0,5 𝑥 = 0,3465735903 𝑃(𝑋 ≤ 𝑃30 ) = 1 − e−2x = 0,3 e−2x = 0,7 𝑥 = 0,178337472 Sapere Aude Atrévete a saber 74

Probabilidad y Estadística Descriptiva Las cifras no mienten, pero los mentirosos también usan cifras

Algunas veces se utiliza la distribución exponencial para modelar el tiempo de espera de un evento, que es el modelo correcto para los tiempos de espera siempre y cuando los eventos sigan un proceso de Poisson. Recuerde que los eventos siguen un proceso Poisson, con un parámetro de razón λ, cuando los números de eventos en intervalos disjuntos son independientes y el número X de eventos que ocurre en un intervalo con una longitud t tiene una distribución de Poisson con media λt, es decir, cuando X ~ Poisson(λt). Ejercicio 121 Una masa radiactiva emite partículas de acuerdo con un proceso de Poisson a una media de razón de 15 partículas por minuto. En algún punto inicia un reloj. ¿Cuál es la probabilidad de que transcurran cinco segundos antes de la siguiente emisión? ¿Cuál es la media del tiempo de espera hasta que se emite la siguiente partícula? El tiempo se medirá en segundos. T denota el tiempo en segundos que transcurre antes de que se emita la siguiente partícula. La media de la razón de las emisiones es de 0,25 por segundo, por lo que el parámetro de razón es λ = 0,25 y T ~ Exp(0,25). La probabilidad de que transcurran más de cinco segundos antes de la siguiente emisión es: 𝑃(𝑇 > 5) = 1 − 𝑃(𝑇 ≤ 5) = 1 − (1 − 𝑒 −0,25∙5 ) = 𝑒 −1,25 = 0,2865047969 1 𝜇𝑥 = =4 0,25 La probabilidad de que se tenga que esperar t unidades adicionales, dado que ya se han esperado s unidades, es la misma que la probabilidad de que se tenga esperar t unidades desde el inicio. La distribución exponencial no “recuerda” cuánto tiempo se ha esperado. En particular, si el tiempo de vida de un componente sigue una distribución exponencial, entonces la probabilidad de que un componente que tiene s unidades de tiempo dure t unidades de tiempo adicionales es la misma que la probabilidad de que un componente nuevo dure t unidades de tiempo. En otras palabras, un componente cuyo tiempo de vida siga una distribución exponencial no muestra ningún síntoma de los años o del uso. A esto se le llama propiedad de falta de memoria. Ejercicio 122 El tiempo de vida de un circuito integrado particular tiene una distribución exponencial con media de dos años. Encuentre la probabilidad de que el circuito dure más de tres años. Suponga que actualmente un circuito tiene cuatro años y aún funciona, determine la probabilidad de que funcione tres años más. 𝑃(𝑇 > 3) = 1 − 𝑃(𝑇 ≤ 3) = 1 − (1 − 𝑒 −0,5∙3 ) = 𝑒 −1,5 = 0,2231301601 Se pide que el tiempo de vida de un circuito sea más de cuatro años y se tiene que calcular la probabilidad de que el tiempo de vida sea mayor que 4 + 3 = 7 años. La probabilidad está dada por: 𝑃(𝑇 > 7 ∩ 𝑇 > 4) 𝑃(𝑇 > 7) 𝑒 −0,5∙7 𝑃(𝑇 > 7|𝑇 > 4) = = = = 𝑒 2−3,5 = 𝑒 −1,5 = 0,2231301601 𝑃(𝑇 > 4) 𝑃(𝑇 > 4) 𝑒 −0,5∙4 La probabilidad de que un circuito con cuatro años dure tres años más es la misma probabilidad de que el circuito nuevo dure tres años. Ejercicio 123 El número de visitas a un sitio web sigue un proceso de Poisson con una razón de tres por minuto. ¿Cuál es la probabilidad de que transcurra más de un minuto sin recibir una visita? Si transcurren dos minutos sin una visita, ¿cuál es la probabilidad que se dé una visita en el siguiente minuto? Sea T el tiempo de espera en minutos hasta la siguiente visita. Entonces T ~ Exp(3). La probabilidad de que transcurra un minuto sin ninguna visita es P(T > 1) = e-3·1 = 0,04978706837. Debido a la propiedad de falta de memoria, la probabilidad de que pase un minuto adicional sin ninguna visita, dado que han transcurrido dos minutos sin una visita, es también igual a 0,04978706837. Por tanto, la probabilidad de que ocurra una visita en el siguiente minuto es igual a 1 - 0,04978706837 = 0,9502129316. Sapere Aude Atrévete a saber 75

Related Documents

Probabilidad
June 2020 16
Probabilidad
November 2019 26
Probabilidad
November 2019 30

More Documents from ""

July 2020 2
April 2020 2
June 2020 0