Metodos_unidi_2019.pdf

  • Uploaded by: Yuri Lima
  • 0
  • 0
  • December 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Metodos_unidi_2019.pdf as PDF for free.

More details

  • Words: 7,629
  • Pages: 30
UNIVERSIDADE FEDERAL DO RECÔNCAVO DA BAHIA CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS

GCET060 – MÉTODOS ESTATÍSTICOS 1ª UNIDADE – ESTATÍSTICA DESCRITIVA

2019

1. IMPORTÂNCIA DA ESTATÍSTICA

1.1 Por que precisamos aprender Estatística?

Os métodos estatísticos são consciente ou inconscientemente usados em várias situações, especialmente na apresentação de informações oriundas de dados numéricos. Diversas vezes, apresentações são baseadas, principalmente, em algum tipo de técnica utilizando teorias matemáticas; porém durante a preparação e apresentação dos dados, métodos estatísticos são utilizados para definir a técnica de coleta de dados e chegar a uma conclusão através das informações coletadas. Os métodos estatísticos têm aplicações em controle de processo, controle de produto, solução de problema, melhora na fabricação e manutenção econômica além de satisfação do cliente. Por este motivo o conhecimento destes métodos está se tornando cada vez mais importante para engenheiros e demais profissionais engajados em programas de promoção da qualidade e produtividade.

Métodos estatísticos representam as ferramentas básicas para remediar e controlar variações, porque a análise estatística é a única base para tentar entender variabilidade. Indústrias ocidentais estão acordando para o uso de métodos estatísticos e técnicas relacionadas para fazer frente ao crescimento constante da competição. Estas empresas também sabem que a implantação de um programa para melhoria da qualidade pode eliminar desperdícios, reduzir os índices de produtos defeituosos fabricados, diminuir a necessidade da realização de inspeção e aumentar a satisfação dos clientes, fatores que implicam em um aumento da produtividade e da competitividade das empresas. Um profissional treinado em Estatística terá maior facilidade em identificar um problema em sua área de atuação, determinar os tipos de dados que irão contribuir para a sua análise, coletar estes dados e a seguir estabelecer conclusões e determinar um plano de ação para a solução do problema detectado.

A Estatística Descritiva abrange métodos gráficos e numéricos utilizados para resumir dados de maneira que características importantes da amostra possam ser expostas.

2. APRESENTAÇÃO DOS DADOS

2.1. O que é estatística e suas divisões A Estatística é uma ciência (ou método) baseada na Teoria das Probabilidades, cujo objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas.

CET060-1

Divisões da Estatística A Teoria Estatística moderna se divide em dois grandes campos: Estatística Descritiva - consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um número pequeno de medidas, substitutas e representantes daquela massa de dados. Estatística Indutiva - consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades.

Técnicas de Amostragem População características

Amostra

Análise Descritiva

Conclusões sobre as características da população

Inferência Estatística Informações contidas nos dados

2.2 População e amostra População - Conjunto de indivíduos, objetos ou informações que apresentam pelo menos uma característica comum, cujo comportamento interessa-nos analisar. Ou, em outras palavras, conjunto de todas as medidas, observações relativas ao estudo de determinado fenômeno. i) Deseja-se conhecer o consumo total de energia elétrica em MWH nas residências da cidade de Salvador no ano de 1998. População ou universo: todas as residências que estavam ligadas a rede elétrica em Salvador, em 1998. Características: X = consumo anual de energia elétrica em MWH. ii) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em 1997, existia algum tipo de controle ambiental. População ou universo: indústrias situadas no Estado da Bahia em1998. Característica: X = existência ou não de algum tipo de controle ambiental na indústria. CET060-2

iii) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano 1997. População ou universo: área referente à Região Nordeste. Característica: X = precipitação pluviométrica. Populações finitas e infinitas: Quanto ao número de elementos, as populações podem ser classificadas em finita ou infinita, dependendo se o número de elementos que a compõe for finito ou infinito. Exemplos: i) População finita: empresas do Pólo Petroquímico de Camaçari. ii) População infinita: as pressões atmosféricas ocorridas nos diversos pontos do Continente em determinado momento. Em geral, como os universos são grandes, investigar todos os elementos populacionais para determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, é impossível observar a totalidade da população. Assim, estudar parte da população constitui-se um aspecto fundamental da Estatística. Amostra: É qualquer subconjunto da população.

2.3. Técnicas de Amostragem A amostragem é um campo da estatística bastante sofisticado que estuda técnicas de planejamento de pesquisa para possibilitar inferências sobre um universo a partir do estudo de uma pequena parte de seus componentes, uma amostra. A representatividade da população na amostra, ou validade, é assegurada pelo planejamento científico da pesquisa, que pode ser dividida nas seguintes etapas: 1) 2) 3) 4) 5) 6) 7) 8)

Formulação do problema; Escolha da unidade amostral (residências, bairro, cidade, fábricas, rios, etc) Escolha das variáveis que serão medidas; Planejamento da pesquisa Coleta de dados; Produção de resultados; Análise dos resultados; Relatório contendo as conclusões.

Esquemas amostrais Por esquema amostral entende-se a dupla: sorteio e métodos de estimação dos parâmetros, geralmente médias e totais, e de modo que se possa obter suas variâncias. Os principais esquemas amostrais são: amostragem aleatória simples, sistemática, estratificada e por conglomerados. Normalmente é usada uma combinação destes esquemas básicos. CET060-3

2.3.1. Amostragem Aleatória Simples Neste tipo de amostra considera-se que cada componente da população estudada tem a mesma chance de ser escolhido para compor a amostra e a técnica que garante esta igual probabilidade é a seleção aleatória de indivíduos, por exemplo através de sorteio. O sorteio dos elementos da amostra é feito geralmente de uma lista com todos os elementos da população, e pode-se usar a tabela de números aleatórios.

2.3.2. Amostragem Aleatória Estratificada Na amostragem estratificada a população é dividida em estratos e em seguida é selecionada uma amostra aleatória de cada estrato. Esta estratégia geralmente é aplicada quando o evento estudado numa população tem características distintas para diferentes categorias que dividem esta população. Muitas vezes, deseja-se estimar os parâmetros de interesse relativos a subgrupos homogêneos da população, como por exemplo, estimar a proporção de rios poluídos em alguns estados do Nordeste. O que se deseja na amostragem estratificada é obter estratos internamente homogêneos, de modo que as estimativas desses estratos sejam representativas dos mesmos. O fato dos estratos serem homogêneos significa que a variância interna é mínima e a variância entre os estratos é máxima. A amostragem estratificada faz com que ao se ponderar as estimativas vindas de cada estrato em uma estimativa global, a variabilidade final seja menor do que se fosse usada a amostragem aleatória simples. O dimensionamento das sub-amostras, ou alocação dos elementos, pode ser de maneira balanceada (mesmo número de elementos em cada estrato) ou proporcional (número de elementos no estrato é proporcional à sua contribuição no total populacional).

2.3.3. Amostragem Sistemática Deve obedecer ao mesmo princípio da amostragem aleatória simples de iguais probabilidades de pertencer à amostra para todos os componentes da população estudada. No entanto, prevê a coleta de dados ao longo de um período de tempo e arbitra um ritmo para tomada de unidades da população para compor a amostra. O número de observações pode ser calculado como na amostragem aleatória simples. Exemplo: numa listagem de indivíduos da população, sorteamos um nome entre os dez primeiros da lista. A partir do nome sorteado, selecionamos um a cada dez indivíduos (o décimo, vigésimo e assim por diante). 2.3.4. Amostragem Aleatória por Conglomerados. A população é dividida em subpopulações distintas (conglomerados). Alguns dos conglomerados são selecionados segundo a amostragem aleatória simples e são observadas todas as unidades dos conglomerados selecionados. CET060-4

2.3.5. Amostragem por Múltiplos Estágios Esta estratégia de amostragem pode ser vista como uma combinação de dois ou mais planos amostrais. Considere por exemplo uma população estratificada onde o número de estratos é muito grande. Ao invés de sortear uma amostra de cada estrato, o que poderia ser inviável devido à quantidade de estratos, o pesquisador poderia optar por sortear alguns estratos e em seguida selecionar uma amostra de cada estrato sorteado. Neste caso, teríamos uma amostragem em dois estágios usando, nas duas vezes, a amostragem aleatória simples, sendo que no primeiro estágio as unidades amostrais são os estratos e no segundo são as componentes da população.

2.4. - Classificação de Variáveis A Estatística ocupa-se fundamentalmente das propriedades das populações cujas características são passíveis de representação numérica como resultado de medições e contagens. Essas características da população são comumente chamadas de variáveis. Variável é qualquer atributo/característica que exerça influência no fenômeno estudado. A adequação da técnica apropriada está diretamente relacionada ao tipo de variável obtida na pesquisa. As variáveis podem ser classificadas em qualitativas e quantitativas. i) Qualitativas : se os resultados das observações forem expressos através de categorias, que se distinguem por alguma característica não-numérica. Ex: setor de atividade econômica, sexo, nível de escolaridade, porte da empresa. Estas podem ser classificadas em: •Nominal: caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não podem ser dispostos segundo um esquema ordenado. Ex: setor de atividade econômica, sexo, etc. •Ordinal: envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valores dos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade, classe sócio-econômica, porte da empresa, etc.

ii) Quantitativas - os resultados das observações serão expressos sempre através de números, que representam contagens ou medidas. Ex: idade, altura, peso, número de empregados, salário mensal, volume de dejetos, nº de habitantes do domicílio, etc. Estas podem ser classificadas em: •Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: número de empregados, nº de habitantes do domicílio, etc. CET060-5

Contínua : pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais. Pode-se dizer que a variável contínua resulta normalmente de mensurações. Ex: Estatura, peso, salário mensal, volume de dejetos, etc.

Exercício: Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem: a) população: moradores de uma certa cidade variável: cor dos olhos (pretos, castanhos, azuis, verdes) b) população: casais residentes em uma certa cidade variável 1: número de filhos variável 2: classe econômica c) população: candidatos a um exame vestibular variável 1: renda familiar variável 2: sexo (masculino, feminino) variável 3: número de pessoas na família d) população: sabonetes de certa marca variável: peso líquido e) população: aparelhos produzidos por uma linha de montagem variável: número de defeitos por unidade

2.5. Apresentação dos Dados 2.5.1. Séries Estatísticas Quando realizamos um levantamento de dados sobre um fenômeno ou variável, o que obtemos como resultado é chamado de série estatística. O modo de condensação ou apresentação das informações pode ser na forma de tabelas ou de gráficos que facilitam a visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer previsões. Para fazermos a diferenciação de uma série estatística para outra, devemos levar em consideração os elementos que a compõe: • • •

a época (fator temporal ou cronológico) a que se refere o fenômeno observado; o local (fator espacial ou geográfico) onde o fenômeno acontece; o fenômeno (espécie do fato ou fator especificativo) que é descrito.

CET060-6

Exemplo 1: POPULAÇÃO RESIDENTE SEGUNDO OS MUNICÍPIOS DA REGIÃO METROPOLITANA DE SALVADOR - 1991 MUNICÍPIOS POPULAÇÃO (em 1.000 habitantes) Camaçari 114 Candeias 68 Dias D'Avila 31 Itaparica 15 Lauro de Freitas 69 Madre de Deus 9 Salvador 2.075 São Francisco do Conde 20 Simões Filho 73 Vera Cruz 22 Total 2.496 FONTE: IBGE, Censo Demográfico, Bahia. 1991.

Correspondência entre as séries estatísticas e a representação gráfica TIPO DE SÉRIE FATOR VARIANTE GRÁFICO MAIS INDICADO ESTATÍSTICA Temporal Época Curvas, excepcionalmente Colunas Especificativas Fenômeno Barras, Colunas ou Setores Geográficas Local Cartogramas, Colunas, Barras ou Setores Distribuição de Intensidade do Histograma (contínua), Bastão freqüências fenômeno (discreta), Barras, Colunas ou Setores (qualitativa )

2.5.2 Distribuição de freqüências

Neste tipo de série estatística o tempo, o local e o fenômeno permanecem fixos. O fenômeno considerado é uma variável qualitativa ou quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na série (freqüência). Algumas definições: Freqüência simples absoluta: é o número de ocorrências ou repetições de um valor individual ou um intervalo de valores. Notação: fi Freqüência simples relativa: é a razão entre a freqüência simples absoluta e o número total de dados (soma de todas as freqüências simples absolutas). Notação: fri CET060-7

Agora vamos exemplificar distribuições de freqüência e suas respectivas tabelas para cada tipo de variável.

1ª) Dados discretos Exemplo: Foi observado o número de defeitos apresentados período de 30 dias. Os resultados foram os seguintes: 1 1 1 0 0 2 1 3 1 1 1 2 1 1 4 1 2 2 1 1

por uma máquina industrial durante o 1 1 0 0 0

1 0 1 3 1

Tabela de Freqüências Freqüência Número de Freqüência defeitos simples absoluta simples relativa 0 6 0,20 1 17 0,57 2 4 0,13 3 2 0,07 4 1 0,03 Total 30 1,00 Fonte: Dados fictícios 2 ª) Dados contínuos: Para um certo conjunto de dados, vamos adotar a seguinte nomenclatura: 1. Máximo (max): maior valor do conjunto. 2. Mínimo (min): menor valor do conjunto. 3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo. AT = MAX - MIN 4. Classe: é cada intervalo em que se subdivide a amplitude total. Representação: k = número de classes 5. Limite superior ( ls ): é a cota superior para os valores da classe. 6. Limite inferior ( li): é a cota inferior para os valores da classe. 7. Amplitude do intervalo de classe ( h ): é o comprimento da classe, definida como a diferença entre o limite superior e inferior. Exemplo: Antes de enviar um lote de aparelhos elétricos para venda, o Departamento de Inspeção da empresa produtora selecionou uma amostra casual de 32 aparelhos avaliando o desempenho através de uma medida específica, obtendo os seguintes resultados: 154 155 156 164

165 170 172 175

175 176 178 178

180 180 180 184

190 190 190 192

195 198 200 200

202 205 205 210

211 212 215 218 CET060-8

Construir uma tabela de distribuição de freqüências por intervalos de classes. Solução: Neste caso, n = 32 ⇒ pela regra de Sturges k ≅ 1 + 3,3 log 10 32 k ≅ 5,97 Aproximando para o número inteiro mais próximo, temos que k = 6. A amplitude total será dada por AT = 218 – 154 = 64. Assim, a amplitude de cada intervalo de classe será: AT 64 = ≅ 10,67. k 6 Aproximando para o inteiro mais próximo, temos que h = 11. h=

Dessa forma, a tabela de distribuição de freqüências para dados agrupados em classes fica da seguinte maneira: Tabela de Freqüências Medida Freqüência Freqüência simples absoluta simples relativa 154 |— 165 4 0,13 165 |— 176 5 0,16 176 |— 187 7 0,22 187 |— 198 5 0,16 198 |— 209 6 0,19 209 |— 220 5 0,16 Total 32 1,00 Fonte: Dados fictícios

2.4.3. Representação Gráfica Serão apresentadas algumas séries estatísticas e seus respectivos gráficos. 1º) Gráfico em barras Exemplo: Série Especificativa Tipo de fraude nos cartões de crédito da Mastercard Internacional no Brasil - 2000 Tipo de fraude Quantidade Cartão roubado 243 Cartão falsificado 85 Pedido por correio/telefone 52 Outros 46 Fonte: Triola, Mario F. CET060-9

Tipo de fraude

Tipos de fraude nos cartões de crédito da Mastercard Internacional no Brasil - 2000

Outros Pedido por correio/telefone Cartão falsificado Cartão roubado

0

100

200

300

Quantidade

Fonte: Triola, Mario F.

2º) Gráfico em colunas Exemplo: Série Geográfica Número de crianças de baixa renda, segundo o bairro de residência, que participaram do ensino de música na Escola XYZ, em Salvador - 1998 Bairro Número de crianças Paripe 11 Periperi 39 Plataforma 45 Praia Grande 25 Total 120 Fonte: Escola de Música XYZ, Salvador.

Nº de crianças

N ú m e ro d e c ria n ç a s d e b a ix a re n d a , s e g u n d o o b a irro d e re s id ê n c ia , q u e p a rtic ip a ra m d o e n s in o d e m ú s ic a n a E s c o la X Y Z , e m S a lv a d o r - 1 9 9 8 50 45 40 35 30 25 20 15 10 5 0 P a rip e

P e rip e ri

P la ta fo rm a

P ra ia G ra nd e

B a ir ro

Fonte: Escola de Música XYZ, Salvador CET060-10

Exemplo: Série Especificativa-Temporal Ingressantes da Universidade XYZ Segundo área de estudo e ano Área / Ano 1998 1999 2000 Exatas 120 156 68 Humanas 72 85 112 Biológicas 169 145 73 Fonte: Dados Fictícios

Ingressantes da Universidade XYZ - segundo área de estudo e classe sócio econômica - 1999 200 150

Exatas

100

Humanas

50

Biológicas

0 1998

1999

2000

Fonte: Dados Fictícios

3º) Gráfico em Linhas ou Curvas Exemplo: Série Temporal Índice de Produto Industrial Brasil – 1979 Meses IPI Janeiro 18.633 Fevereiro 17.497 Março 19.470 Abril 18.884 Maio 20.308 Junho 20.146 Julho 20.258 Agosto 21.614 Setembro 19.717 Outubro 22.133 Novembro 20.503 Dezembro 18.800 Fonte: FIBGE

CET060-11

Índ ice de P ro duto Ind ustrial - Brasil - 1979 IPI 25000 20000 15000 10000 5000 0 jan

fev m ar abr m ai jun

jul

ago s et

out nov dez

Fonte: IBGE

4º) Gráfico em setores Exemplo: Série Geográfica Percentual de funcionários da Companhia Milsa segundo região de procedência Procedência Percentual Interior 33,30 Capital 30,60 Outro 36,10 Fonte: Bussab

Percentual de funcionários da Companhia Milsa segundo região de procedência

33,3

36,1

Interior Capital Outro

30,6

Fonte: Bussab

CET060-12

5º) Histograma Este gráfico é utilizado para quando os dados estão agrupados em intervalos de classes. No caso de classes de mesma amplitude, é construído um retângulo para cada classe, com base igual à amplitude do intervalo classe e altura proporcional a freqüência da classe. Neste caso, altura ~ freqüência (absoluta ou relativa) Quando temos classes com amplitudes diferentes, devemos construir um retângulo para cada classe, com base igual à amplitude do intervalo de classe e altura dada por: d=

freqüencia amplitude da classe

Note que, neste caso, a área do retângulo é igual a freqüência da classe. A altura d definida acima é chamada de densidade de freqüência.

Exemplo: Histograma para a distribuição de freqüência do exemplo 5. Tabela de Freqüências Medida Freqüência Freqüência simples absoluta simples relativa 154 |— 165 4 0,13 165 |— 176 5 0,16 176 |— 187 7 0,22 187 |— 198 5 0,16 198 |— 209 6 0,19 209 |— 220 5 0,16 Total 32 1,00 Fonte: Dados fictícios

Medida específica de um aparelho elétrico 8 6

fi 4 2 0 154 |— 165

165 |— 176

176 |— 187

187 |— 198

198 |— 209

209 |— 220

medida

CET060-13

3. MEDIDAS DE POSIÇÃO

A estatística descritiva ensina a reduzir a informação contida em uma grande quantidade de dados a um pequeno número de medidas, substitutas e representantes daquela massa de dados. As principais medidas da Estatística Descritiva são agrupadas em medidas de posição (ou de locação ou de localização) e medidas de dispersão (ou de variabilidade).

3.1. Médias Uma média de uma lista de números é um valor que pode substituir todos os valores da lista sem alterar uma certa característica da lista. i) Quando a característica a ser mantida é a soma dos elementos da lista, obtemos a média aritmética. A média aritmética simples de n números x1 , x2 ,..., xn é um valor x tal que n

x=

∑ xi

x1 + x2 + ... + xn i =1 = n n

Ex: A média aritmética dos números 3, 36 e 54 é x =

3 + 36 + 54 = 31 3

ii) Quando a característica a ser mantida é o produto dos elementos da lista, obtemos a média geométrica. A média geométrica simples dos n números positivos x1 , x2 ,..., xn é um valor positivo g tal que x g = n x1 ⋅ x 2 ⋅ ... ⋅ x n

Ex: A média geométrica dos números 3, 36 e 54 é

3

3 × 36 × 54 = 18

Comentários Podemos pensar na média aritmética como o valor “típico” do conjunto de dados e é considerada a principal medida de tendência central. Algumas das razões que fazem com que seja a medida de posição mais recomendada são: CET060-14



É definida rigorosamente e pode ser interpretada sem ambiguidades;



Leva em consideração todas as observações efetuadas; e



Calcula-se com facilidade.

Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muito sensível a valores extremos, isto é, a valores excessivamente pequenos ou excessivamente grandes, em relação às demais observações do conjunto de dados. Exemplo: Temos o seguinte conjunto de salários mensais, em reais: 123 - 145 - 210 - 225 - 2500. Podemos observar que quatro dos cinco salários apresentam valores entre 123 e 225 reais, porém a média salarial de 640,6 reais é bastante distinta desse conjunto pela influência do salário de 2500 que puxou o valor médio para cima. A média geométrica apresenta valor mais coerente 291,6 reais.

3.2. Médias ponderadas Utiliza-se uma média ponderada quando os valores do conjunto de dados apresentam diferentes graus de importância. Qualquer uma das médias definidas acima pode ser também considerada com valores ponderados. Vamos ver a seguir a definição da média aritmética ponderada. i) A média aritmética ponderada dos números x1 , x2 ,..., xn , n com pesos p1, p2, ..., pn é definida por n

x=

∑ x .p i =1 n

i

∑p i =1

i

, i

n

ou quando estamos tratando com distribuição de frequências x =

∑x i =1 n

i

∑f i =1

fi . i

Exemplo: Em um grupo de pessoas, 70% são adultos e 30% são crianças. O peso médio dos adultos é 70 kg e o peso médio das crianças é 40 kg. Qual o peso médio do grupo? Solução: É a média aritmética ponderada dos dois subgrupos: xp =

70 × 0 ,7 + 40 × 0 ,3 = 61 kg 0 ,7 + 0 ,3

CET060-15

ii) A média geométrica ponderada dos números x1 , x2 ,..., xn , n com pesos p1, p2, ..., pn é definida por

xg = ∑ x1p1 ⋅ x2p2 ⋅ ...⋅ xnpn p

,

xg = ∑ x1f1 ⋅ x2f2 ⋅ ...⋅ xnfn f

ou quando estamos tratando com distribuição de frequências

3.3. Moda Outra medida de tendência central menos usada que as médias é a moda. A moda é o valor que ocorre com maior freqüência no conjunto de dados.

Notação: Mo = moda Exemplo 6: a) X = {2, 3, 3, 5, 5, 5, 6, 7}

⇒ Mo = 5

b) Y = {10, 12, 17, 21, 32}

⇒ Mo = não existe, a distribuição é amodal.

c) Z = {2, 2, 5, 5, 7, 7}

⇒ Mo = não existe

d) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} ⇒ A distribuição apresenta dois valores modais: 12 e 18 (distribuição bimodal). Quando o conjunto de dados apresenta mais de uma moda damos o nome de distribuição plurimodal. Quando a distribuição de freqüências está organizada por classes de valores, devemos identificar a classe modal (classe em que observamos a maior freqüência). A moda bruta será o ponto médio da classe modal. hi Mo = li + 2 onde: li = limite inferior da classe modal; hi = amplitude da classe modal;

Exemplo1: Obs: No casos 11 15 17 19 21 25

Freqüência Simples Absoluta (fi) 1 1 2 1 1 3 CET060-16

De acordo com a definição a moda é 25, entretanto este valor não é representativo do conjunto de dados e portanto a moda não é uma boa medida de locação neste caso.

Exemplo2: Tabela de Freqüências Medida Freqüência simples absoluta (fi) 154 |— 165 4 165 |— 176 5 176 |— 187 7 187 |— 198 5 198 |— 209 6 209 |— 220 5 Total 32 Mo = 176 +

11 = 181,5 2

3.4. Separatrizes As separatrizes são medidas de posição que permitem calcularmos valores da variável que dividem ou separam a distribuição em partes iguais. Temos quatro tipos de separatrizes, também chamadas de quantis: a mediana; os quartis; os decis; e os percentis.

3.4.1. Mediana (que é também uma medida de tendência central) Notação: Md = mediana Definição: Chamamos de mediana o elemento do conjunto que ocupa a posição central na distribuição ordenada (crescente ou decrescentemente). Isto é, divide a distribuição em duas partes iguais de modo que 50% dos valores observados são inferiores ao valor mediano e 50% superiores a esse valor.

i) Determinação da Mediana para dados brutos (não tabelados) 1) Quando n é par Emd =

n , neste caso teremos dois valores centrais e a mediana será 2

x  n  + x n Md =

  +1  2 

  2

2 CET060-17

2) Quando n é ímpar Emd =

n +1 , neste caso teremos um valor central e a mediana será 2

Md = x n +1     2 

Exemplo: Comparação entre a média aritmética e a mediana para os conjuntos de salários (em reais) dados. X = { 200, 250, 250, 300, 450, 460, 510}

⇒ X = 345,7; Md X = 300.

Y = { 200, 250, 250, 300, 450, 460, 2.300}

⇒ Y = 601,0; Md Y = 300.

Podemos observar que no caso do conjunto Y a média não sintetiza adequadamente o conjunto de dados, pois apenas um valor é superior a ela.

3.4.2. Quartis, Decis e Percentis A construção das medidas de posição denominadas quartis, decis e percentis é análoga a da mediana. Enquanto a mediana separa a distribuição em duas partes iguais, a característica principal de cada uma dessas medidas é:

• Quartis: dividem a distribuição em quatro partes iguais; • Decis: dividem em dez partes iguais; e • Percentis: dividem em cem partes iguais. Observações: i) Temos a seguinte igualdade: C50 = D5 = Q2 = Md ii) O cálculo para os decis e centis é análogo ao dos quartis. iii) O intervalo interquartil ou interquartílico, definido por (Q1; Q3), contém 50% do total de observações localizadas mais ao cento da distribuição. iv) Podemos também ter idéia sobre a assimetria da distribuição utilizando apenas seus quartis: • Se (Md - Q1) < (Q3 - Md) => assimetria à direita ou positiva; • Se (Md - Q1) > (Q3 - Md) => assimetria à esquerda ou negativa; • Se (Md - Q1) = (Q3 - Md) => distribuição simétrica

CET060-18

ii) Cálculo dos percentis para dados brutos (não tabelados) A posição do percentil de ordem i no conjunto de dados ordenado será definida como: n Pos i = i. , onde Posi = posição do percentil de ordem i; e n = freqüência total da distribuição. 100 1) Se Posi = valor inteiro, então o percentil é definido como a média dos valores que ocupam a posição Posi e Posi + 1. 2) Se Posi = valor não inteiro, então o percentil é definido como o valor que ocupa a posição k + 1, onde k = inteiro mais próximo que seja menor que Posi. Exemplo 8: Calcule Q1 para o seguinte conjunto de dados: 21 23 18 25 24 28 1. Ordenar os valores: 18 21 23 24 25 28 2. Pos 25 = 25 (6/100) = 1,5 (valor não inteiro) ⇒ k = 1 e portanto o Q1 é o valor que ocupa a 2ª posição na série ordenada. 3. Q1 = 21

iii) Determinação da Mediana de valores tabelados agrupados em classes: Para dados agrupados em classes o elemento mediano é obtido através da fórmula Emd = n/2, não se fazendo distinção entre número par ou ímpar de observações. Pelo elemento mediano é encontrada a classe mediana e em seguida a mediana será calculada através da seguinte expressão: O elemento mediano será sempre definido como:

E md =



2

Md = l i + h

fi

, e a mediana por:

(E md

− f ac . ant fi

)

onde, li = limite inferior da classe mediana; h = amplitude do intervalo de classe Emd = elemento mediano fac ant = frequência acumulada anterior à classe mediana fi = frequência absoluta simples da classe mediana

CET060-19

Exemplo: Carga anual de fósforo (lbs/ac/ano) nos rios. Carga anual Nº de rios Fiac (lbs/ac/ano) 0,0 |-- 0,4 5 5 0,4 |-- 0,8 10 15 0,8 |-- 1,2 4 19 1,2 |-- 1,6 2 21 1,6 |-- 2,0 1 22 TOTAL 22 .. Encontre a mediana Emd = 22/2 = 11 Md = 0,4 + 0,4 (11 – 5)/10 = 0,64 50% dos rios têm carga de fósforo inferior ou igual a 0,64 lbs/ac/ano e 50% deles têm carga de fósforo superior ou igual a 0,64 lbs/ac/ano.

iii) Determinação do percentil (ou centil) de valores tabelados agrupados em classes: Percentil ou centil: separatriz que divide um conjunto ordenado de dados em cem partes iguais. Através desta separatriz encontramos todas as demais. O elemento do percentil será sempre definido como:

E ci = i .



fi

100

Ci = l i + h

(E ci

, i=1, 2, ... 99 . O percentil será definido por:

− f ac . ant fi

)

onde, li = limite inferior da classe do percentil i; h = amplitude do intervalo de classe Emd = elemento do percentil i fac ant = frequência acumulada anterior à classe do percentil i fi = frequência absoluta simples da classe do percentil i

Exemplo: Tabela de Freqüências Medida Nº de observações 154 |— 165 4 165 |— 176 5 176 |— 187 7 187 |— 198 5 198 |— 209 6 209 |— 220 5 Total 32 CET060-20

a) Encontre o percentil : 25 e 95 b) Verifique a assimetria da distribuição Ec25 = 25*32/100 = 8 C25 = 165 + 11 (8 – 4)/ 5 = 173,8 25% das observações têm valores inferiores ou iguais a 173,8 e 75% delas têm valores superiores ou iguais a 173,8. Ec95= 95*32/100 = 30,4 C95 = 209 + 11 (30,4 – 27)/ 5 = 216,5 95% das observações têm valores inferiores ou iguais a 216,5 e apenas 5% delas têm valores superiores ou iguais a 216,5. b) Ec75 = 24 C75 = 203,5

Emd = 16 Md = 187

(Md - Q1) < (Q3 - Md) (187 – 173,8) < (203,5 – 187) Distribuição assimétrica à direita ou positiva

13,2 < 16,5

4. MEDIDAS DE DISPERSÃO As medidas de dispersão servem para avaliar o grau de variabilidade dos valores de um conjunto de dados. Estas medidas permitem estabelecer comparações entre fenômenos de mesma natureza ou de natureza distinta e geralmente essa variabilidade é observada em torno de uma medida de tendência central. Essas medidas podem ser absolutas ou relativas.

Exemplo: Duas máquinas foram reguladas para encher cada pacote de café com 500g. Com o objetivo de verificar a regulagem dessas máquinas, um fiscal de área anotou o peso dos 5 primeiros pacotes produzidos por cada máquina e calculou o peso médio dos pacotes. Os resultados encontram-se abaixo: Máquinas A B

1° 500 490

Peso dos pacotes 2° 3° 4° 497 498 500 500 505 510

5° 495 495

Peso médio 498 500

Observando apenas o peso médio dos pacotes, poderíamos concluir que a máquina B apresentou melhor desempenho do que A. Porém, quando observamos cada informação separadamente, verificamos que o peso dos pacotes vindos da máquina A variou entre 495 e 500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a máquina A enche os pacotes mais uniformente que a máquina B.

CET060-21

4.1. Amplitude Total Notação: AT = Amplitude Total A amplitude total de um conjunto de números é a diferença entre o maior e o menor valor do conjunto. Exemplo: Calcular as amplitudes totais do exemplo anterior e identificar qual a máquina que apresentou a menor dispersão no peso dos pacotes de café. Resolução:

A: B:

AT = 500 - 495 = 5 gramas; AT = 510 - 495 = 15 gramas;

A máquina A apresentou uma menor variabilidade nos pesos dos pacotes de café.

Observações: 1ª) A amplitude total é a medida mais simples de dispersão. 2ª) A desvantagem desta medida de dispersão é que leva em conta apenas os valores mínimo e máximo do conjunto. 3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição (um valor muito elevado ou muito baixo em relação ao conjunto). 4ª) A amplitude total para dados tabelados agrupados em classes só poderá ser calculada se houver inclusão do menor valor da primeira classe e do maior valor da última classe.

4.2 Desvio Padrão É uma medida que avalia a dispersão dos dados em torno de sua média.

4.2.1. Desvio Padrão simples Definição: Sejam x1 , x2 ,..., xn , n valores que a variável X assume. O desvio padrão amostral é definido como: n

∑ ( xi − X )

S= Exemplo: três grupos de dados Grupo Amostra 1° 2° 3° A 0,80 1,00 0,75 B 0,95 0,80 0,73 C 0,71 0,81 0,90

i =1

2

n −1

Média 4° 0,65 0,72 0,78

0,80 0,80 0,80 CET060-22

Resolução: Para A, utilizando a definição, temos:

∑ (x k

S =

i =1

i

−X

)

2

n −1

=

(0 ,8 − 0 ,8 )2 + (1 − 0 ,8 )2 + (0 ,75 − 0 ,8 )2 + (0 ,65 − 0 ,8 )2 4 −1

= 0 ,15

Para B: S = 0,11 ; para C: S = 0,08 . Com os valores encontrados para o desvio padrão, podemos observar que o grupo C apresentou a menor dispersão em relação aos demais.

4.2.2. Desvio padrão ponderado O desvio ponderado é para dados agrupados em classes onde a freqüência absoluta simples é considerada como o fator ponderador.

∑ (x − X ) f ∑ f −1 n

S=

i =1

2

i

i

i

Ex: Encontre o desvio padrão para o conjunto de dados abaixo. Valores 0 |-- 2 2 |-- 4 4 |-- 6 6 |-- 8 8 |-- 10 TOTAL

X =

508 = 4,6 110

Nº de observações 27 16 34 17 16 110

S=

xi

(xi- X )2 * fi

1 3 5 7 9 -

349,92 40,96 5,44 97,92 309,76 804

804 = 7,376 = 2,7 110 − 1

4.3 Variância Definição: A variância é o quadrado do desvio padrão. Notação: s2 Observações: i)

O desvio padrão tem a unidade de medida igual a unidade de medida original da variável, enquanto que a variância apresentará a unidade de medida elevada ao quadrado. CET060-23

ii)

Ao trabalharmos com os dados de toda a população calculamos a variância e o desvio padrão populacional dividindo por N (tamanho da população) e não por N-1.

4.4 Coeficiente de Variação de Pearson (CV) Quando se deseja comparar a variabilidade de duas ou mais distribuições, mesmo quando essas se referem a diferentes fenômenos e sejam expressas em unidades de medida distintas, podemos utilizar o Coeficiente de Variação de Pearson (medida de dispersão relativa).

Definição: O coeficiente de variação para um conjunto de n observações é definido como o quociente entre o desvio padrão e a média aritmética da distribuição. S CV = X É uma medida adimensional normalmente expressa em porcentagem. Exemplo: Turma A B

Média aritmética

Desvio Padrão 0,8706 0,4802

3,8575 5,8725

Coeficiente de Variação (%) 22,57 08,18

As medidas produzidas pela turma B são mais homogêneas, pois apresenta menor dispersão relativa.

5. Boxplot O Boxplot é um método alternativo para representar os dados. O Boxplot fornece informações sobre as seguintes características de um conjunto de dados: locação, dispersão, assimetria e outliers (observações discrepantes).

Boxplot 8 7 6 5

X

4 3 2 1

CET060-24

O centro da distribuição é indicado pela linha da mediana. A dispersão é representada pela altura do retângulo (Q3-Q1), o qual contém 50% dos valores do conjunto de dados. A posição da linha mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria mediana no centro do retângulo. Se a mediana é próxima de Q1 então os dados são positivamente assimétricos. Se a mediana é próxima de Q3 os dados são negativamente assimétricos. Os valores fora de Q1–1.5(Q3-Q1) e Q3+1.5(Q3-Q1) geralmente são chamados de outside e devem ser investigados como possíveis outliers.

Referências Bibliográficas BUSSAB, Wilton O. e MORETTIN, Pedro A.. Estatística Básica. TOLEDO, Geraldo L. e OVALLE, Ivo I.. Estatística básica. Ed. Atlas, São Paulo. TRIOLA, Mario F. Introdução à Estatística. Material de Aula da disciplina MAT236 (UFBA)

***************

*****************

*****************

*****************

1ª LISTA DE EXERCÍCIOS 1) Classifique cada uma das variáveis abaixo em qualitativa (nominal/ordinal) ou quantitativa (discreta/contínua): a) Ocorrência de hipertensão arterial (sim ou não são possíveis respostas para esta variável). b) Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de “indeciso”). c) Perda de peso de maratonistas na Corrida de São Silvestre, em quilos. d) Intensidade da perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada, forte). e) Grau de satisfação da população brasileira com relação ao trabalho de seu presidente (valores de 0 a 5).

2) Uma indústria automobilística verificou que, nos últimos meses, ocorreu um aumento no número de reclamações sobre a ocorrência de defeitos no suporte da lanterna traseira de um modelo de automóvel por ela fabricado. A empresa desejava eliminar esta situação indesejável e para isto iniciou estudos para melhorar resultados. Na etapa de identificação do problema, os técnicos da indústria classificaram o número total de peças defeituosas encontradas em uma amostra de peças produzidas durante uma semana de trabalho, segundo os tipos de defeitos que foram detectados. Os dados obtidos são apresentados na tabela abaixo. Defeitos encontrados em uma amostra de suportes da lanterna traseira de um modelo de automóvel durante uma semana de produção de uma indústria. CET060-25

Tipo de defeito

Quantidade de defeitos 14 01 04 24 01 44 07 79 01 05 180

Moldagem solta Solda quebrada Centro da moldagem deslocado Lateral da moldagem deslocada Moldagem arranhada Moldagem dentada Plástico arranhado Limpeza incompleta Orifício deslocado Pino deslocado Total a) Construa um gráfico adequado para esta série. b) Identifique os tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria. Justifique sua resposta.

3) Uma empresa procurou estudar a ocorrência de acidentes com seus empregados, tendo, para isso, realizado um levantamento abrangendo um período de 36 meses, onde foi observado o número de operários acidentados para cada mês. Os dados correspondentes são: 1 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 8 8 8 9 9 10 a) Construa uma distribuição de freqüência adequada (obs: mantenha o valor das amplitudes de classes com uma casa decimal); b) encontre o intervalo inter-quartílico; c) qual o percentual de acidentes ocorridos em menos de sete meses? Resp: b) IQ = 7,4 – 4,2 = 3,2 c) 69,4% 4) Carga anual de nitrogênio (lbs/ac/ano) nos rios. Nº de rios Carga anual (lbs/ac/ano) 0 |-- 4 5 4 |-- 8 9 8 |-- 12 7 12 |-- 16 3 16 |-- 20 2 Determine: a) A carga média de nitrogênio b) a carga mediana de nitrogênio c) Avalie a distribuição quanto à assimetria d) O desvio-padrão e) O coeficiente de variação f) qual o percentual de rios com carga anual de nitrogênio superior ou igual a 8 lbs/ac/ano g) 40% dos rios têm carga anual de nitrogênio superior a qual valor? Resp:a) 8,2 b)7,6 c)ass. à direita d) 4,7 e) 57,3% f) 46,2% g) 8,9 CET060-26

4) Contou-se o número de erros de impressão da primeira página de um jornal durante 16 dias, obtendo-se os resultados abaixo: 08 11 08 12 14 13 11 14 14 05 06 10 14 13 06 12 a) Calcule o número médio de erros de impressão por primeira página; b) Calcule a mediana; c) Determine a moda; d) a amplitude total e) o desvio-padrão resp: a) 10,7 b) 11,5 c) 14 d) 9 e) 3,2 5) Coloque V(verdadeiro) e F(falso) e justifique: a) ( ) 50% dos dados de qualquer amostra situam-se acima da média; b) ( ) Numa turma de 50 alunos onde todos tiraram a nota máxima, o desvio padrão é zero; c) ( ) Quando queremos verificar a questão de uma prova que apresentou maior número de erros, utilizamos a média; d) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante. e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essa constante. f) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, o desvio padrão fica adicionado (ou subtraído) dessa constante. e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de dados, o desvio padrão fica multiplicado (ou dividido) por essa constante. Resp: a) F b) V c) F d) V e) V f) F g) V 6) Explique os dados da tabela abaixo. Encontre os percentis 25, 50 e 75 e explique os resultados. Construa com os resultados um Box-plot e explique. PROPORÇÃO DE DOMICÍLIOS COM ABASTECIMENTO AGUA DIARIO NA MICRO-AREA (Programa Bahia Azul) Proporção Freqüência Frequência Percentual Percentual (min:0 ; max:1) absoluta acumulada (%) acumulado ,13 2 2 1,6 1,6 ,33 5 7 4,0 5,6 ,39 20 27 16,1 21,8 ,48 5 32 4,0 25,8 ,64 11 43 8,9 34,7 ,67 5 48 4,0 38,7 ,73 7 55 5,6 44,3 ,76 9 64 7,3 51,6 ,78 5 69 4,0 55,6 ,82 6 75 4,8 60,5 ,86 3 78 2,4 62,9 ,88 4 82 3,2 66,1 ,89 6 88 4,8 71,0 ,91 6 94 4,8 75,8 ,92 6 100 4,8 80,6 ,94 9 109 7,3 87,9 ,98 10 119 8,1 96,0 1,00 5 124 4,0 100 Total 124 100,0 Resp: P25 = 0,48

P50 = 0,76

P75 = 0,91 CET060-27

7) Uma indústria de alimentos estava interessada em analisar seu processo de produção de determinado alimento. Existem nesta indústria duas máquinas responsáveis pelo controlam o processo de desidratação do alimento. Um importante item de controle do processo é a umidade do produto final, que segundo as especificações, deve estar na faixa de 8,0% a 12%. Foi detectado incapacidade do processo em atender às especificações. A equipe técnica suspeitava de que podia haver diferenças na forma de funcionamento das duas máquinas de desidratação. Com o objetivo de observar o funcionamento das máquinas foram feitas medidas do teor de umidade do produto final, estratificadas por máquina de desidratação. Os resultados estão apresentados a seguir: Máquina 1 11,7 11,8 12,1 10,7 11,7 10,9 10,7 11,6 12,5 10,7 11,5 11,1 11,2 11,2 11,8 11,2 11,0 11,7 12,1 10,9 11,7 11,3 11,5 Máquina 2 11,4 11,5 11,5 10,4 11,0 9,9 10,5 10,8 11,4 11,5 10,9 10,2 11,1 11,0 10,2 11,2 11,9 10,8 10,4 10,8 11,2 10,8 10,6 Para cada máquina calcule a média, a mediana, o intervalo inter-quartílico, o desvio padrão e o coeficiente de variação. A partir das medidas obtidas compare o desempenho das duas máquinas comentando os aspectos de posição e variabilidade dos dados.

*********************** ANEXO I *******************************

Noções de Arredondamento Existem três regras para o arredondamento de um dado estatístico:

1) Arredondamento por falta: Quando o 1º dígito, dos que serão eliminados, for igual ou menor que quatro, o dígito anterior a ele não deverá ser alterado. Exemplo: Numero 14,320 8,431 5,214

2ª decimal 14,32 8,43 5,21

1ª decimal 14,3 8,4 5,2

Inteiro 14 8 5

2) Quando o 1º dígito, dos que serão eliminados, for maior ou igual que seis, o dígito anterior a ele será acrescido de uma unidade.

CET060-28

Exemplo: Numero 14,688 8,967 5,679

Centésimos 14,69 8,97 5,68

décimos 14,7 9,0 5,7

Inteiro 15 9 6

3) Quando o 1º dígito, dos que serão eliminados, for o número cinco seguido de zeros devemos observar o numero que antecede a ele: a) Se esse número que antecede for par não deverá ser alterado; b) Se esse número que antecede for ímpar deverá ser acrescido em uma unidade. Exemplo: Numero 14,550 8,555 5,507

Centésimos 14,55 8,56 5,51

décimos 14,6 8,6 5,5

Inteiro 15 9 6

c) Se o 5 for seguido de outros algarismos dos quais, pelo menos um é diferente de zero, aumentamos uma unidade no algarismo e desprezamos os seguintes. Exemplo: Numero 8,2502 8,4503

décimos 8,3 8,5

4) Quando, arredondarmos uma série de parcelas, e a soma ficar alterada, devemos fazer um novo arredondamento (por falta ou por excesso), na maior parcela do conjunto, de modo que a soma fique inalterada. Ex.: 17,4% + 18,4% + 12,3% + 29,7% + 22,2% = 100% arredondando para inteiro: 17% + 18% + 12% + 30% + 22% = 99% 17% + 18% + 12% + 31% + 22% = 100%

CET060-29

More Documents from "Yuri Lima"