1. Estatística Descritiva Introdução: Neste tópico será apresentado aos alunos os principais usos da Estatística, seus usos no Estado e Empresas, bem como as definições do que seja um dado estatístico e os principais tipos e elementos que dizem respeito a uma representação tabular. Objetivo(s): introdução aos principais conceitos do que é estatística seus usos e aplicações 1.1 Dados Estatísticos Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira. A matéria-prima da estatística são os dados observáveis. 1.1.1 Variáveis • Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente a variável para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z, ... que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser de dois tipos: Qualitativas e Quantitativas.: 1.1.1.1 Variáveis Qualitativas (ou atributos) Em uma pesquisa que envolve pessoas, por exemplo, as variáveis consideradas podem ser: sexo, cor de cabelo, esporte favorito e grau de instrução. Nesse caso dizemos que as variáveis dão qualitativas, pois apresentam como possíveis valores uma qualidade (ou atributo) dos indivíduos pesquisados Além disso, dizemos que as variáveis qualitativas podem ser ordinais, quando existe uma ordem nos seus valores, ou nominais, quando isso não ocorre. a) Nominal: são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem, estado civil, religião são consideradas variáveis qualitativas nominais.. b) Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente. 1.1.1.2 Variáveis Quantitativas: Quando as variáveis são, por exemplo, altura, peso, idade em anos e número de irmãos, dizemos que elas são quantitativas, pois seus possíveis valores são números. As variáveis quantitativas podem ser
Estatística Descritiva - 1.2
discretas, quanto se trata de contagem (números inteiros) ou contínuas, quando se trata de medida (números reais). a) Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula. b) Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal. Para se fazer uma idéia concreta da variável contínua, basta pensar em um filete de mercúrio de um termômetro. Ao dilatar-se o filete da temperatura a para b, passará por todas as temperaturas intermediárias. “Altura” é uma variável quantitativa contínua, uma vez que pode ser medida (1,55m, 1,80m, 1,73m...). QUADRO RESUMO DOS TIPOS DE VARIÁVEIS DE UMA PESQUISA
Nominal a Qualitativ Ordinal Variável Discreta Quantitati va Contínua Tipos de Variáveis Populações
Quantitativas
Qualitativas
Contínua
Discreta
Nominal
Ordinal
Alunos de Graduação
Idade, peso
No na Classe
sexo
Conceito Final A, B ou R
Automóveis
Velocidade km/h
N.o de defeitos
Cores
Limpeza
Venda de Imóveis
Valor em reais
No de oferta
Tipo de imóvel
Muito dispendioso
As distinções são menos rígidas do que a descrição acima insinua. Por exemplo, em geral nós trataríamos idade como uma variável contínua, mas se a idade for registrada pelo ano mais próximo, podemos tratá-la como discreta, e se separarmos a amostra em “crianças”, “adultos jovens”, “idade média”, “velhos”, por exemplo, então temos faixa etária como uma variável ordenada categórica. No entanto, em
Estatística Descritiva - 1.3
geral é recomendado manter os dados em sua forma original, categorizando os dados somente para propósitos de apresentação. 1.1.2 Usos e Abusos da Estatística 1.1.2.1 Usos da Estatística As Aplicações da estatística se desenvolveram de tal forma que, hoje, praticamente todo o campo de estudo se beneficia da utilização de métodos estatísticos. Os fabricantes fornecem melhores produtos a custos menores através de técnicas de controle de qualidade. Controlam-se doenças com o auxilio de análises que antecipam epidemias. Espécies ameaçadas são protegidas por regulamentos e leis que reagem a estimativas estatísticas de modificação de tamanho da população.
Visando reduzir as taxas de casos fatais, os legisladores têm melhor justificativas para leis como as que regem a poluição atmosférica, inspeções de automóveis, utilização de cinto de segurança, etc. 1.1.2.1 Abusos da Estatística Não é de hoje que ocorrem abusos com a estatística. Assim é que , há cerca de um século, o estadista Benjamin Disraeli disse: “Há três tipos de mentiras: as mentiras, as mentiras sérias e as estatísticas”. Já se disse também que “os números não mentem; mas os mentirosos forjam os números” e que: “se torturarmos os dados por bastante tempo, eles acabam por admitir qualquer coisa”. Todas essas afirmações se referem aos abusos da estatística quando os dados são apresentados de forma enganosa. Eis alguns exemplos das diversas maneiras como os dados podem ser distorcidos. Pequenas amostras Números imprecisos
Estatística Descritiva - 1.4
Estimativas por suposição Porcentagens distorcidas Cifras parciais Distorções deliberadas Perguntas tendenciosas Gráficos enganosos Pressão do pesquisador Más amostras
Estatística Descritiva - 1.5
1.2 Distribuições de Freqüências É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Exemplo: Tabela: distribuição de freqüências dos pesos corporais de uma amostra. P Freqüên Freq. esos cia Acumulada 64 51 51 65 100 151 66 22 173 67 14 187 Tota 187 l Uma distribuição de freqüência pode ser para dois tipos, quais sejam para variáveis discretas e para variáveis contínuas. 1.2.1 Distribuição de Freqüência para Variável Discreta Recomenda-se seu uso quanto o número de observações for grande, mas os valores distintos são poucos. Ex. Seja um grupo com 30 estudantes, onde 10 sejam de Sorocaba; 9 de Votorantin; 5 de Salto de Pirapora; 4 de Pilar do Sul e 2 de São Miguel. Cidade
N.o Estudantes (Fi) Sorocaba 10 Votorantin 9 Salto de 5 Pirapora Pilar do Sul 4 São Miguel 2 Total 30 1.2.2 Distribuição de Freqüências para variáveis Contínuas Muitas vezes, mesmo com o risco de se sacrificar algum detalhe, que pode ser observado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de freqüências, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes
Estatística Descritiva - 1.6
Normalmente esse tipo de Distribuição de Freqüências deve ser utilizado quando o número de observações é grande e o número de valores distintos que a variável assume também for grande. Os resultados obtidos deverão ser dispostos em classes que possuam amplitudes dentro das quais se incluirão os dados
Estatística Descritiva - 1.7
Exemplo: Sejam os dados brutos abaixo as alturas de 40 alunos: 1,67 1,73 1,80 1,98 1,49 1,52 1,60 1,59
1,83 1,92 1,58 1,87 1,63 1,84 1,88 1,53
1,60 1,73 1,67 1,50 1,84 1,62 1,70 1,86
1,97 1,85 1,78 1,49 1,69 1,74 1,64 1,68
1,70 1,71 1,78 1,75 1,64 1,72 1,65 1,69
Uma vez construída a distribuição de freqüências esta ficará da seguinte forma: Alturas 1,45 1,55 1,55 1,65 1,65 1,75 1,75 1,85 1,85 1,95 1,95 2,05 Total
|------
N.o de Alunos 5
|------
8
|------
13
|------
7
|------
5
|------
2 40
Para passarmos as etapas que permitem construir uma Distribuição de Freqüências é necessário, preliminarmente, conhecermos quais são os principais elementos que a compõem. 1.2.3 Elementos de uma Distribuição de Freqüências: Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno. Quantas classes serão necessárias para representar o fato? Existem vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de classes servindo, no entanto, como uma indicação, uma vez que a melhor escolha dependerá, antes de qualquer coisa, da natureza dos dados, e de qual resultado se deseja chegar, devendo dessa forma o pesquisador procurar o método que lhe proporcione a melhor divisão. Para determinar o número de classes a partir dos dados não tabelados, podemos usar a Fórmula de Sturges, mas deve-se saber que existem outros métodos de determinação do número de classes em
Estatística Descritiva - 1.8
uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos. a) Fórmula de Sturges informações.
K = 1 + 3.3log (n) , onde “n” é no de
b) Proposta de Trumam L. Kelley N 5 10 25 50 k 2 4 6 8
100 10
200 12
500 15
1000 15
Estatística Descritiva - 1.9
c) Toledo e Ovale número de classes (k) n.o de elementos observados mínimo máximo até 50 5 10 51 a 100 8 16 101 a 200 10 20 201 a 300 12 24 301 a 500 15 30 mais de 500 20 40
Além dessas
existem outras fórmulas empíricas para resolver o problema para
determinação do número de classes [n(k)], há quem prefira n ) k ( n ≅ . Entretanto, a verdade é que essas fórmulas não nos levam a uma decisão final; esta vai depender na realidade de um julgamento pessoal, que deverá estar ligado à natureza dos dados, procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes.
Limite de Classe (Li ou Ls): São os valores extremos de cada classe. Li = limite inferior da i-ésima classe; Ls = limite superior da i-ésima classe; Exemplo: Limites Inferiores de Classe
1,55 1,65 1,75 1,85 1,95
Limites Superiores de Classe
1,45 |------ 1,55 |------ 1,65 |------ 1,75 |------ 1,85 |------ 1,95 |------ 2,05
Existem várias maneiras de apresentarmos o intervalo de classe, iguais ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma: 1,55 ---| 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o 1,55 exclusive o 1,65 1,55 |--- 1,65 : compreende todos os valores entre 1,55 e 1,65, inclusive o 1,55 e exclusive o 1,65
Amplitude do intervalo de classe (h): É a diferença entre dois limites inferiores ou superiores consecutivos. h = Ls – Li
Estatística Descritiva - 1.10
Calculando h para cada classe (1,55 (1,65 .... (1,95 (2,05
– 1,45) = 0,10 – 1,55) = 0,10 – 1,85) = 0,10 – 1,95) = 0,10
A amplitude do intervalo de classe deve ser constante em toda a distribuição de freqüências intervalar.
Amplitude total ou Range (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente. Dado por H = Vmaior – Vmenor no caso H = 1,98 – 1,49 H = 0,49 Ponto médio de classe (PM): É a média aritmética entre o limite ( Ls + Li ) inferior e o limite superior da classe, dado por PM = 2 Para o exemplo dado temos os seguintes PM para cada classe: (1,45 + 1,55)/2 = 1,50 (1,55 + 1,65)/2 = 1,60 (1,65 + 1,75)/2 = 1,70 (1,75 + 1,85)/2 = 1,80 (1,85+ 1,95)/2 = 1,90 (1,95 + 2,05)/2 = 2,00
Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se-á uma distribuição de freqüência pontual.
Freqüência absoluta (fi): É a quantidade de valores em cada classe Freqüência Relativa (fr): É o quociente entre a freqüência absoluta da i-ésima classe com o somatório das freqüências. Alturas 1,45 1,55 1,55 1,65 1,65 1,75 1,75 1,85 1,85
|------
N.o de Alunos= fi 5
Freqüência Relativa (fr) 0,1250
|------
8
0,2000
|------
13
0,3250
|------
7
0,1750
|------
5
0,1250
Estatística Descritiva - 1.11
1,95 1,95 2,05 Total
|------
2
0,0500
40
1,0000
A freqüência relativa pode ser representada na forma de porcentagem, bastando para isso multiplicar os seus valores por 100. Pode ainda, calcular as freqüências acumuladas tanto para os valores absolutos quanto para os valores relativos.
1.2.4 Construção de uma distribuição de freqüências Para construirmos uma Distribuição de Freqüências as etapas a serem seguidas são as seguintes: 1º - Determine o número de classes (K) , lembrando que qualquer regra para determinação do nº de classes da tabela não nos levam a uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado à natureza dos dados. 2o – Calcule a amplitude de classe h =
Vmaior − Vmenor k
o resultado obtido em h deve ser sempre arredondado para maior, de forma a
garantir que todos os dados sejam incluídos na distribuição de freqüências. Importante frisar que tanto a primeira classe quanto a última não devem ficar sem dados.
3º - Escolher o limite inferior da primeira classe, que será o ponto de partida
Em alguns casos o arredondamento utilizado– que deve ser sempre para maior –
pode implicar que a última classe fique sem elementos, para isso, uma alternativa seria começar a primeira classe com um valor inferior ao menor valor dos dados.
4º - Somar a Amplitude de classe (h) a esse ponto de partida e assim sucessivamente, constituindo cada intervalo em uma classe distinta; 5º - Distribuir os dados nas respectivas classes.
Notas Importantes:
A última classe deve conter pelo menos um elemento dos
dados;
Não devem existir dados sem classe Dependendo do arredondamento a construção de uma distribuição de freqüências é um processo de tentativa e erro que depende, em certa medida da experiência e da necessidade de quem a constrói
Seja o exemplo: Dividir os dados abaixo em 5 classes (k =5) 1,49 1,60 1,68 1,73 1,84 1,49 1,62 1,69 1,74 1,85 1,50 1,63 1,69 1,75 1,86 1,52
Estatística Descritiva - 1.12
1,64 1,70 1,78 1,87 1,53 1,64 1,70 1,78 1,88 1,58 1,65 1,71 1,80 1,92 1,59 1,67 1,72 1,83 1,97 1,60 1,67 1,73 1,84 1,98 Resolução 1) Decidir o Número de Classes K = 5; 2) Determinar a amplitude de classe (h), que vai ser dado por:
h=
Vmaior − Vmenor 1,98 − 1,49 = 0,098 = 0,10 = 5 k
3) Escolher o limite inferior da primeira classe, que será o ponto de partida = 1,49
Estatística Descritiva - 1.13
4) Somar a Amplitude de classe (h) a esse ponto de partida e assim sucessivamente, constituindo cada intervalo em uma classe distinta; 1,49 1,59 1,69 1,79 1,89
+ + + + +
0,10 0,10 0,10 0,10 0,10
= = = = =
1,59 1,69 1,79 1,89 1,99
1,49 1,59 1,69 1,79 1,89
|----|----|----|----|-----
1,59 1,69 1,79 1,89 1,99
5. Distribuir os dados nas classes Classes Dados 1,49 |----- 1,59 1,49 1,49 1,50 1,52 1,53 1,58 1,59 |----- 1,69 1,59 1,60 1,60 1,62 1,63 1,64 1,64 1,65 1,67 1,67 1,68 1,69 |----- 1,79 1,69 1,69 1,70 1,70 1,71 1,72 1,73 1,73 1,74 1,75 1,78 1,78 1,79 |----- 1,89 1,80 1,83 1,84 1,84 1,85 1,86 1,87 1,88 1,89 |----- 1,99 1,92 1,97 1,98 Nota: intervalo fechado inclui o valor; se aberto não 1,49 pertence a essa classe |------- 1,59 não pertence a essa classe Uma vez distribuídos os dados a Distribuição de Freqüências fica da seguinte forma: Alturas 1,49 |----- 1,59 1,59 |----- 1,69 1,69 |----- 1,79 1,79 |----- 1,89 1,89 |----- 1,99 Total
Alunos 6 11 12 8 3 40
1.2.5 Construção de um Histograma Construída a distribuição de freqüências temos que a quantidade de informação fornecida por uma amostra é tanto maior quanto maior é a quantidade de dados. No caso de uma tabela com muito longa é claro que a sua interpretação fica difícil, para dar uma visão rápida e objetiva da questão, existe uma ferramenta denominada Histograma.
Estatística Descritiva - 1.14
No Eixo horizontal colocam-se as Classes, no caso, as Alturas
Alturas 1,49 |----- 1,59 1,59 |----- 1,69 1,69 |----- 1,79 1,79 |----- 1,89 1,89 |----- 1,99 Total
Alunos 6 11 12 8 3 40
No eixo Vertical colocam-se as Freqüências, no caso, o número de alunos
Estatística Descritiva - 1.15
Freqüências
1,49
1,59
1,69
1,79
1,89
1,99
1.3 Representação gráfica Os gráficos são formas de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são, contudo de mais leitura. A escolha do modelo ideal de representação gráfica depende das preferências e do senso estético do elaborador. As principais vantagens para o uso de gráficos são: Permitem a síntese dos resultados; Auxiliam o pesquisador na análise dos dados e Facilitam a compreensão das conclusões do autor. 1.3.1 Origem dos Gráficos O diagrama cartesiano é a figura geométrica que deu origem à técnica de construção de gráficos estatísticos. Utiliza-se o primeiro quadrante do sistema de eixos coordenados cartesianos ortogonais, nos quais o eixo vertical corresponde às freqüências dos dados, e o eixo horizontal ao valor das variáveis. Ordenadas, correspond em ao eixo y Abscissas correspondem ao eixo x
1.3.2 Normas para elaboração de Gráficos Deve facilitar a interpretação dos dados para um leigo;
Estatística Descritiva - 1.16
Não há a necessidade de se colocar título se estiver na mesma página da tabela correspondente; Há a necessidade de se colocar o título se a tabela correspondente não estiver na mesma página. O senso estético individual determina o espaço do gráfico (Largura Altura);
x
As colunas, barras, linhas e áreas gráficas devem ser ordenadas de modo crescente ou decrescente, mas a ordem cronológica prevalece; 1.3.3 Tipos de Gráficos ` Com o avanço da computação os recursos para a construção de Gráficos ampliaram-se muito, no entanto, para determinadas situações existem os tipos mais recomendáveis que cujos alguns exemplos serão apresentados a seguir, o que não impede que outros tipos também possam ser criados. 1.3.3.1 O diagrama de ramo e folha Um diagrama de ramos e folha separa entrada de dados em “dígitos ramos” em “dígitos folhas” , sendo um diagrama muito útil para uma primeira análise dos dados. • Passos para construir um diagrama de ramo e folha: Suponha a série de dados, que representam as notas de alunos numa escala que vais de 0 a 10. 1, 2 2, 3 2, 6 2, 4
2, 3 2, 8 2, 3 2, 9
3, 3 3, 3 3, 9 3, 8
3, 7 3, 1 3, 2 3, 8
3, 8 4, 9 4, 1 4, 7
4, 0 4, 5 8, 8 4, 4
4, 5 4, 1 4, 9 4, 1
5, 5 5, 3 5, 5 4, 1
5, 6 5, 6 6, 7 4, 2
5, 5 5, 3 7, 0 5, 0
1. Encontrar o valor mínimo e máximo dos dados, no caso da escola 1, o mínimo é 1,2 e o máximo 8,8 2. Como a variável toma valores entre zero e dez pode-se convencionar que o ramo é a unidade e a folha é a casa decimal 3. A partir dai examina-se cada valor e coloca-se a parte decimal na folha. O valor zero, significa que há informação e que é um número inteiro. Já quando naquele valor inteiro não existe observações, não colocar nada, deixar em branco 4. Ordenar os ramos
Estatística Descritiva - 1.17
Ramo (unidad e) 1 2 3 4 5 6 7 8
Original Folha (decimal) 2 3643839 339871288 0595119741 12 05653635 7 0 8
Ramo (unidad e) 1 2 3 4 5 6 7 8
Organizado Folha (decimal) 2 3334689 123378889 0111124557 99 03355566 7 0 8
Estatística Descritiva - 1.18
Colocando os resultados de três classes simultaneamente: R amo 1 2 3 4 5 6 7 8 9 10
Escola 1
Escola 2
2 3334689 123378889 0111124557 99 03355566 7 0 8
3
Escola 3 3 0033 345555689 334555567
55 377888 35677899 2449 00
12223 0
Geral 2 3333334689 012333378889 011112344555555 678999 033334555555566 67 12223557 00377888 356778899 2449 00
Observe
que independente de qualquer análise mais aprofundada é possível “visualizar” as diferenças entre as três classes quanto ao desempenho das mesmas, e que neste caso o diagrama de ramo e folhas faz às vezes do histograma.
1.3.3.2 Gráficos de Linhas Usado para ilustrar uma série temporal. Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)
Fonte: Conjuntura Econômica (Fev. 1983)
1.3.3.3 Gráfico de linhas comparativas População Urbana do Brasil por Região de 1940 a 1980 (x 1000)
Estatística Descritiva - 1.19
Fonte: Anuário Estatístico (1984)
Estatística Descritiva - 1.20
1.3.3.4 Gráficos de colunas ou barras Representação gráfica da distribuição de freqüências. Este gráfico é utilizado para variáveis nominais e ordinais. Características: - todas as barras devem ter a mesma largura - devem existir espaços entre as barras Usado para ilustrar qualquer tipo de série. População Urbana do Brasil em 1980 (x 1000)
Fonte: Anuário Estatístico (1984)
As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer
dimensão, desde que seja conveniente e desde que não se superponham. O número no topo de cada barra pode ou não omitido, se forem conservada, a escala vertical pode ser omitida.
1.3.3.5 Gráfico de Barras Horizontais As regras usadas para o gráfico de barras são iguais às usadas para o gráfico de colunas. População Urbana do Brasil em 1980 (x 1000)
Fonte: Anuário Estatístico (1984)
Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas.
Estatística Descritiva - 1.21
1.3.3.6 Gráficos circulares ou de Setores (Pie Charts) Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que representa o total de 360°. Características: - A área do gráfico equivale à totalidade de casos (360o = 100%); - Cada “fatia” representa a percentagem de cada categoria População Urbana e Rural do Brasil em 1980 (x 1000)
Fonte: Anuário Estatístico (1984)
1.3.3.7 Gráfico Pictorial - Pictograma Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados. Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000)
Estatística Descritiva - 1.22 Fonte: Grandes números da educação brasileira março de 1996
Estatística Descritiva - 1.23
1.3.3.8 Gráfico Polar É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a série que apresenta uma determinada periodicidade.
1.3.3.9 Cartograma É a representação de uma carta geográfica. Este tipo de gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com as áreas geográficas ou políticas Dados absolutos (população) – usa-se pontos proporcionais aos dados. Dados relativos (densidade) – usa-se hacharas. Exemplo: População da Região Sul do Brasil - 1990 Estado População Área (hab.) (km2 ) Paraná 9.137.700 199.324 Santa 4.461.400 95.318 Catarina Rio Grande do 9.163.200 280.674 Sul Total 22.762.300 575.316 Fonte: IBGE 2
Densid ade 45,8 46,8 32,6 39,56
Estatística Descritiva - 1.24
Estatística Descritiva - 1.25
1.3.3.10 Polígono de Freqüências Esse tipo de Gráfico é construído à partir do Histograma Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990
1.3.3.11 Ogivas Altura em centímetros de 160 alunos do Curso de Administração da UFSM – 1990
1.3.3.12 Gráfico em segmentos de reta vertical É utilizado para representar uma distribuição de freqüência pontual, onde os segmentos de reta são proporcionais às respectivas freqüências absolutas. Altura em centímetros de 160 alunos do Curso de Administração da Uniso - 1990
Estatística Descritiva - 1.26
Fonte: Uniso (2003)
Estatística Descritiva - 1.27
1.4 Medidas de Posição Das diversas medidas que possibilitam condensar um conjunto de dados, destacam-se as de tendência central, das quais a Média, a Mediana e a Moda são as mais importantes, que são assim denominadas em decorrência dos dados observados se agruparem em torno desses valores centrais. 1.4.1 Média É o valor típico, representativo de um conjunto de dados. Fisicamente representa o ponto de equilíbrio da distribuição, sendo a mais importante medida de tendência central. A média da amostral é representada por , já quando estamos estudando a média da população a média é representada pela letra grega µ. 1.4.1.1 Estimativa da Média De acordo com a disposição dos dados a média pode ser estimada de várias formas, conforme enumeradas abaixo:ar: a) Para Dados Simples (dados não tabulados) Sejam x1, x2, x3, . . ., xn, portanto “n” valores de X. A média aritmética simples de x representada por x é definida por: n
x=
∑x i =1
i
, ou simplesmente x =
n
∑x n
onde: n é o número de elementos da amostra.
∑ x = soma dos valores de x Exemplo: determinar a média aritmética simples dos valores 16, 18, 23, 21, 17, 16, 19 e 20, como podemos ver n = 8 (número de dados)
x=
∑ x = 16 + 18 + 23 + 21 + 17 + 16 + 19 + 20 = 150 = 18,75 n
8
8
b) Para valores Distintos (Dados Tabelados em distribuições de freqüências) Quando os dados estiverem agrupados numa distribuição de freqüência, usaremos a média aritmética dos x1, x2, . . ., xn, ponderados pelas respectivas freqüências absolutas F1, F2, . . . , Fn. Assim:
Estatística Descritiva - 1.28
n
x =
∑x F i
i =1
n
∑F i =1
i
, ou simplesmente x =
i
∑ xF ∑F
Onde:
∑ xF = Soma dos produtos – calculados linha por linha – dos valores de x por sua freqüência (F),
∑F
= Soma das freqüências (tamanho da amostra)
Exemplo: Sejam os dados abaixo: x=2223334444555555555666666778 Como pode ser visto os dados de x, podem ser agrupados em freqüências F, conforme a tabela abaixo: xi 2 3 4 5 6 7 8 Total
x =
Fi 3 3 4 9 6 2 1 28
xiFi 6 9 16 45 36 14 8 134
∑ xF ∑F
=
134 = 4,7857 28
c) Para dados Agrupados em Classes No caso dos dados agrupados em classes, faz-se necessário utilizar o ponto médio de cada classe (PM), como novo valor de x, para proceder aos cálculos. Exemplo: Calcular a média dos dados agrupados em uma distribuição de freqüências na forma como se seguem: Classes
Fi
39 |-- 50 4
xi (PM) 44,5
50 |-- 61 61 |-- 72 72 |-- 83
55,5 66,5 77,5
5 5 6
xiFi 178, 0 277,5 332,5 465,0
Estatística Descritiva - 1.29
83 |-- 94 Total
5 25
88,5 -
442,5 1695, 5
Obs.: PM = ponto médio de cada classe, ver módulo 3.
x =
∑ xF ∑F
=
1695,5 = 67,82 25
1.4.1.2 Propriedades e emprego da média aritmética 1) Deseja-se obter a medida de posição que possui a maior estabilidade; 2) Houver necessidade de um tratamento algébrico; 3) A média aritmética tem certas propriedades interessantes e úteis, que explicam por que é ela a medida de tendência central mais usada: 4) A média aritmética de um conjunto de dados pode ser sempre calculada; 5) Para um dado conjunto de números a média aritmética é única. 6) A média é sensível a (ou afetada por) todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica. 1.4.1.3 Formas alternativas para estimativa da média De acordo com a natureza dos dados nem sempre é apropriada estimar a média aritmética cabendo, nestes casos formas alternativas para sua estimação, quais sejam: a) Média Geométrica: ( Xg): A aplicação da média geométrica deve ser feita, quando os valores do conjunto de dados considerado se comportam segundo uma progressão geométrica (P.G.)ou dela se aproximam, sendo um caso particular o cálculo da taxa média dos juros (compostos) praticados num determinado período. - Para dados Simples Sejam x1, x2, x3, . . . , xn, valores x , a média geométrica de x é definida por:
Xg =
n
x1* x2 * ...* xn =
n
n
∏x i =1
i
Estatística Descritiva - 1.30
Exemplo: As taxas de juros de determinada empresa, no último semestre foram 4,5%; 5%; 6%; 7%, 5% e 7%, calcule qual seria a taxa média (média geométrica)
Estatística Descritiva - 1.31
Mês 1
T axa 4,5
2 3 4 5 6
5 6 7 5 7
Xg =
Índic e 1,04 5 1,05 1,06 1,07 1,05 1,07
Acumulado 1,045 1,09725 1,163085 1,24450095 1,306725998 1,398196817
n
n
∏x i =1
i
=
6
1,045* 1,05* 1,06* 1,07* 1,05* 1,07 =
6
1,398196817
Xg = 1,05745 ou, em outras palavras a taxa média mensal é 5,745 %
- Para valores distintos (Dados Tabelados)
x g = ∑ x1f 1 * x2f 2 * ...* xnfn f
b) Média Harmônica ( xh ) É usada para dados inversamente proporcionais, tais como aqueles que envolvem Velocidade Média, Preço de Custo Médio - Para dados Simples (Dados Não Tabelados)
xh =
n n = 1 1 1 1 ∑ x x + x + ...+ x 1 2 n
- Para valores distintos (Dados Tabulados)
xh =
∑f = f +f fi f f ∑x x + x 1
1
i
1
+ ...+ fn f 2 + ...+ n xn 2 2
1.4.2 Mediana A mediana é uma quantidade que, como a média, também procura caracterizar o centro de uma distribuição de freqüências, porém, de acordo com o um critério diferente. Ela é calculada com base na ordem dos valores que formam o conjunto de dados.
Estatística Descritiva - 1.32
A mediana pode ser usada como alternativa, em relação, à média, em situações da existência de valores extremos no conjunto de dados, como por exemplo, numa distribuição de rendas. Neste caso, a média não seria um bom representante dos dados, sendo nesse caso indicado o uso da mediana, por ser esta medida pouco influenciada por valores extremos. Dessa maneira a interpretação da Mediana é a informação que pelo menos 50% dos dados possuem valor igual ou menor ao da Mediana. 1.4.2.1 Estimativa da posição da Mediana para dados Simples (Dados não tabulados) Para dados não tabulados a Mediana corresponde ao elemento central da distribuição ordenada. a) Dados Ímpares Sendo n ímpar, como igual ao valor de ordem - posição da (n+ 1) mediana – será o termo desse conjunto. 2 Seja a a série: 36
37
39
40
40
41
41
42
42
Como a série é ímpar, a mediana será: Posição da Mediana = 36 1º
37 2º
39 3º
40 4º
(n+ 1) (9 + 1) = = 5º Termo da série ordenada 2 2 40 5º
41 6º
41 7º
42 8º
42 9º
b) Dados pares Nesta situação a mediana poderá ser definida como qualquer valor n n situado entre o de ordem e o de + 1. 2 2 Exemplo: Calcule a mediana dos dados abaixo: 36
37
39
40
40
41
41
42
42
45
Como temos n = 10 (par) , a mediana pode ser representada por 2 n n posições, e o de + 1, quais sejam: 2 2
10 10 = 5º Termo da Série e + 1 = 6º Termo da Série 2 2
Estatística Descritiva - 1.33
36 1º
37 2º
39 3º
40 4º
40 5º
41 6º
41 7º
42 8º
42 9º
45 10º
Na situação de dados pares temos dois valores para mediana, que serão coincidentes ou não, nessa situação existem duas alternativas, a primeira apresentar como mediana os dois valores – 40 e 41 – no 40 + 41 segundo caso calcular a média dos dois valores = 40,5. 2
Estatística Descritiva - 1.34
1.4.2.2 Mediana para valores distintos (Dados Tabulados) Colocados os valores em ordem crescente, mediana é o elemento que ocupa a posição central. Exemplo: Dada dos dados? xi Fi 2 3 3 3 4 4 5 9 6 6 7 2 8 2 Total 29
a distribuição abaixo, qual valor corresponde a mediana Fac 3 6 10 19 25 27 29
No caso de dados em classe, podemos utilizar simplesmente a fórmula n +1 Md = , (uma vez que o total de dados é impar) assim, a posição da 2 29 + 1 mediana será dada por = 15º Termo 2 xi 2 3 4 5 6 7 8 Tota l
Fi 3 3 4 9 6 2 2 29
Fac 3 6 10 19 25 27 29
1.4.3
Até ao valor 4, a freqüência acumulada é 10, portanto não chegamos ainda ao 15º termo Moda que só vai ser alcançado no valor 5, que acumula 19 elementos, passando portanto pelo 15º ponto elemento de maior freqüência
Ao de indivíduos, isto é, o ponto que ocorre com mais freqüência, damos o nome de Moda, ela representa, dessa forma, o valor mais típico da distribuição dos dados.
Aplica-se a moda: 1) Quando se deseja obter uma medida rápida e aproximada de posição; 2) Quando a medida de posição deve ser o valor mais típico da distribuição. 1.4.3.1 Moda para dados simples O valor modal será aquele que ocorrer com maior freqüência.
Estatística Descritiva - 1.35
Ex.: Determinar a moda da série abaixo: 4, 4, 6, 7, 7, 8, 8, 8, 9 e 10. Pela simples observação, temos que o valor “8”, aparece com mais freqüência, portanto este valor é a moda. Vale lembrar que, que uma série de dados pode apresentar mais de uma moda, como por exemplo: 4, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 8, 8, 8, 9, 10, e 10 Como pode ser observado os valores 5 e 8 aparecem com maior freqüência o mesmo número de vezes (4), portanto, a série tem dois valores modais, podendo ser chamada de bi-modal, por sua vez, quando apresentar mais de dois valores modais, a série é chamada de plurimodal.de 3 modas usamos o termo multimodal, podendo ocorrer situações em que o conjunto não apresenta moda, chamado então de amodal 1.4.3.2 Moda para dados Distintos (Dados Tabulados) Para dados agrupados em uma distribuição de freqüências basta indicar aquele que apresenta o maior número de dados. Seja o Exemplo: Abaixo apresentar o valor modal: xi 14 15 17
Fi 1 3 5 2 11
1.4.4 Posição
O valor 15 representa a Moda da distribuição pois este é o valor de maior freqüência, ocorrendo 5 vezes. relativa da média, mediana
e moda
Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria torna -as diferentes e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos: Mo = Md = x → curva simétrica Mo < Md < x → curva assimétrica negativa
x <Md < Mo → curva assimétrica positiva
Estatística Descritiva - 1.36
Curva assimétrica negativa assimétrica positiva
Curva
1.5 Separatrizes Há uma série de medidas de posição semelhantes na sua concepção à mediana, embora não sejam medidas de tendência central. Como se sabe, a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte, por sua vez: os quartis permitem dividir a distribuição em quatro partes iguais quanto ao número de elementos de cada uma;
os decis em dez partes; e os centis em cem partes iguais. Para simbolizar cada uma dessas medidas separatrizes, faremos: Qi Di Ci
= = =
quartis i = 1, 2, 3, decis i = 1, 2, 3,...,9 centis i = 1, 2, 3,...,99
Assim, para dividir uma série ordenada de valores em quatro partes iguais, precisamos de três separatrizes (quartis); para dividi-la em dez, iremos recorrer a nove separatrizes (decis); em cem, recorremos a noventa e nove separatrizes (centis). 1.5.1 Quartil Símbolo: Qi
i = 1, 2 e 3
Estatística Descritiva - 1.37
Definição: Dado um conjunto ordenado (ordem crescente) de valores, os quartisde ordem i,= 1, 2 e 3 (Qi). representam os valores que dividem o conjunto de dados em partes 25%, 50% ou 75%, respectivamente.
n (quartil inferior) 2 2n n Q2 = = = Mediana 4 2 3n Q3 = (quartil superior) 4 Q1 =
1.5.2 Decis Símbolo: Di
i= l, 2,.3,..,9
A definição dos decis obedece ao mesmo princípio da dos quarti com a modificação, que os dados são divididos em 10 % partes, assim abaixo do 1.o Decil temos 10% dos dados; do 2.o Decil, 20%; do 3.o Decil 30%, até alcançar o 9.o Decil, o qual abaixo dele teremos 90% dos dados Importante destacar que acima do 9.o Decil temos os 10% dos dados de maior valor, e que normalmente só são analisados os limites do 1.o Decil (Decil Inferior) e do 9.o Decil (decil superior). Assim teremos i = 1, 2, 3, 4, 5, 6, 7, 8, e 9 Para calcular os decis, recorreremos á seguinte expressao que define a ordem em que o decil se encontra:
Di =
in , 10
onde
n = número de valores observados i = número que identifica o decil a ser calculado
Estatística Descritiva - 1.38
1.5.3 Percentis ou Centis Símbolo: Ci= 1, 2, 3,...,99 Neste caso, cada parte em que foram subdivididos os valores do conjunto, através dos noventa e nove centis, contara com um centésimo ou um por cento dos valores do conjunto. O elemento que definirá a ordem do centil, em urna distribuiçâ’o de freqüências de valores tabulados agrupados em classes, será encontrado pelo emprego da expressão:
Ci =
in 100
onde
i = número identificador do centil n = número total de observações O gráfico abaixo apresenta um exemplo da aplicação das separatrizes, combinando, centis, decis e quartis Gráfico: Evolução do desenvolvimento do peso (meninas) de 1 à 19 anos
Estatística Descritiva - 1.39
Seja o exemplo: Utilizando os dados abaixo, calcular as seguintes medidas: 1, 2 2, 3 2, 6 2, 4
2, 3 2, 8 2, 3 2, 9
3, 3 3, 3 3, 9 3, 8
3, 7 3, 1 3, 2 3, 8
3, 8 4, 9 4, 1 4, 7
4, 0 4, 5 8, 8 4, 4
4, 5 4, 1 4, 9 4, 1
5, 5 5, 3 5, 5 4, 1
5, 6 5, 6 6, 7 4, 2
5, 5 5, 3 7, 0 5, 0
Estatística Descritiva - 1.40
Preliminarmente devemos ordenar os dados: 1, 2 3, 3 4, 1 5, 3
2, 3 3, 3 4, 1 5, 3
2, 3 3, 7 4, 2 5, 5
2, 3 3, 8 4, 4 5, 5
2, 4 3, 8 4, 5 5, 5
a) Primeiro Decil =
2, 6 3, 8 4, 5 5, 6
2, 9 4, 0 4, 9 6, 7
3, 1 4, 1 4, 9 7, 0
3, 2 4, 1 5, 0 8, 8
1n 1* 40 o = = 4 Termo = 2,3 10 10
b) Primeiro Quartil =
c) Mediana =
2, 8 3, 9 4, 7 5, 6
1n 1* 40 = = 10º Termo = 3,2 4 4
n 40 = = mediana é par = 20º e 21º termo = 4,1 2 2
d) Terceiro Quartil =
e) Nono Decil =
3n 3* 40 = = 30º Termo = 5,0 4 4
9n 9* 40 = = 36º Termo = 5,6 10 10
Conclusões:
Pelo menos metade dos alunos tem notas inferiores a 5,0;
Cinqüenta por cento dos alunos estão notas entre 3,2 e 5,0
Os dez por cento dos alunos de pior desempenho tem notas menores que 2,3;
Os dez por cento dos alunos de melhor desempenho tem notas superiores a 5,6.
1.5.4 Box-plot O box-plot é um método alternativo ao histograma para representar os dados. O box-plot fornece informações sobre as características de posição, dispersão, assimetria, comprimento das caudas e outliers de um conjunto de dados. No entanto, a maior importância desse tipo de gráfico está na identificação de possíveis outliers no conjunto de dados. A construção de um box-plot exige que tenhamos as seguintes informações:
Estatística Descritiva - 1.41
valor mínimo; primeiro quartil; mediana; terceiro quartil; e valor máximo. Como a mediana revela uma tendência central, ao passo que os quartis indicam a dispersão dos dados (através do cálculo do intervalo interquartil), os box-plot têm a vantagem de não serem tão sensíveis a valores extremos como outras medidas baseadas na média e no desviopadrão. Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois ou mais conjuntos de dados. 1.5.4.1 Como construir o diagrama de Box-Plot Dados, os valores da mediana, 1º e 3º quartis dos salários de duas categorias de pessoas – solteiras e casadas – construir o box-plot dos dados e concluir. Medidas-resumo para o box-plot de salários e estado civil Medida solteiro não solteiro Mínimo 1,00 1,25 Q1 3,28 3,97 Mediana 4,66 5,43 Q3 6,01 7,39 Máximo 8,20 9,20 Etapas: (Salários dos solteiros) 1. Traçar uma linha – em escala – que contenha todos os valores dos dados
2. Um retângulo é desenhado com as extremidades assinaladas no primeiro e no terceiro quartis. Para os dados dos salários dos solteiros, por exemplos, temos:
Q1 = 3,28 e Q3 = 6,01. Esse retângulo contém 50% dos dados.
Estatística Descritiva - 1.42
3. Urna linha vertical é desenhada no retângulo na posição da mediana (4,66 para os dados dos salários dos solteiros).
4. A partir do limite de Q1, prolongar uma linha perpendicular, limitada pelo valor mínimo, que é igual a 1,00 ; fazendo o mesmo a partir de Q3 que será limitado pelo valor máximo que é 8,00
5. Repetir o mesmo procedimento para os salários dos casados, cujo gráfico da seguinte forma:
Conclusões: Podemos observar que todas a renda dos não solteiros é superior a dos solteiros, incluindo-se no caso o Valor Mediano. Quanto à renda mínima a diferença entre os solteiros e não solteiros é pequena, por sua vez, a renda máxima dos não solteiros é significativamente superior aos solteiros. 1.5.4.2 Box plot e identificação de valores aberrantes (outliers) A partir dos dados utilizados para a construção do box plot é possível calcular limites para valores considerados como aberrantes (outliers), isto é, valores que pela sua magnitude estão muito acima, ou abaixo, do que seria aceitável para um conjunto de dados. Dados:
Mínimo = 2210 ; Q1 = 2365; Mediana = 2405; Q3 = 2500; e
Estatística Descritiva - 1.43
Máximo = 2630. Construir um box-plot no qual estejam indicados os limites para a presença de valores aberrantes (outliers) 1. Inicialmente repetir os procedimentos de 1 a 4, conforme descrito em 6.2.1;
2. Calcular a amplitude interquartil, AIQ = Q3 – Q1, que servirá de base para determinação dos valores máximo e mínimo. AIQ = Q3 – Q1 AIQ = 2500 – 2365 = 135 3. Cálculos dos limites superior e inferior Limite superior Q3 + 1,5*AIQ
2500 + 1,5*135 = 2702,50
Limite inferior: Q1 – 1,5*AIQ 2500 – 1,5*135 = 2162,50 Nota: o valor 1,5 é da fórmula. 4. Traçar as linhas para os limites máximo e mínimo, assinalando como limites máximo e mínimo os valores 2702,50 e 2162,50, respectivamente.
5. Na eventualidade da existência, nos dados, de valores que estejam fora dos limites máximo e mínimo, isto é, acima de 2702,50 ou abaixo de 2162,50 serão considerados como discrepantes (outliers), que são representados pelo símbolo *.
Estatística Descritiva - 1.44
Na figura a seguir incluímos linhas que mostram a posição dos limites. Essas linhas foram desenhadas para mostrar como os limites são calculados e onde elas são assinaladas para os dados dos salários. Embora os limites sejam sempre calculados, eles raramente são desenhados nas plotagens de retângulos. Gráfico – Box-plot de Salários, com indicação de limites inferior e superior.
Vantagens do uso dos procedimentos da análise das separatrizes: são fáceis de usar; poucos cálculos numéricos são necessários. simplesmente classificamos os valores dos dados em ordem ascendente e identificamos a regra dos cinco itens; A plotagem dos retângulos, também chamados de Diagrama de Caixas ou Box-plot pode então ser facilmente construída. não é necessário calcular a média e o desvio padrão dos dados. 1.6 Medidas de Dispersão Além das medidas de tendência central dados podem ser descritos em termos de suas Medidas de Dispersão (Variabilidade) que, diferentemente das Medidas de Tendência Central, visam descrever os dados no sentido de informar o grau de dispersão ou afastamento dos valores observados em torno de um valor central representativo chamado média. Informa se um conjunto de dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade). Para estudarmos as medidas de variabilidade para dados não tabelados usaremos um exemplo prático. Supomos que uma empresa
Estatística Descritiva - 1.45
esteja querendo contratar um funcionário, e no final da concorrência sobraram dois candidatos para uma única vaga. Então foi dado 4 tarefas para cada um, onde as mesmas tiveram como registro o tempo (em minutos) de execução. Assim para a série TAREFAS 1 2 3 4 OPERÁRIO 1 5 4 5 4 (TEMPO) 5 5 2 8 OPERÁRIO 2 3 7 4 6 (TEMPO) 0 0 0 0 Ainda que a média dos tempos seja a mesma para os dois operários, pode-se observar que a variabilidade entre os dois operários é diferente. Pela análise gráfica podemos perceber que o operário 1 apresenta uma dispersão menor dos tempos, quando comparado com o operário 2, ainda que o tempo médio para os dois operários seja de 50.
Estatística Descritiva - 1.46
1.6.1 Medidas de Variabilidade e Dispersão Absolutas As medidas de dispersão são classificadas entre Absolutas e Relativas. 1.6.1.1 Desvio Extremo ou Amplitude Total (R): É a diferença entre o maior e o menor valor de um conjunto de dados
R = Xmax – X min Para o exemplo dos Operários: para A)
Xmáx = 55
para B)
Xmin = 48
Xmáx = 70
R = 55 – 48 = 7
Xmin = 30 R = 70 – 30 = 40
Apesar dos inconvenientes dessa medida, há situações especiais em que ela resulta satisfatória, como por exemplo, da amplitude da temperatura em um dia ou ano. 1.6.1.1 Desvio Médio (Dm ): O desvio médio (Dm) ou média dos desvios é igual à média aritmética dos valores absolutos dos desvios tomados em relação à média. Quando os valores não vierem dispostos em uma tabela de freqüência, o desvio médio será calculado, de acordo com a definição, através do emprego da seguinte fórmula: n
Dm =
∑x i =1
i
n
−x ,
Exemplo: calcular o desvio médio dos dados abaixo: A = { 55, 45, 52, 48} , média = xi 5 5 4 5 5 2 4 8
média 50
|xi - média| | 55 – 50 | = 5
50
| 45 – 50 | = 5
50
| 52 – 50 | = 2
50
| 48 – 50 | = 2
200 = 50,00 4
Estatística Descritiva - 1.47
∑
14
Pela fórmula, Dm =
14 = 3,50 4
O Desvio Médio tem aplicação restrita, não sendo comum o seu uso no dia a dia em cálculos estatísticos. 1.6.1.3 Variância a) Para dados Populacionais não tabulados Dessa forma, o cálculo da Variância para dados não agrupados em classes é dado por:
∑( x
i
σ = 2
−x
)
2
,
n
que por transformação temos:
σ2 =
∑x
2
(∑ x) −
2
n
n
Utilizando-se dos mesmos dados do exemplo de Desvio Médio Absoluto, o cálculo da variância é dado por: A = {55 45 52 48 } Resolução: xi 55 45 52 48 ∑ 200
x2 3025 2025 2704 2304 10058
∑( x − x )
2
i
σ2 =
n
,
=
σ2 =
∑x
2
(∑ x) − n
n
2
=
10058 −
(200) 2 4 = 14,50
4
b) Para os dados Populacionais Tabulados em distribuição de freqüências A variância para os dados agrupados em Classes , é dada por:
Estatística Descritiva - 1.48
σ
2
∑ ( x − x) = ∑ Fi
2
i
σ2 =
Fi
, podendo ser também expressa da seguinte maneira:
(∑ xiFi) 2
∑ xi 2 Fi −
∑ Fi
∑ Fi
xi = ponto médio da classe Fi = freqüência dos dados na classe Exemplo: Calcular o Desvio Padrão Populacional dos dados abaixo: Consumo 05 |--25 25 |--45 45 |--65 65 |--85 ∑
Fi 4 6 1 4 2 6 5 0
Resolução Consumo 05 |--25 25 |--45 45 |--65 65 |--85 ∑
Fi 4
35 6 1
55
2
75
4 6 5 0
∑ ( x − x ) Fi = = 2
σ2
i
∑ Fi
Xi = PM 15
∑ xi 2 Fi −
xi2*Fi 152 * 4 = 900 352 * 6 = 7350 552 * 14 = 42350 752 * 26 = 146250 1968 50
(∑ xiFi) 2
∑ Fi
∑ Fi
1.6.1.4 Desvio Padrão
xi*Fi 15 * 4 = 60 35 * 6 = 210 55 * 14 = 770 75 * 26 = 1950 29 90
(2990) 2 50 50
= 196850 −
= 360,96
Estatística Descritiva - 1.49
Observando a fórmula para os cálculos da variância, notamos tratar-se de uma soma de quadrados. Dessa forma, se a unidade da variável for, por exemplo, metros (m), teremos como resultado metro quadrado (m2). Para voltarmos à variável original, necessitamos definir uma outra medida de dispersão que é a raiz quadrada da variância denominado de desvio padrão. Assim:
σ = σ 2 é o desvio padrão populacional S=
S 2 é o desvio padrão amostral
Em suma, para o cálculo do desvio padrão deve primeiramente determinar o valor da variância e, em seguida extrair a raiz quadrada desse resultado. a) Para dados populacionais não tabelados:
Para populações =
σ=
∑ x2 −
(∑ x ) 2
n
n
Estatística Descritiva - 1.50
b) Para dados populacionais tabelados
Para populações
∑x
σ=
2
Fi −
(∑ xFi) 2
∑F
∑F
(n - 1) é usado como um fator de correção, onde devemos considerar a variância amostral como uma estimativa da variância populacional. σ2, para a população, com denominador igual ao número de dados n; S2, para a amostras, com denominador igual ao número de dados menos um, n – 1
1.6.1.5 Variância e Desvio padrão para dados amostrais Quando se trata de dados amostrais (situação mais comum)devese trabalhar com um grau de liberdade a menos, isto é, em vez de se fazer a divisão por n , dividi-se por n – 1, isto decorre pelo fato de, para o cálculo tanto da variância quanto para o desvio padrão tem-se como referência para o cálculo dos afastamentos o valor da média. Uma vez que a média é calculada à partir dos próprios dados existe a necessidade de se descontar esse valor, motivo pelo qual a divisão passa a ser feita por n – 1. Na prática, para grandes conjuntos de dados (mais do que 30 dados) as diferenças obtidas entre os valores dos desvios e variâncias populacionais com os respectivos correspondentes amostrais são desprezíveis. a) Variância Amostral - para dados não tabulados
∑( x
i
s = 2
−x
)
2
,
n −1
=
s2 =
∑x
2
(∑ x) − n −1
2
n
Para o exemplo dado o valor da variância fica assim recalculado
∑( x
i
s2 =
−x
n −1
)
2
,
=
s2 =
∑x
2
(∑ x) − n −1
n
2
=
(200) 2 4 = 19,33 4 −1
10058 −
Estatística Descritiva - 1.51
- Para os dados tabulados em distribuição de freqüências
∑ xi
∑ ( x − x ) Fi = = ∑ Fi − 1 2
s
2
i
2
Fi −
(∑ xiFi) 2
∑ Fi
∑ Fi − 1
Para o exemplo dado o valor da variância fica assim recalculado
∑ ( x − x ) Fi = = ∑ Fi − 1 2
s
2
i
(∑ xiFi) 2
∑ xi 2 Fi −
∑ Fi
(2990) 2 50 50 − 1
= 196850 −
∑ Fi − 1
= 368,33
b) Desvio padrão amostral - para dados não tabulados
∑ (x − x)
2
s=
n− 1
∑x
2
s=
( x) − ∑
n− 1
2
n
- para dados tabulados em distribuições de freqüências
∑ (x − x) F ∑F −1 2
s=
s=
∑x
2
Fi −
(∑ xFi) 2
∑F
∑ F −1
1.6.2 Medidas de Dispersão Relativa 1.6.2.1 Coeficiente de Variação de Pearson Trata-se de uma medida relativa de dispersão, útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. É dado por:
C.V . =
σ x
ou
C.V . =
S x
Estatística Descritiva - 1.52
Exemplo: Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00, com desvio padrão de R$ 1.200,00. Calcule o C.V. % Para os homens
C.V . =
Para as mulheres
1500,00 σ = 0,375 = 4000,00 x
C.V . =
1200,00 σ = 0,4 = 3000,00 x
ou 37,5%
ou 40,0%
Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativa que os dos homens. Para efeitos práticos: Considera-se que um Coeficiente de Variação superior a 30% indica alto grau de dispersão e, conseqüentemente, pequena representatividade da média devendo a média obtida ser vista com restrições, no entanto, se o CV% for superior a 50% isto é um indicador que a média não representa adequadamente o conjunto dos dados Quantos menores os valores CV tanto mais representativa o valor da média. Se não houver dispersão alguma o coeficiente de variação será igual 0 o que indica que todos os valores são iguais ao valor da média. 1.6 Medidas de Assimetria e Curtose 1.6.1 Assimetria É o grau de desvio ou afastamento da distribuição. Os coeficientes de assimetria ou Pearson determina a forma da curva do polígono de freqüência de uma distribuição. Quando uma distribuição é simétrica, as medidas de média, mediana e moda coincidem. Porém, a assimetria torna-as diferentes e essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos: Mo = Md = x → curva simétrica
Mo < Md < x → curva assimétrica negativa x <Md < Mo → curva assimétrica positiva
Estatística Descritiva - 1.53
Curva assimétrica negativa assimétrica positiva
Curva
a) Coeficientes de Assimetria Uma vez conhecidos as medidas de posição e variabilidade é possível calcular o coeficiente de Assimetria que é dado por:
As =
Assim temos:
3 ( X − Med ) S
As = 0 a distribuição é simétrica As > 0 a distribuição é assimétrica positiva ou
à
direita As < 0 a distribuição é assimétrica negativa ou esquerda b) Escalas de assimetria: Em termos de magnitude, temos: | AS | < 0,15
assimetria pequena
0,15 < | AS | < 1
assimetria moderada
| AS | > 1
assimetria elevada
Estatística Descritiva - 1.54
Obs: Suponhamos AS = - 0,49 a assimetria é considerada moderada e negativa Suponhamos AS = 0,75 positiva
a assimetria é considerada moderada e
1.6.2 Curtose Entende-se por curtose o grau de afastamento de uma distribuição. Com referencia ao grau de achatamento, podemos ter:
⇒ CURVA PLATICÚRTICA
⇒ CURVA MESOCÚRTICA
⇒ CURVA LEPTOCÚRTICA
Para medir o grau de curtose utilizamos o coeficiente:
K=
Q3 − Q1 2 ( P90 − P10 )
Se K = 0,263 diremos que a curva correspondente à distribuição de freqüência é mesocúrtica (distribuição. Normal) Se K > 0,263 diremos que a curva correspondente à distribuição de freqüência é platicúrtica
Estatística Descritiva - 1.55
Se K < 0,263 diremos que a curva correspondente à distribuição de freqüência é leptocúrtica