Praticando estat´ıstica com o software R Prof. Carlos A. S. de Andrade UFCG/CH/DEF
[email protected] 2 de maio de 2005
1
Introdu¸c˜ ao
Vamos praticar os comandos do R para realizar uma an´alise de dados hipot´eticos retirados do livro de Fox e Merril 1 . Trata-se de uma an´alise com estat´ıstica descritiva do problema a seguir: 1. Um pesquisador da esta¸c˜ao de r´adio WOW de Coolwater, Iowa, aborda, ao acaso, 30 transeuntes e pergunta-lhes a idade. O resultado ´e a tabela seguinte: Tabela 1: Idades dos transeuntes 30 32 21 15 26 18 37 23 14 27 16 32 39 21 28 42 40 39 22 21 35 26 39 25 39
entrevistados 43 44 39 40 22
Pede-se: (a) Resuma as informa¸c˜oes sob a forma de uma distribui¸c˜ao de freq¨ uˆencia.
2
Resolvendo
Iniciar o software R dando um duplo clique no ´ıcone do programa. Aguardar o prompt no formato do sinal “maior que”(>). 1
Merril, W. C; Fox, K. A. Estat´ıstica Econˆ omica: uma introdu¸c˜ ao, S˜ao Paulo: Atlas, 1980. p.52
1
Estando ent˜ao no ambiente de opera¸c˜ao, passamos aos comandos necess´arios a` realiza¸c˜ao da tarefa. Entrada dos dados Para entrar com os dados devemos antes designar uma vari´avel para recebˆe-los. Nomearemos esta vari´avel com o nome idade. Assim, para entrar com os dados fazemos no prompt: > idade = c(n1,n2,n3,...nn) Para verificarmos a introdu¸c˜ao dos dados digitamos no prompt o nome da vari´avel + Enter e ser˜ao mostrados os valores armazenados. O comando length(vari´ avel) informa a quantidade de valores armazenados, o que tamb´em ajuda a conferir a entrada dos dados. Comandos de an´ alise Uma vez conferidos os dados armazenados na vari´avel idade, pode-se passar `a an´alise desta. Os comandos a seguir s˜ao comentados depois do sinal #. >range(idade)
#retorna o menor valor e # o maior valor da distribui¸ c~ ao >mean(idade) # retorna a m´ edia aritm´ etica # da vari´ avel idade >sd(idade) # retorna o desvio-padr~ ao da distribui¸ c~ ao >var(idade) # retorna a vari^ ancia da distribui¸ c~ ao >fivenum(idade)# retorna uma descri¸ c~ ao sint´ etica # da distribui¸ c~ ao O comando fivenum tem uma especial peculiaridade: informa a caracter´ıstica da distribui¸c˜ao atrav´es de 5(cinco) dados: menor valor, primeiro quartil, segundo quartil, terceiro quartil e o maior valor. Este sum´ario tamb´em pode ser obtido com o comando summary(vari´ avel) de forma mais extensiva.
2.1
Montando a tabela de distribui¸ c˜ ao de frequ encia ¨ˆ
Com os dados fornecidos pelos comandos acima, pode-se classificar a distribui¸ca˜o de acordo com os manuais de estat´ıstica. Por´em, espera-se em um relat´orio tabelas
2
de distribui¸ca˜o de freq¨ uˆencia e gr´aficos que ajudem a visualizar o fenˆomeno sob an´alise. Nesta aula trataremos s´o da tabela de distribui¸c˜ao de freq¨ uˆencia montada com o R. O software R ´e ao mesmo tempo um aplicativo e uma linguagem de programa¸c˜ao orientada a objeto com uso primordial na estat´ıstica computacional. Assim, o que desejamos obter tem de ser primeiro armazenado em um “objeto”, ou seja, em uma vari´avel 2 . Desta forma, para obtermos nossa tabela de distribui¸c˜ao de freq¨ uˆencia criamos a vari´avel frq.idade que armazenar´a os atributos da tabela, conforme o comando abaixo: >frq.idade=factor(cut(idade,breaks=14+6*(0:5),include.lowest=T)) >table(frq.idade) #retorna a freq¨ u^ encia absoluta em 5 classes >table(frq.idade)/length(idade) # retorna a freq¨ u^ encia relativa
3
Resultado
Com o resultado dos comandos acima montou-se a tabela abaixo. Contudo, o software R tem pacotes que permitem exportar para outros aplicativos, como Word e outros, a tabela j´a no formato apresentado. Tabela 2: Distribui¸c˜ao dos ouvintes por faixa et´aria Faixa et´aria 14 a 20 20 a 26 26 a 32 32 a 38 38 a 44 Total a
Freq. Abs. Freq. Relat.
anos anos anos anos anos
4 9 5 2 10 30
0,13 0,30 0,17 0,07 0,33 1,00
Fonte: Merril, W. C.; Fox, K A.Estat´ıstica Econˆ omica: uma introdu¸c˜ ao.p.52, Exerc´ıcio 2 Se¸c˜ ao 2.1
2
Programa¸c˜ ao orientada a objeto ´e um assunto especializado na Ciˆencia da Computa¸c˜ao, mas nada de intranspon´ıvel para o Cientista Social que queira se aprofundar no uso de ferramentas computacionais no aux´ılio `a an´ alise de fenˆ omenos que se possa quantificar. Na equa equipe do R participam tanto economistas, bioengenheiros, soci´ ologos quanto matem´aticos e estat´ısticos.
3
4
Exerc´ıcio 1. Os dados na tabela abaixo referem-se `as renda de 50 indiv´ıduos. Elabore um breve relat´orio com as estat´ısticas descritivas e elabore e redija uma conclus˜ao. (a) Monte uma tabela de distribui¸c˜ao de freq¨ uˆencia para os dados. (b) Fa¸ca uma tabela com as estat´ısticas-resumo para os dados: m´edia aritm´etica, mediana, quartis, desvio-padr˜ao e variˆancia.
Tabela 5700 8950 940 1630 8050 4180 6620 4230 9080 3340
3: Rendas de 1790 3710 3690 1800 1560 880 4550 2640 7270 6640 670 4900 9570 3140 9620 590 3500 1580 720 3360
4
50 indiv´ıduos 9730 4810 4290 2750 9290 2990 8860 3940 7340 1860 5060 2790 950 8520 9840 8170 4140 7720 1950 4920