Analise De Dados Discretos

  • May 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Analise De Dados Discretos as PDF for free.

More details

  • Words: 27,794
  • Pages: 95
´ UNIVERSIDADE FEDERAL DO PARANA DEPARTAMENTO DE ESTAT´ISTICA

´ ANALISE DE DADOS DISCRETOS

Suely Ruiz Giolo

CURITIBA

Estado do Paran´a - Brasil 2004

Pref´ acio Este material baseia-se em v´arios livros e artigos citados e tem como objetivo apresentar um texto introdut´orio sobre a An´alise de Dados Discretos. Ele pode ser usado em cursos de Bacharelado em Estat´ıstica, bem como em outros cursos de gradua¸ca˜o e de p´os-gradua¸ca˜o, em que os alunos tenham conhecimentos b´asicos de probabilidade, inferˆencia e regress˜ao bem como tenham, tamb´em, no¸co˜es de alguns testes n˜aopar´ametricos. O texto se originou de notas de aulas da disciplina An´alise de Dados Discretos, ministrada no curso de Bacharelado em Estat´ıstica da Universidade Federal do Paran´a, com o prop´osito de apresentar m´etodos para a descri¸ca˜o, an´alise e modelagem de dados em que a vari´avel resposta de interesse seja categ´orica. Diversos exemplos s˜ao apresentados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos, m´etodos e modelos apresentados. O manuscrito foi preparado usando o LaTex e as ilustra¸co˜es e resultados estat´ısticos foram obtidos no pacote estat´ıstico R. O texto n˜ao est´a livre de erros e imperfei¸co˜es e, desse modo, coment´arios, cr´ıticas e sugest˜oes dos leitores, que possam contribuir para uma futura edi¸ca˜o revisada do mesmo, s˜ao bem-vindos.

Suely Ruiz Giolo Curitiba, mar¸co de 2004.

´ SUMARIO P´agina ˜ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 INTRODUC ¸ AO

1

1.1 Escalas de Mensura¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . .

4

1.2.1 Dados hist´oricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . .

5

ˆ 2 TABELAS DE CONTINGENCIA 2×2 . . . . . . . . . . . . . . . . . . . .

6

2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . .

6

2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

2.4 Modelo Hipergeom´etrico . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

2.5 Estudos freq¨ uentes e modelos probabil´ısticos associados . . . . . . . . . . .

9

2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . .

14

2.5.4 Ensaios cl´ınicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . .

14

2.6 Estat´ısticas de teste e Medidas de Associa¸ca˜o . . . . . . . . . . . . . . . . .

16

2.6.1 Estat´ısticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.6.3 Diferen¸ca nas propor¸co˜es . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.6.4 Risco relativo e odds ratio (raz˜ao de chances) . . . . . . . . . . . . . . .

19

ii 2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . .

24

2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

ˆ ˜ 3 TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES . . . . . . . . .

27

3.1 Conjunto de tabelas de contingˆencia 2 × 2 . . . . . . . . . . . . . . . . . .

27

3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.1.2 Medidas de associa¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

3.2 Conjunto de tabelas de contingˆencia 2 × r . . . . . . . . . . . . . . . . . .

30

3.2.1 Associa¸ca˜o em uma u ´nica tabela de contingˆencia 2 × r . . . . . . . . . .

31

3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.2.2 Associa¸ca˜o em um conjunto de tabelas de contingˆencia 2 × r . . . . . . .

34

3.3 Conjunto de tabelas de contingˆencia s × 2 . . . . . . . . . . . . . . . . . . .

35

3.3.1 Associa¸ca˜o em uma u ´nica tabela de contingˆencia s × 2 . . . . . . . . . .

36

3.3.2 Associa¸ca˜o em um conjunto de tabelas de contingˆencia s × 2 . . . . . .

37

3.4 Tabelas de contingˆencia s × r . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.4.1 Testes para associa¸ca˜o geral em tabelas s × r . . . . . . . . . . . . . . . .

38

3.4.1.1 Situa¸ca˜o 1: vari´avel resposta nominal . . . . . . . . . . . . . . . . . . .

38

3.4.1.2 Situa¸ca˜o 2: vari´avel resposta ordinal . . . . . . . . . . . . . . . . . . . .

39

3.4.1.3 Situa¸ca˜o 3: ambas as vari´aveis ordinais . . . . . . . . . . . . . . . . . .

39

3.4.2 Teste exato para associa¸ca˜o geral em tabelas s × r . . . . . . . . . . . . .

40

3.4.3 Medidas de associa¸ca˜o em tabelas s × r . . . . . . . . . . . . . . . . . . .

40

3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.4.4.1 Local de moradia e afilia¸co˜es pol´ıtico partid´arias . . . . . . . . . . . . .

41

3.4.4.2 Medicamentos para dor de cabe¸ca e per´ıodo sem dor . . . . . . . . . . .

41

3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . .

43

3.4.4.4 Tipo de ve´ıculo adquirido e fonte de propaganda. . . . . . . . . . . . . .

43

3.4.5 Concordˆancia entre observadores . . . . . . . . . . . . . . . . . . . . . . .

44

3.4.5.1 Estat´ıstica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

3.4.5.2 Exemplo: concordˆancia entre o diagn´ostico de dois neurologistas . . . .

46

3.5 Conjunto de tabelas de contingˆencia s × r . . . . . . . . . . . . . . . . . . .

47

iii ˜ LOG´ISTICA DICOTOMICA ˆ 4 REGRESSAO . . . . . . . . . . . . . . . . . .

48

4.1 Estima¸ca˜o dos parˆametros . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

4.2 Significˆancia das vari´aveis no modelo . . . . . . . . . . . . . . . . . . . . .

54

4.2.1 An´alise de Deviance e sele¸ca˜o de modelos . . . . . . . . . . . . . . . . . .

56

4.3 Qualidade do modelo ajustado . . . . . . . . . . . . . . . . . . . . . . . . .

57

4.3.1 O modelo ajustado e interpreta¸co˜es . . . . . . . . . . . . . . . . . . . . .

59

4.4 Diagn´ostico da regress˜ao log´ıstica . . . . . . . . . . . . . . . . . . . . . . .

59

4.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

4.5.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

4.5.1.1 Resultados e conclus˜oes obtidas para os dados do exemplo 1 . . . . . . .

64

4.5.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

4.5.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.5.4 M´etodos auxiliares no diagn´otico do modelo ajustado . . . . . . . . . . .

73

4.5.4.1 QQplot com envelope simulado . . . . . . . . . . . . . . . . . . . . . . .

73

4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares . . . . . . . . . .

74

˜ LOG´ISTICA POLITOMICA ˆ 5 REGRESSAO . . . . . . . . . . . . . . . . . .

76

5.1 Resposta ordinal: modelo de odds proporcionais . . . . . . . . . . . . . . .

76

5.1.1 Regress˜ao log´ıstica politˆomica ajustada aos dados sobre artrite . . . . . .

78

5.2 Resposta nominal: modelo de logitos generalizados . . . . . . . . . . . . . .

82

5.2.1 Logitos generalizados ajustados aos dados do programa escolar . . . . . .

84

BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

˜ INTRODUC ¸ AO

1

Analistas de dados freq¨ uentemente se deparam com experimentos cujas respostas de interesse s˜ao, por natureza, categ´oricas e refletem, portanto, categorias de informa¸ca˜o em vez da usual escala intervalar. Dados categ´oricos s˜ao, em geral, apresentados na forma de tabelas, conhecidas como tabelas de contingˆencia. A an´alise de dados categ´oricos (ou discretos) trata, portanto, da an´alise de experimentos em que a vari´avel resposta ´e categ´orica. Quanto as vari´aveis explanat´orias (covari´aveis), estas podem ser tanto categ´oricas quanto cont´ınuas. Observar a escala de mensura¸ca˜o (dicotˆomica, ordinal, nominal etc.) das vari´aveis categ´oricas e identificar o delineamento amostral que produziu os dados, s˜ao fatores muito importantes para a determina¸ca˜o de uma an´alise apropriada e, conseq¨ uentemente, das poss´ıveis inferˆencias. Na se¸ca˜o 1.1 s˜ao, portanto, descritas e ilustradas v´arias escalas de mensura¸ca˜o das vari´aveis categ´oricas e, na se¸ca˜o 1.2, s˜ao descritos os delineamento amostrais mais freq¨ uentes.

1.1

Escalas de Mensura¸ c˜ ao A escala de mensura¸ca˜o de uma vari´avel categ´orica ´e um elemento chave para

a escolha de uma estrat´egia de an´alise. N˜ao consider´a-la pode, portanto, implicar na escolha inapropriada de uma estrat´egia que pode levar a conclus˜oes errˆoneas. De um modo geral, vari´aveis resposta categ´oricas podem ser: • • • •

dicotˆomica ordinal nominal contagens discretas.

Giolo, S. R.

2

An´alise de Dados Discretos

Respostas dicotˆomicas s˜ao aquelas que apresentam duas possibilidades de resposta. O objetivo, por exemplo, de um ensaio cl´ınico realizado para testar um novo medicamento ´e saber se o paciente obteve, ou n˜ao, uma melhora. Nesses casos, ´e comum a representa¸ca˜o dos dados em uma tabela de contingˆencia 2 × 2, como mostrado na Tabela 1. Tabela 1. Resposta ao novo medicamento.

Medicamento

Melhora Sim N˜ao

Total

Novo

40

20

60

Placebo

16

48

64

A resposta, nesse exemplo, ´e dicotˆomica e a an´alise investiga a rela¸ca˜o entre a resposta e o medicamento.

Vari´aveis categ´oricas com mais do que duas possibilidades de resposta, e que apresentam uma certa ordena¸ca˜o natural, s˜ao tamb´em freq¨ uentes. Tais vari´aveis, ditas apresentarem um escala ordinal de mensura¸ca˜o, podem, por exemplo, resultar de quest˜oes tais como: i) A nova grade curricular produziu pequeno, algum ou grande entusiasmo entre os estudantes? ii) A a´gua exibe baixo, m´edio ou alto grau de pureza? Observe, nesses exemplos, que h´a uma ordem clara das categorias de resposta, mas n˜ao existe, contudo, ind´ıcios quanto a`s distˆancias relativas entre os n´ıveis. Note em ii) que existe uma poss´ıvel distˆancia entre os n´ıveis: m´edio pode significar 2 vezes mais puro do que baixo e alto 3 vezes mais puro do que baixo. Algumas vezes a distˆancia encontra-se mais clara. A Tabela 2 mostra um exemplo de um experimento com resposta categ´orica ordinal. Observe que vari´aveis resposta categ´oricas podem ser tratadas de diferentes modos. Pode-se, por exemplo, combinar as colunas com as respostas “Acentuada” e “Alguma” da Tabela 2 para produzir uma resposta dicotˆomica: “melhora” versus

Giolo, S. R.

3

An´alise de Dados Discretos

Tabela 2. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino e masculino para investigar um tratamento para artrite reumat´oide. Melhora Sexo

Tratamento

Acentuada

Alguma

Nenhuma

Total

Feminino

Ativo

16

5

6

27

Feminino

Placebo

6

7

19

32

Masculino

Ativo

5

2

7

14

Masculino

Placebo

1

0

10

11

“n˜ao melhora”. Grupar categorias ´e usual durante uma an´alise se, ´e claro, a resposta dicotˆomica resultante for tamb´em de interesse.

Se, no entanto, existirem mais do que duas categorias de resposta e nenhuma ordena¸ca˜o para estas categorias, tem-se uma escala de mensura¸ca˜o nominal. Por exemplo, i) preferˆencia de local para passar as f´erias: praia, montanha ou fazenda, ii) candidato de sua preferˆencia: A, X, Y ou Z. Observe, em ambos os exemplos, que n˜ao existe nenhuma aparente maneira de ordenar as categorias de resposta.

Vari´aveis resposta categ´oricas podem tamb´em apresentar contagens discretas. Em vez de categorias tais como “sim e n˜ao” ou “baixo, m´edio e alto”, as respostas s˜ao n´ umeros. Alguns exemplos s˜ao: i) tamanho da ninhada: 1, 2, 3, 4 ou 5 membros; ii) n´ umero de televisores em uma casa: 1, 2, 3 ou 4. Em tais situa¸co˜es poder-se-ia pensar na usual estrat´egia de analisar a contagem m´edia. No entanto, as suposi¸co˜es exigidas para o modelo linear padr˜ao, usado para dados cont´ınuos, n˜ao s˜ao, em geral, atendidas com contagens discretas que tˆem uma amplitude pequena, contagens que n˜ao s˜ao normalmente distribu´ıdas e podem, ainda, n˜ao apresentar variˆancia homogˆenea.

Em algumas situa¸co˜es vari´aveis cont´ınuas s˜ao, por interesse do pesquisador,

Giolo, S. R.

An´alise de Dados Discretos

4

categorizadas em intervalos e tratadas, ent˜ao, como vari´aveis categ´oricas. A vari´avel peso, por exemplo, pode ser categorizada em “obeso” e “n˜ao-obeso” ou, ainda, em intervalos tais como < 60kg, [60, 100)kg, [100, 150)kg e ≥ 150kg.

1.2

Dados Obtidos nos Delineamentos Amostrais Em um problema estat´ıstico ´e, inicialmente, conveniente diferenciar os tipos de

vari´aveis observadas entre (i) vari´aveis resposta e (ii) vari´aveis explanat´orias ou fatores (as quais afetam a resposta). Em um dado problema fazer essa distin¸ca˜o depende do delineamento e do prop´osito da investiga¸ca˜o. Os estudos observacionais, estudos experimentais e levantamentos amostrais s˜ao, de um modo geral, os delineamentos amostrais mais comuns e estes conduzem, respectivamente, a obten¸ca˜o de: a) dados hist´oricos, b) dados experimentais e c) dados de levantamentos amostrais. 1.2.1

Dados hist´ oricos Dados hist´oricos s˜ao dados observacionais o que significa que a popula¸ca˜o em

estudo tem uma defini¸ca˜o geogr´afica ou circunstancial. Dados dessa natureza s˜ao, por exemplo, todas as ocorrˆencias de uma doen¸ca em uma regi˜ao espec´ıfica ou, todas as crian¸cas que freq¨ uentam uma particular escola prim´aria. Os dados hist´oricos n˜ao envolvem aleatoriza¸ca˜o para a sua obten¸ca˜o e, sendo assim, ´e dif´ıcil assumir que eles sejam representativos de uma dada popula¸ca˜o. 1.2.2

Dados experimentais Dados experimentais s˜ao obtidos de estudos que envolvam a aloca¸ca˜o aleat´oria

dos indiv´ıduos a, por exemplo, diferentes tratamentos. Outros exemplos s˜ao: estudos em que diferentes fertilizantes (ou diferentes dosagens de um fertilizante) s˜ao aplicados em a´reas distintas de uma cultura ou, ainda, estudos em que diferentes dosagens de uma droga terapˆeutica s˜ao aplicadas a grupos distintos de indiv´ıduos.

Giolo, S. R. 1.2.3

An´alise de Dados Discretos

5

Dados de levantamentos amostrais Em estudos dessa natureza, indiv´ıduos s˜ao aleatoriamente escolhidos de uma

grande popula¸ca˜o de interesse. O censo por amostragem, em que a cada 10 casas entrevistadas, 1 delas responde a um question´ario mais detalhado, ´e um exemplo desse tipo de estudo.

Alguns delineamentos amostrais podem tamb´em ser a combina¸ca˜o de um levantamento amostral e um estudo experimental. Pesquisadores podem, por exemplo, selecionar aleatoriamente uma popula¸ca˜o e, ent˜ao, designar aleatoriamente tratamentos aos indiv´ıduos sob estudo. Note que a unidade de aleatoriza¸ca˜o pode ser, dentre outros, um indiv´ıduo ou um grupo de indiv´ıduos. Al´em da escala de mensura¸ca˜o e do delineamento amostral, deve-se tamb´em considerar se os dados s˜ao suficientes para assegurar a teoria assint´otica exigida por muitos testes. Muitas vezes pode-se ter um total amostral muito pequeno ou, ent˜ao, um n´ umero grande de caselas com contagens zeros, ou muito pequenas, que tornam as suposi¸co˜es assint´oticas question´aveis.

Algumas estrat´egias de an´alise de dados categ´oricos ser˜ao, portanto, tratadas nesse material. Ser´a considerado, inicialmente, a an´alise de tabelas de contingˆencia 2 × 2, estendendo-se, ent˜ao, para tabelas s × 2, 2 × r e s × r. Ser´a visto que muitas quest˜oes sobre dados categ´oricos podem ser respondidas por meio do estabelecimento de hip´oteses de associa¸ca˜o. Para, no entanto, descrever a natureza dessa associa¸ca˜o, quando presente nos dados, bem como os padr˜oes dessa associa¸ca˜o, modelos estat´ısticos ser˜ao usados. Dentre os poss´ıveis modelos, utilizados na an´alise de dados categ´oricos, encontram-se: os modelos log-lineares, a regress˜ao log´ıstica e a regress˜ao Poisson.

2

ˆ TABELAS DE CONTINGENCIA 2×2 Considere a tabela de contingˆencia apresentada na Tabela 3, a qual ´e uma maneira

comum de resumir e representar dados categ´oricos. Tabela 3. Tabela de contingˆencia s = 2 × r = 2. Coluna Linha

A

A

n11

n12

n1+

B

n21

n22

n2+

Totais

n+1

n+2

n

B

Totais

Pela Tabela 3 pode-se observar freq¨ uˆencias, representadas por n11 , · · · , n22 , n1+ , · · · , n+2 e n, associadas a`s diversas caselas. Os totais n1+ , n2+ , n+1 e n+2 s˜ao denominados totais marginais e n total ou tamanho amostral. Esses totais, ao serem considerados no delineamento amostral como fixos ou aleat´orios, indicam o modelo probabil´ıstico a ser considerado.

2.1

Modelo produto de Binomiais independentes Se, por exemplo, o experimento for realizado de modo que n1+ e n2+ sejam

amostras aleat´orias obtidas de dois grupos independentes e de tamanhos fixos (isto ´e, de tamanhos estabelecidos antes da execu¸ca˜o do experimento), tem-se duas distribui¸co˜es binomiais independentes associadas a` Tabela 3, uma para cada linha. O modelo probabil´ıstico associado a` Tabela 3, nessa situa¸ca˜o, ser´a, portanto, o modelo produto de binomiais independentes de modo a ter-se:

Giolo, S. R.

7

An´alise de Dados Discretos

i) uma vari´avel aleat´oria N11 com distribui¸ca˜o Bin(n1+ , p11 ) associada a 1a linha da tabela e, ii) outra vari´avel aleat´oria N21 , independente da primeira, com distribui¸ca˜o Bin(n2+ , p21 ) associada a 2a linha desta mesma tabela em que, p11 ´e a probabilidade de qualquer indiv´ıduo pertencente a` 1a linha ser classificado na 1a coluna e, analogamente, p21 ´e a probabilidade de qualquer indiv´ıduo pertencente a` 2a linha ser classificado na 1a coluna. Observe que

2 X

p1j = 1 e

j=1

2 X

p2j = 1.

j=1

Assim, tem-se que a distribui¸ca˜o associada a` Tabela 3 ´e o produto de Binomias independentes descrita pela fun¸ca˜o de probabilidade:

P (N11 = n11 , N21 = n21 ) =

2 Y

i=1

2.2

(

ni+ !

n

2 Y pijij

j=1

nij !

)

.

(1)

Modelo Multinomial Se, no entanto, o experimento for realizado de modo que apenas n seja uma

amostra aleat´oria de tamanho fixo tem-se, associado a` Tabela 3, a distribui¸ca˜o Multinomial descrita pela fun¸ca˜o de probabilidade: P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) = P (Nij = nij ) n 2 Y pijij = n! i,j=1 nij! sendo,

2 X

i,j=1

2.3

nij = n e

2 X

(2)

pij = 1.

i,j=1

Modelo Produto de Poisson Em alguns experimentos pode ocorrer de nenhum dos tamanhos amostrais serem

fixos. Um exemplo, desses experimentos, ´e o da coleta de insetos em armadilhas adesivas de duas cores, descrito em Silveira Neto et al. (1976) e Dem´etrio (2001), e apresentado na Tabela 4, em que os indiv´ıduos coletados de uma determinada esp´ecie foram sexados,

Giolo, S. R.

8

An´alise de Dados Discretos

com o fim de se verificar a influˆencia da cor da armadilha sobre a atra¸ca˜o de machos e fˆemeas dessa esp´ecie. Tabela 4. N´ umero de insetos coletados em armadilhas e sexados Sexo Armadilha

Machos

Fˆemeas

Total

Alaranjada

246

17

263

Amarela

458

32

490

Total

704

49

753

Nesse experimento, o n´ umero de insetos que chegam a`s armadilhas, seja macho ou fˆemea, ´e um n´ umero (contagem) aleat´orio, caracterizando, assim, a distribui¸ca˜o de Poisson. Assume-se, ent˜ao, que Nij ∼ Poisson(λij ) independentes, i, j = 1, 2, de modo que associado a` Tabela 4, tem-se a distribui¸ca˜o Produto de Poisson descrita pela fun¸ca˜o de probabilidade: n

P (Nij = nij ) =

2 Y 2 Y e−λij λijij

i=1 j=1

nij !

(3)

em que λij > 0.

2.4

Modelo Hipergeom´ etrico O modelo hipergeom´etrico ´e comum, por exemplo, em experimentos em que

pacientes s˜ao alocados aleatoriamente a dois tratamentos considerados equivalentes observando-se, nesses pacientes, uma resposta bin´aria (dicotˆomica). Sob a hip´otese de que os efeitos dos dois tratamentos s˜ao iguais para cada paciente, a distribui¸ca˜o hipergeom´etrica ´e considerada. Nessas situa¸co˜es considera-se, portanto, que n1+ , n2+ e n+1 s˜ao fixos. A fixa¸ca˜o de ambas as margens da tabela provocada pelo condicionamento em n1+ , n2+ e n+1 , leva a que qualquer uma, por exemplo n11 , das 4 freq¨ uˆencias determine as restantes. Assim, N11 tem distribui¸ca˜o Hipergeom´etrica com fun¸ca˜o de probabilidade expressa por:

Giolo, S. R.

9

An´alise de Dados Discretos

P (N11

C n1+ C n2+ = n11 ) = n11 n n21 = Cn+1

2 Y

ni+ !

i=1

n!

2 Y

j=1 2 2 YY

n+j ! .

(4)

nij !

i=1 j=1

Em s´ıntese tem-se: Tabela 5. Modelos probabil´ısticos associados a`s tabelas de contingˆencia 2 × 2. Tamanho amostral n

Totais marginais ni+

Totais marginais n+j

Modelo probabil´ıstico associado

aleat´orio

aleat´orios

aleat´orios

Produto de Poisson

fixo

aleat´orios

aleat´orios

Multinomial

fixo

fixos

aleat´orios

Produto de Binomias

fixo

fixos

fixos (por hip´otese)

Hipergeom´etrico

Na se¸ca˜o 2.5 s˜ao apresentados alguns estudos freq¨ uentes e respectivos modelos probabil´ısticos associados.

2.5 2.5.1

Estudos freq¨ uentes e modelos probabil´ısticos associados Estudos de Coorte Ao conduzir um estudo de Coorte, muito comum em medicina, o pesquisador

tem por interesse, por exemplo, verificar se indiv´ıduos expostos a um determinado fator tem, ou n˜ao, mais propens˜ao a desenvolver determinada doen¸ca. Ao contr´ario do estudo Caso-Controle, descrito adiante, em que s˜ao escolhidos um grupo de indiv´ıduos com a doen¸ca e outro grupo de indiv´ıduos livres da mesma, um estudo de Coorte ´e constitu´ıdo, em seu in´ıcio, de um grupo de indiv´ıduos, denominada Coorte, em que todos est˜ao livres da doen¸ca sob investiga¸ca˜o. Os indiv´ıduos dessa Coorte s˜ao ent˜ao classificados em expostos e n˜ao-expostos ao fator de interesse, obtendo-se assim dois grupos (ou duas Coortes de compara¸ca˜o) que ser˜ao ent˜ao observados por um per´ıodo de tempo

Giolo, S. R.

An´alise de Dados Discretos

10

verificando-se quais indiv´ıduos desenvolveram a doen¸ca em quest˜ao. Os indiv´ıduos expostos e n˜ao-expostos devem ser compar´aveis, ou seja, semelhantes quanto aos demais fatores, que n˜ao o de interesse, para que os resultados obtidos sejam confi´aveis. O termo Coorte ´e ent˜ao usado para descrever um grupo de indiv´ıduos que tˆem algo em comum ao serem reunidos e que s˜ao observados por um determinado per´ıodo para que se possa verificar o que ocorre com eles. ´ importante que todos os indiv´ıduos sejam observados por todo o per´ıodo de E seguimento, j´a que informa¸co˜es de uma Coorte incompleta podem distorcer o verdadeiro estado das coisas. Por outro lado, o per´ıodo de tempo em que os indiv´ıduos ser˜ao observados deve ser significativo na hist´oria natural da doen¸ca em quest˜ao para que haja tempo suficiente de o risco se manifestar. Doen¸cas com per´ıodo de latˆencia longa exigir˜ao per´ıodos longos de observa¸ca˜o. Entenda-se por hist´oria natural da doen¸ca sua evolu¸ca˜o sem interven¸ca˜o m´edica e por per´ıodo de latˆencia o tempo entre a exposi¸ca˜o ao fator e as primeiras manifesta¸co˜es da doen¸ca. Outros nomes, geralmente usados para os estudos de Coorte s˜ao: • longitudinal: enfatizando que os indiv´ıduos s˜ao acompanhados ao longo do tempo; • prospectivo: subentendendo a dire¸ca˜o em que os indiv´ıduos s˜ao acompanhados; • de incidˆencia: chamando aten¸ca˜o para a medida b´asica de novos eventos de doen¸ca no tempo de seguimento. Quanto a` forma de coleta das informa¸co˜es dos indiv´ıduos pertencentes a` Coorte sob investiga¸ca˜o, pode-se ainda classificar os estudos de Coorte em: estudos de Coorte Contemporˆaneo e estudos de Coorte Hist´orica. Em um estudo de Coorte Contemporˆaneo, os indiv´ıduos s˜ao escolhidos no presente e acompanhados no futuro. Em uma Coorte Hist´orica, os indiv´ıduos s˜ao escolhidos em registros do passado e acompanhados daquele per´ıodo at´e o presente. Informa¸co˜es provenientes de Coortes Hist´oricas s˜ao freq¨ uentemente coletadas com outros objetivos que n˜ao especificamente o de interesse e podem portanto n˜ao ter a qualidade suficiente para uma pesquisa rigorosa. O mesmo

Giolo, S. R.

11

An´alise de Dados Discretos

n˜ao ocorre com um estudo de Coorte Contemporˆaneo, uma vez que os dados s˜ao coletados especificamente para atender aos objetivos do estudo. Os estudos de Coorte s˜ao menos propensos aos v´ıcios que podem ocorrer nos estudos Caso-Controle e s˜ao os mais indicados para o estudo de riscos quando a experimenta¸ca˜o n˜ao ´e poss´ıvel. Nos estudos de Coorte ´e poss´ıvel responder a seguinte quest˜ao: ”quantas vezes a probabilidade de os indiv´ıduos expostos adquirirem a doen¸ca ´e maior do que a probabilidade de os indiv´ıduos n˜ao-expostos adquirirem a doen¸ca?”. As principais dificuldades para a realiza¸ca˜o de um estudo de Coorte s˜ao: (a) ´e um estudo mais demorado e que envolve custos elevados pelos recursos necess´arios para acompanhar muitos indiv´ıduos ao longo do tempo estabelecido; (b) n˜ao disponibiliza resultados a curto prazo; (c) os indiv´ıduos sob estudo vivem livremente e n˜ao sob controle do pesquisador e; (d) n˜ao ´e vi´avel para doen¸cas raras. Na Tabela 6 encontra-se o resultado de um estudo de coorte realizado para pesquisar a associa¸ca˜o de cˆancer de pulm˜ao ao tabagismo. Tabela 6. Resultado de um estudo de coorte realizado para pesquisar a associa¸ca˜o do tabagismo e cˆancer de pulm˜ao

Fumante

Cˆancer de Pulm˜ao Sim N˜ao

Totais

Sim

75

45

120

N˜ao

21

56

77

Totais

197

Note que os totais marginais n1+ e n2+ s˜ao fixos e, portanto, tem-se associado a` Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha da tabela.

Giolo, S. R. 2.5.2

An´alise de Dados Discretos

12

Estudos Caso-Controle Embora o objetivo de um estudo Caso-Controle seja o mesmo de um estudo de

Coorte, ou seja, descobrir se a exposi¸ca˜o a um determinado fator est´a associada ao desenvolvimento da doen¸ca sob estudo, os mesmos diferem essencialmente quanto a` forma de sele¸ca˜o e coleta de informa¸co˜es dos indiv´ıduos. Nestes estudos, o pesquisador seleciona um grupo de indiv´ıduos com uma determinada doen¸ca de interesse, denominados “casos”, e outro grupo de indiv´ıduos livre da doen¸ca, os “controles”. Fatores associados a um risco aumentado de adoecer s˜ao denominados “fatores de risco”; exposi¸ca˜o a um fator de risco significa que uma pessoa, antes de adoecer, esteve em contato com o fator em quest˜ao ou o manifestou. A validade dos resultados destes estudos est´a condicionada principalmente a` forma de sele¸ca˜o dos indiv´ıduos. Os casos devem ser preferencialmente novos e n˜ao os j´a existentes e os controles devem ser compar´aveis aos casos, isto ´e, todas as diferen¸cas importantes, que n˜ao o fator de interesse, devem ser controladas quando da escolha desses indiv´ıduos. Em outras palavras, casos e controles devem parecer ter tido chances iguais de terem sido expostos ao fator em quest˜ao. Os controles s˜ao, em geral, escolhidos segundo alguma estrat´egia que possa minimizar os v´ıcios de sele¸ca˜o. Uma dessas estrat´egias ´e a dos casos emparelhados aos controles, isto ´e, para cada caso, um ou mais controles com caracter´ısticas comuns aos ´ comum emparelhar por caracter´ısticas demogr´aficas (idade, casos s˜ao selecionados. E sexo, ra¸ca), por´em deve-se tamb´em emparelhar por outras reconhecidamente importantes. O emparelhamento apresenta contudo um risco, a de o pesquisador emparelhar por um fator que est´a relacionado a` exposi¸ca˜o. Outra estrat´egia poss´ıvel ´e escolher mais de um grupo de controle. A compara¸ca˜o dos resultados dos casos com cada um dos grupos de controle selecionados pode trazer a` tona potenciais v´ıcios pois, se resultados diferentes forem observados na compara¸ca˜o dos casos com os diferentes grupos controle, h´a evidˆencias de que os grupos s˜ao n˜ao compar´aveis. Muita aten¸ca˜o e cuidado s˜ao necess´arios quando da sele¸ca˜o dos casos e controles para que a comparabilidade entre os grupos possa ser assegurada. Aten¸ca˜o tamb´em deve ser dada ao n´ umero de

Giolo, S. R.

13

An´alise de Dados Discretos

indiv´ıduos sob estudo. Este deve ser suficiente para que o acaso n˜ao interfira em demasia nos resultados. Uma vez selecionados os casos e controles verifica-se, para cada indiv´ıduo, sua exposi¸ca˜o, ou n˜ao, ao fator sob investiga¸ca˜o. O pesquisador geralmente se utiliza para este fim de informa¸co˜es passadas, dependendo assim da disponibilidade e qualidade dos registros (protocolos) ou da mem´oria dos pacientes. Evidentemente, isto pode ocasionar v´ıcios no estudo. Por utilizar-se de informa¸co˜es passadas, os estudos Caso-Controle s˜ao tamb´em denominados retrospectivos. As principais vantagens destes estudos s˜ao o custo e o tempo envolvidos para a obten¸ca˜o da resposta. Estes s˜ao relativamente pequenos quando comparados aos de outros estudos, como por exemplo, o estudo de Coorte discutido anteriormente. Por outro lado, tais estudos apresentam um particular problema, o de resultados propensos a v´ıcios devido principalmente a poss´ıvel manipula¸ca˜o, pelos investigadores, dos grupos de compara¸ca˜o e por a exposi¸ca˜o ao fator de interesse ser medida por meio de informa¸co˜es passadas. Se aten¸ca˜o apropriada for dada a`s poss´ıveis fontes de v´ıcios, estudos Caso-Controle podem ser v´alidos e eficientes para responder a muitas quest˜oes cl´ınicas, em particular aquelas envolvendo doen¸cas raras. Do ponto de vista te´orico, os estudos de coorte s˜ao mais adequados do que os de caso-controle. Os estudos caso-controle s˜ao, contudo, mais usados por envolverem menor custo e menor tempo para a coleta das informa¸co˜es. Na Tabela 7 encontram-se os resultados do mesmo estudo apresentado na Tabela 6 realizado, no entanto, como um estudo caso-controle. Tabela 7. Resultados de um estudo caso-controle realizado para pesquisar a associa¸ca˜o do tabagismo e cˆancer de pulm˜ao

Fumante

Grupos Casos: com cˆancer Controles: sem cˆancer

Sim

75

45

N˜ao

21

56

Totais

96

101

Totais

197

Giolo, S. R.

An´alise de Dados Discretos

14

Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+ . Para a Tabela 7 temse, tamb´em, o modelo Produto de Binomiais independentes, uma Binomial, contudo, para cada coluna da respectiva tabela. 2.5.3

Estudos cross-sectional ou tranversais Em estudos transversais coletam-se simultaneamente, de um grupo ou popula¸ca˜o

de indiv´ıduos, informa¸co˜es sobre uma variedade de caracter´ısticas que s˜ao posteriormente cruzadas em uma tabela de contingˆencia. Esta coleta ´e realizada em um u ´nico ponto no tempo e, freq¨ uentemente, o pesquisador n˜ao sabe o que ocorreu antes deste ponto. A obten¸ca˜o da prevalˆencia da doen¸ca, ou seja, da propor¸ca˜o do grupo com a doen¸ca no ponto em que se realizou a coleta ´e um dos objetivos destes estudos. Constitui outro interesse, em geral, a investiga¸ca˜o de potenciais rela¸co˜es causais entre os fatores suspeitos serem de risco e a doen¸ca. Os estudos transversais podem ser vistos como avalia¸co˜es fotogr´aficas de grupos ou popula¸co˜es de indiv´ıduos. O termo transversal ´e usado para indicar que os indiv´ıduos s˜ao estudados em um ponto no tempo (corte transversal). O interesse est´a em avaliar a associa¸ca˜o entre as respostas obtidas. Nesses estudos ´e comum considerar algumas das vari´aveis como “fatores”. Um exemplo ´e o de um estudo realizado com crian¸cas para determinar se elas apresentavam sintomas de doen¸cas respirat´orias. Um total de n = 1080 crian¸cas foram examinadas anotando-se, para cada uma, o sexo e se apresentavam, ou n˜ao, os sintomas. Os resultados s˜ao mostrados na Tabela 8. Note que apenas n ´e fixo e, desse modo, tem-se a distribui¸ca˜o multinomial associada a` Tabela 8 2.5.4

Ensaios cl´ınicos aleatorizados Esses estudos s˜ao realizados com o objetivo de comparar tratamentos. Os in-

div´ıduos s˜ao alocados aleatoriamente ou ao grupo controle (tratamento padr˜ao) ou ao

Giolo, S. R.

15

An´alise de Dados Discretos

Tabela 8. Resultado de um estudo transversal sobre doen¸cas respirat´orias em crian¸cas. S´ıntomas Sexo

Sim

N˜ao

Totais

Feminino

355

125

480

Masculino

410

190

600

Totais

765

315

1080

grupo tratamento (tratamento alternativo). Um exemplo ´e mostrado na Tabela 9. Tabela 9. Resultados de um ensaio cl´ınico realizado para comparar dois medicamentos usados no tratamento de infec¸co˜es respirat´orias severas.

Tratamento

Resposta Favor´avel N˜ao favor´avel

Totais

Novo

29

16

45

Padr˜ao

14

31

45

Totais

43

47

90

Observe que nos ensaios cl´ınicos o pesquisador interfere deliberadamente no curso natural dos acontecimentos, ou seja, imp˜oe um tratamento. Nos outros tipos de estudos (coorte, caso-controle e transversal) o pesquisador n˜ao interfere no curso natural dos acontecimentos, apenas observa. Como n1+ e n2+ s˜ao fixos, a distribui¸ca˜o produto de Binomias independentes est´a associada a` Tabela 9.

Nos estudos de Coorte e nos ensaios cl´ınicos os indiv´ıduos apresentam no in´ıcio do experimento a mesma condi¸ca˜o cl´ınica. S˜ao ent˜ao acompanhados por um per´ıodo de tempo para observa¸ca˜o de ocorrˆencia de casos novos (por exemplo, de doen¸ca, de cura etc). Nesses estudos (coorte e ensaios cl´ınicos) ´e poss´ıvel a obten¸ca˜o de uma medida denominada incidˆencia. A incidˆencia (seja de doen¸ca, de cura etc.) ´e

Giolo, S. R.

16

An´alise de Dados Discretos

definida como a propor¸ca˜o de indiv´ıduos em um determinado grupo que desenvolve a resposta de interesse ao longo do tempo de observa¸ca˜o, isto ´e,

Incidˆencia =

indiv´ıduos que apresentaram resposta positiva no per´ıodo de observa¸ca˜o . total de indiv´ıduos no in´ıcio do experimento

Nos estudos transversais, indiv´ıduos s˜ao, em um u ´nico ponto no tempo, investigados quanto a uma determinada resposta de interesse. Alguns dos indiv´ıduos neste ponto do tempo apresentar˜ao a resposta e outros n˜ao. N˜ao ´e observado portanto casos novos ao longo do tempo. A medida adequada aqui ´e a prevalˆencia, isto ´e, a propor¸ca˜o de indiv´ıduos do grupo com resposta positiva naquele ponto espec´ıfico do tempo, isto ´e, Prevalˆencia =

2.6

indiv´ıduos com a resposta em determinado ponto no tempo . indiv´ıduos pesquisados em determinado ponto no tempo

Estat´ısticas de teste e Medidas de Associa¸c˜ ao Considere os dados apresentados na Tabela 1 referente a um ensaio cl´ınico

aleatorizado realizado para comparar dois medicamentos.

A quest˜ao de interesse,

nesse caso, ´e se as taxas de melhora para o placebo e para o novo medicamento s˜ao as mesmas. Essa quest˜ao pode ser respondida testando se existe associa¸ca˜o entre o tipo de tratamento e a resposta do paciente, ou seja, testando-se a hip´otese nula:

H0 : N˜ao existe associa¸ca˜o entre tratamento e resposta do paciente.

Existem v´arias maneiras (m´etodos) de se testar a hip´otese H0 , muitas delas baseadas na distribui¸ca˜o Qui-quadrado, outras na distribui¸ca˜o hipergeom´etrica ou, ainda, em outras distribui¸co˜es. Esses m´etodos s˜ao tratados nas se¸co˜es a seguir.

Giolo, S. R. 2.6.1

17

An´alise de Dados Discretos

Estat´ısticas Qui-Quadrado No estudo experimental que produziu os dados da Tabela 1, os totais marginais n1+

e n2+ s˜ao fixos pois, 60 pacientes foram alocados aleatoriamente a um dos tratamentos (placebo) e 64 ao outro tratamento. Sob a hip´otese nula de n˜ao existˆencia de diferen¸ca entre os tratamentos, os totais marginais n+1 e n+2 s˜ao tamb´em considerados fixos e, portanto, sob H0 , a distribui¸ca˜o de probabilidade associada ´e a hipergeom´etrica. Assim, o valor esperado de nij ´e: E(Nij | H0 ) =

(ni+ ) (n+j ) = mij n

e a variˆancia: V (Nij | H0 ) =

(n1+ ) (n2+ ) (n+1 ) (n+2 ) = vij . n2 (n − 1)

Para uma amostra suficientemente grande, n11 tem aproximadamente uma distribui¸ca˜o Normal, o que implica que: Q=

(n11 − m11 )2 v11

(5)

tem aproximadamente uma distribui¸ca˜o Qui-quadrado com um grau de liberdade. N˜ao importa como as linhas e colunas s˜ao arranjadas, Q assumir´a sempre o mesmo valor uma vez que: | n11 − m11 | = | nij − mij | =

| n11 n22 − n12 n21 | . n

Uma estat´ıstica relacionada a Q ´e a estat´ıstica de Pearson dada por:

QP =

2 2 X X (nij − mij )2 i=1 j=1

mij

=

n Q. (n − 1)

(6)

Se as contagens (freq¨ uˆencias) nas caselas forem suficientemente grandes, QP segue a distribui¸ca˜o Qui-quadrado com um grau de liberdade.

Ainda, quando n

cresce, QP e Q convergem. Uma regra u ´til para determinar o tamanho amostral adequado para Q e QP ´e que o valor esperado mij seja maior que 5 para todas as caselas.

Giolo, S. R. Obs:

An´alise de Dados Discretos

18

As estat´ısticas Q e Qp s˜ao tamb´em apropriadas para testar a hip´otese

nula de n˜ao associa¸ca˜o em estudos em que se tenham asssociados os modelos probabil´ısticos Multinomial e produto de Poisson. 2.6.2

Testes Exatos Muitas vezes, contudo, as freq¨ uˆencias observadas nas caselas da tabela s˜ao muito

pequenas inviabilizando, assim, o uso da distribui¸ca˜o Qui-quadrado. M´etodos exatos baseados na distribui¸ca˜o hipergeom´etrica s˜ao usados, nessas situa¸co˜es, para testar a hip´otese de associa¸ca˜o. O teste exato de Fisher, em que o valor p ´e determinado somando-se as probabilidades das tabelas que s˜ao pouco prov´aveis, dado que as marginais s˜ao fixas, ´e, ent˜ao, utilizado. 2.6.3

Diferen¸ca nas propor¸co ˜es Estabelecida a associa¸ca˜o entre as linhas e colunas de uma tabela de contingˆencia

2 × 2, pode-se ter interesse em descrever essa associa¸ca˜o. Por exemplo, estimar as diferen¸cas de propor¸co˜es, somente poss´ıvel nas tabelas em que as marginais n1+ e n2+ s˜ao fixas. Assim, se os dois grupos s˜ao amostras aleat´orias com probabilidades de sucesso π11 e π21 , respectivamente, e h´a interesse em estimar a diferen¸ca de propor¸co˜es d = p11 −p21 , em que o valor esperado ´e: E[p11 − p21 ] = π11 − π21 e a variˆancia V [p11 − p21 ] =

π11 (1 − π11 ) π21 (1 − π21 ) + , n1+ n2+

para a qual um estimador n˜ao-viciado ´e: v[p11 − p21 ] =

p11 (1 − p11 ) p21 (1 − p21 ) + , n1+ − 1 n2+ − 1

Giolo, S. R.

19

An´alise de Dados Discretos

tem-se o seguinte intervalo para (π11 − π21 ), a um n´ıvel de confian¸ca (1-α)%: d ± zα/2



1 1 1 v+ + 2 n1+ n2+

!!

.

em que zα/2 denota o 100(1 − α/2) percentil da distribui¸ca˜o Normal padr˜ao. Exemplo: Para os dados da Tabela 1 tem-se: Q = 21,53 (p < 0,0001) e Qp = 21,7 (p < 0,0001). Ambas as estat´ısticas s˜ao claramente significativas e, portanto, h´a uma forte associa¸ca˜o entre o tratamento e a resposta do paciente. Como se trata de um experimento em que as marginais n1+ e n2+ s˜ao fixas, tem-se que a diferen¸ca estimada entre as propor¸co˜es ´e de d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo, ao n´ıvel de 95% de confian¸ca, dado por: I.C.95% (d) = 0,417 ± 0,177 = (0,24; 0,594). Conclui-se, portanto, que o novo tratamento ´e significativamente superior ao placebo. 2.6.4

Risco relativo e odds ratio (raz˜ ao de chances) A odds ratio (OR) ´e uma medida que descreve o “grau”(intensidade) de asso-

cia¸ca˜o em uma tabela 2 × 2 e ´e calculada por: OR =

n11 /n12 n11 n22 = . n21 /n22 n12 n21

Esta medida pode ser usada em qualquer tipo de estudo e varia de 0 a infinito. Quando OR = 1, n˜ao existe associa¸ca˜o entre as vari´aveis. Se, no entanto, OR > 1, o grupo 1 apresenta chance (odds) maior de ter a resposta do que o grupo 2. Conseq¨ uentemente, se OR < 1, o grupo 1 apresenta chance menor de ter a resposta do que o grupo 2. Para a obten¸ca˜o de um I.C. para a OR, toma-se o logaritmo da mesma (na base e), isto ´e, f = log(OR), cuja variˆancia estimada ´e: V (f ) =

!

1 1 1 1 + + + . n11 n12 n21 n22

Assim, um I.C. para a OR, ao n´ıvel 100(1-α)% de confian¸ca ´e dado por: 

q

I.C.(OR) = exp f ± zα/2 V (f )



em que zα/2 denota o 100(1 − α/2) percentil da distribui¸ca˜o Normal padr˜ao.

Giolo, S. R.

20

An´alise de Dados Discretos

Para estudos prospectivos (Coorte e ensaios cl´ınicos), uma outra quantidade chamada risco relativo pode tamb´em ser obtida. O risco relativo (RR) fornece o risco de desenvolvimento de uma determinada condi¸ca˜o (freq¨ uentemente uma doen¸ca) para um grupo comparado a outro grupo. Esta medida ´e expressa por: RR =

p11 p21

e pode ser mostrado que: "

#

1 + (n21 /n22 ) RR = OR × . 1 + (n11 /n12 ) Logo, a OR se aproxima do RR quando n11 e n21 s˜ao pequenos relativamente a n12 e n22 , respectivamente. Essa situa¸ca˜o se verifica para o caso de doen¸cas raras. Um I.C. para o RR ´e tamb´em obtido tomando-se o logaritmo do RR (na base e), isto ´e, f ∗ = log(RR) = log(p11 ) − log(p21 ) cuja variˆancia ´e dada por: V (f ∗ ) =

(1 − p11 ) (1 − p21 ) + (n1+ ) (p11 ) (n2+ ) (p21 )

e, portanto, um I.C. para o RR, ao n´ıvel 100(1-α)% de confian¸ca ´e dado por: 

q

I.C.(RR) = exp f ∗ ± zα/2 V (f ∗ )



em que, zα/2 denota o 100(1 − α/2) percentil da distribui¸ca˜o Normal padr˜ao. Exemplos: Para os dados apresentados na: (i) Tabela 1: referente a um estudo realizado para testar um novo medicamento, em que 2 amostras aleat´orias foram selecionadas, e estabeleceu-se a hip´otese nula H0 : n˜ao existe associa¸ca˜o entre tratamento e a resposta do paciente, tem-se. Q = 21, 53 (p < 0, 0001) e Qp = 21, 7 (p < 0, 0001) d(novo−placebo) = (0, 667 − 0, 25) = 0, 417 IC(d)(95%) = (0, 24; 0, 594) RRnovo|placebo = 2, 67 IC(RR)(95%) = (1, 68; 4, 22)

Giolo, S. R.

An´alise de Dados Discretos

21

Com base nesses resultados pode-se concluir, portanto, que tratamento e resposta do paciente est˜ao associados e, desse modo, as taxas de melhora para o placebo e para o novo medicamento n˜ao s˜ao as mesmas. Para o novo medicamento estima-se que 41,7% a mais dos pacientes, em rela¸ca˜o ao placebo, apresentem melhora, estimativa esta que pode variar, ao n´ıvel de confian¸ca de 95%, entre 24% e 59,4%. Pode-se, ainda, concluir que os pacientes submetidos ao novo medicamento s˜ao 2,67 vezes mais prov´aveis a apresentarem melhora do que os pacientes que recebem placebo, podendo esta estimativa, ao n´ıvel de confian¸ca de 95%, variar entre 1,68 a 4,22 vezes. O novo medicamento ´e, portanto, recomend´avel.

(ii) Tabela 4:

referente a um estudo realizado para verificar a influˆencia da

cor da armadilha sobre a atra¸ca˜o de machos e fˆemeas de modo que H0 : n˜ao existe associa¸ca˜o entre a cor da armadilha e sexo, tem-se: Q = 0, 0013 (p = 0, 9718) e Qp = 0, 0013 (p = 0, 9718) OR = 1, 011 IC(OR)(95%) = (0, 55; 1, 857) N˜ao h´a, portanto, evidˆencias estat´ısticas para a rejei¸ca˜o da hip´otese nula e, desse modo, pode-se concluir que a atra¸ca˜o de machos e fˆemeas n˜ao ´e influenciada pela cor da armadilha. A atra¸ca˜o de machos e fˆemeas, da esp´ecie coletada, ´e semelhante tanto usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos, apresentam, em m´edia, atra¸ca˜o maior a`s armadilhas do que as fˆemeas.

(iii) Tabela 6: referente a um estudo de coorte realizado para pesquisar a associa¸ca˜o do tabagismo e cˆancer de pulm˜ao em que H0 : n˜ao existe associa¸ca˜o entre tabagismo e cˆancer de pulm˜ao, tem-se. Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001) d(fumantes - n˜ao fumantes) = (0, 625 − 0, 2777) = 0, 3523 IC(d)(95%) = (0, 21; 0, 495)

Giolo, S. R.

An´alise de Dados Discretos

22

RR(fumantes | n˜ao fumantes) = 2, 29 IC(RR)(95%) = (1, 55; 3, 38) A conclus˜ao, nesse exemplo, ´e de que existe associa¸ca˜o entre tabagismo e cˆancer de pulm˜ao. Para os fumantes estima-se que 35,23% a mais deles, em rela¸ca˜o aos n˜ao fumantes, desenvolver˜ao cˆancer de pulm˜ao, estimativa esta que pode variar, ao n´ıvel de confian¸ca de 95%, entre 21% e 49,5%. Pode-se, ainda, concluir que indiv´ıduos fumantes s˜ao 2,29 vezes mais prov´aveis a apresentarem cˆancer de pulm˜ao do que os n˜ao fumantes podendo esta estimativa, ao n´ıvel de confian¸ca de 95%, variar entre 1,55 a 3,38 vezes. O tabagismo pode, portanto, ser considerado um fator de risco para o cˆancer de pulm˜ao.

(iv) Tabela 7:

referente a um caso-controle realizado para pesquisar a asso-

cia¸ca˜o do tabagismo e cˆancer de pulm˜ao em que H0 : n˜ao existe associa¸ca˜o entre tabagismo e cˆancer de pulm˜ao. Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001) OR = 4, 44 IC(OR)(95%) = (2, 37; 8, 28) Conclui-se, portanto, que tabagismo e cˆancer de pulm˜ao est˜ao associados, ou seja, as taxas de desenvolvimento de cˆancer de pulm˜ao para fumantes e n˜ao fumantes diferem. A chance dos indiv´ıduos que fumam apresentarem a doen¸ca ´e 4,44 vezes maior do que a chance dos que n˜ao fumam, chance esta que, ao n´ıvel de confian¸ca de 95%, pode variar entre 2,37 e 8,28 vezes.

(v) Tabela 8:

referente a um estudo transversal sobre doen¸cas respirat´orias

realizado com crian¸cas em que deseja-se saber se sexo e doen¸cas respirat´orias est˜ao associadas. A hip´otese nula a ser considerada ´e H0 : n˜ao existe associa¸ca˜o entre sexo e doen¸cas respirat´orias e, para test´a-la, obteve-se:

Giolo, S. R.

An´alise de Dados Discretos

23

Q = 4, 0803 (p = 0, 0434) e Qp = 4, 084 (p = 0, 0433) OR(f eminino|masculino) = 1, 3161 IC(OR)(95%) = (1, 008; 1, 718) Com base nos resultados obtidos, e considerando-se um n´ıvel de significˆancia de 5%, pode-se concluir que existe associa¸ca˜o entre sexo e doen¸cas respirat´orias, ou seja, as taxas de doen¸cas respirat´orias em crian¸cas do sexo feminino e masculino diferem. Observe, contudo, que a OR estimada n˜ao se encontra t˜ao distante do valor 1 (que indicaria chances iguais para ambos os sexos). Este fato mostra que a chance das crian¸cas do sexo feminino apresentarem doen¸cas respirat´orias, n˜ao ´e t˜ao maior do que a das crian¸cas do sexo masculino. Essa chance ´e de 1,31 vezes podendo, ao n´ıvel de confian¸ca de 95%, variar entre 1,008 e 1,718 vezes.

(vi) Tabela 9: referente a um ensaio cl´ınico realizado para comparar dois medicamentos usados no tratamento de infec¸co˜es severas. Para esse estudo tem-se H0 : n˜ao existe associa¸ca˜o entre tratamento e a resposta do paciente. Para test´a-la, os seguintes resultados das estat´ısticas de teste e medidas de associa¸ca˜o foram obtidos: Q = 9, 9085(p = 0, 0016) e Qp = 10, 02(p = 0, 0015) d(novo - padr˜ao) = (0, 6444 − 0, 3111) = 0, 3333 IC(d)(95%) = (0, 114; 0, 552) RR(novo | padr˜ao) = 2, 07 IC(RR)(95%) = (1, 27; 3, 36). Pode-se concluir, portanto, que existe associa¸ca˜o entre o tratamento e a resposta do paciente o que implica que as taxas de respostas favor´aveis para os tratamentos novo e padr˜ao diferem. Estima-se que 33,33% a mais dos pacientes que receberam o novo tratamento, em rela¸ca˜o aos que receberam o tratamento padr˜ao, apresentar˜ao resposta favor´avel, estimativa esta que pode variar, ao n´ıvel de confian¸ca de 95%, entre 11,4% e 55,2%. Conclui-se, ainda, que pacientes que receberam o novo tratamento s˜ao

Giolo, S. R.

An´alise de Dados Discretos

24

2,07 vezes mais prov´aveis a apresentarem resposta favor´avel do que os que receberam o tratamento padr˜ao, podendo esta estimativa, ao n´ıvel de confian¸ca de 95%, variar entre 1,27 a 3,36 vezes. O novo medicamento ´e, desse modo, prefer´ıvel ao medicamento padr˜ao. 2.6.5

Sensibilidade e Especificidade A sensibilidade e especificidade s˜ao outras medidas usadas em particular quando

se deseja determinar a efic´acia de um exame (teste) realizado para detectar a presen¸ca, ou n˜ao, de uma doen¸ca ou outro evento qualquer. O exame de DNA realizado para saber se o indiv´ıduo ´e, ou n˜ao, pai de uma crian¸ca ´e um exemplo desses testes. Outro exemplo ´e o do exame de AIDS realizado para saber se o sujeito ´e, ou n˜ao, soro positivo. As medidas citadas determinam a eficiˆencia desses testes em detectar a verdade. A sensibilidade ´e definida como a propor¸ca˜o de resultados positivos que um teste apresenta quando realizado em sujeitos conhecidos terem a doen¸ca, ou seja, ´e a propor¸ca˜o de verdadeiros positivos. A especificidade, por outro lado, ´e definida como a propor¸ca˜o de resultados negativos que um teste apresenta quando realizado em sujeitos conhecidos estarem livres da doen¸ca (propor¸ca˜o de verdadeiros negativos). O desejado de um exame (teste) ´e que ele tenha, simultˆaneamente, alta sensibilidade e especificidade. A sensibilidade e especificidade s˜ao tamb´em usadas para testar se um novo exame, alternativo ao j´a existente, mas de custo inferior, ´e t˜ao eficiente quanto aquele tido como o melhor na literatura. O melhor teste ´e, geralmente, referenciado na literatura como “teste ouro” ou “teste padr˜ao”. Considere a Tabela 10 representando os resultados positivos e negativos apresentados em um exame realizado em 180 pacientes. Para esses dados a sensibilidade e especificidade estimadas s˜ao, respectivamente, dadas por: Sensibilidade =

100 52 = 0, 867 e Especificidade = = 0, 833. 60 120

O exame usado apresenta, portanto, boa sensibilidade e especificidade detectando

Giolo, S. R.

25

An´alise de Dados Discretos

Tabela 10. Resultados de um exame realizado em 180 pacientes para verificar a presen¸ca, ou n˜ao, de uma doen¸ca de pele.

Status

Resultado do exame + -

Totais

Doen¸ca presente

52

8

60

Doen¸ca ausente

20

100

120

em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou, contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos = 8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erroneamente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordˆancia (poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados positivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados negativos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%). Seria, desse modo, recomend´avel que o teste fosse realizado mais de uma vez, em cada paciente, para evitar que um paciente doente n˜ao seja tratado ou que, um paciente livre da doen¸ca seja tratado indevidamente. Se, contudo, o medicamento a ser utilizado n˜ao apresenta efeitos colaterais, recomenda-se um segundo teste somente para os pacientes que apresentarem resultado negativo. Como cada doen¸ca apresenta suas peculiaridades, deve-se analisar, para cada uma delas, o que ´e de fato relevante. Em determinadas situa¸co˜es, por exemplo, h´a um interesse maior em testes com alta sensibilidade e, especificidade, relativamente inferior. 2.6.6

Teste de McNemar As tabelas de contingˆencia 2 × 2 contˆem, em algumas situa¸co˜es, informa¸co˜es

pareadas. Por exemplo, situa¸co˜es em que s˜ao realizadas duas perguntas relacionadas

Giolo, S. R.

26

An´alise de Dados Discretos

ou, a mesma pergunta ´e feita para um par de indiv´ıduos relacionados (casal, gˆemeos etc.) ou, ainda, informa¸co˜es tomadas antes e ap´os algum acontecimento (uso de um medicamento, campanha publicit´aria etc). Nesses casos o interesse ´e testar se a propor¸ca˜o dos pares respondendo sim para a pergunta 1 ´e a mesma dos que respondem sim para a pergunta 2, ou seja, testar a hip´otese nula: H0 :

n+1 n1+ = . n n

McNemar (1947) desenvolveu um teste qui-quadrado baseado na distribui¸ca˜o binomial para testar a hip´otese citada. Ele mostra que somente os elementos fora da diagonal s˜ao importantes para determinar se existe diferen¸ca nessas propor¸co˜es. A estat´ıstica do teste ´e dada por: QM =

(n12 − n21 )2 (n12 + n21 )

e tem aproximadamente distribui¸ca˜o qui-quadrado com 1 grau de liberdade.

Exemplo: Considere a taxa de aprova¸ca˜o de um determinado pol´ıtico, antes e ap´os o an´ uncio de certas medidas, descrita na Tabela 11. Tabela 11. Resultados de um pesquisa realizada para verificar a taxa de aprova¸ca˜o de um pol´ıtico antes e ap´os o an´ uncio de certas medidas. Ap´os Antes

Aprova

Reprova

Totais

Aprova

20

5

25

Reprova

10

10

20

Totais

30

15

45

O teste da hip´otese H0 : propor¸ca˜o de aprova¸ca˜o do candidato antes e ap´os o an´ uncio das medidas ´e a mesma, resultou em QM = 1,67 (valor p = 0,1967). Assim, n˜ao se rejeita H0 e, desse modo, n˜ao ´e poss´ıvel dizer que a taxa de aprova¸ca˜o desse pol´ıtico se alterou ap´os o an´ uncio das medidas.

ˆ ˜ TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES

3 3.1

Conjunto de tabelas de contingˆ encia 2 × 2 Considere os dados da Tabela 12 provenientes de um ensaio cl´ınico realizado para

comparar dois medicamentos usados no tratamento de infec¸co˜es respirat´orias severas, medicamentos estes que foram testados em dois centros m´edicos. Tabela 12. Resultados de um ensaio cl´ınico realizado para comparar dois medicamentos usados no tratamento de infec¸co˜es respirat´orias severas. Resposta Favor´avel N˜ao favor´avel

Centro

Tratamento

1

Novo

29

16

45

1

Padr˜ao

14

31

45

43

47

90

Totais

Totais

2

Novo

37

8

45

2

Padr˜ao

24

21

45

61

29

90

Totais

Note que a tabela acima ´e, na realidade, um conjunto de duas tabelas de contingˆencia 2 × 2 e em que, as mesmas quest˜oes de uma u ´nica tabela, s˜ao de interesse. Ou seja, existe associa¸ca˜o entre tratamento e a resposta do paciente e, se existe, qual a intensidade dessa associa¸ca˜o? Como o interesse concentra-se na associa¸ca˜o global entre o tratamento e a resposta, poder-se-ia pensar em somar as freq¨ uˆencias das linhas correspondentes a cada tratamento obtendo-se, assim, uma u ´nica tabela de contingˆencia 2 × 2. Os pesquisadores

Giolo, S. R.

28

An´alise de Dados Discretos

notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente diferentes em cada centro e que este deveria ser, portanto, considerado na an´alise. Em alguns casos, a estratifica¸ca˜o pode ter sido planejada, em outros surge ap´os a coleta dos dados. Uma an´alise estratificada ´e, desse modo, a estrat´egia a ser adotada nessas situa¸co˜es. Em tal an´alise, examina-se a associa¸ca˜o entre as duas vari´aveis de interesse controlando-se, ou ajustando-se, para o efeito de centro. 3.1.1

Teste de Mantel-Haenszel Um m´etodo para verificar a associa¸ca˜o global das vari´aveis de interesse, con-

trolando (ou ajustando) para o fator de estratifica¸ca˜o, foi proposto por Mantel-Haenszel (1959). Para a obten¸ca˜o da estat´ıstica de teste proposta por esses autores, considera-se, para cada uma das q tabelas 2 × 2 que comp˜oem a tabela geral, a nota¸ca˜o apresentada na Tabela 13. Tabela 13. h-´esima tabela de contingˆencia 2 × 2. Coluna Linha

A

B

Totais

A

nh11

nh12

nh1+

B

nh21

nh22

nh2+

Totais

nh+1

nh+2

nh

Sob a hip´otese nula de n˜ao diferen¸ca entre os tratamentos, o valor esperado de nh11 e sua respectiva variˆancia s˜ao: E(Nh11 | H0 ) =

V (Nh11 | H0 ) =

nh1+ nh+1 = mh11 nh

(nh1+ )(nh2+ )(nh+1 )(nh+2 ) = vh11 . n2h (nh − 1)

Assim, a estat´ıstica de teste proposta por Mantel-Haenszel ´e dada por:

Giolo, S. R.

29

An´alise de Dados Discretos

QM H =

q X

nh11 −

h=1

q X

q X

mh11

h=1

!2

=

q X (nh1+ nh2+ )

nh

h=1

q X

vh11

h=1

(ph11 − ph21 )

!2

vh11

h=1

em que phi1 = nhi1 /nhi+ e QM H tem distribui¸ca˜o aproximadamente qui-quadrado com 1 grau de liberdade quando

Pq

h=1

nh for suficientemente grande (> 30). Em um certo sen-

tido, essa estrat´egia de an´alise ´e similar a uma an´alise de variˆancia de um experimento fatorial em blocos aleatorizados. QM H ´e eficaz para determinar padr˜oes de associa¸ca˜o quando existir uma forte tendˆencia de a maioria das diferen¸cas (ph11 − ph21 ) apresentar o mesmo sinal. Assim, QM H pode falhar em detectar a associa¸ca˜o quando as diferen¸cas estiverem em dire¸co˜es opostas (sinais diferentes) e apresentarem magnitudes similares. Mantel e Fleiss (1980) propuseram um crit´erio para determinar se a aproxima¸ca˜o qui-quadrado ´e apropriada para a distribui¸ca˜o da estat´ıstica de Mantel-Haenszel para q tabelas. Este crit´erio ´e dado por: CM F = min

("

q X

h=1

mh11 −

q X

# "

(nh11 )L ,

h=1

q X

h=1

(nh11 )U −

q X

h=1

(mh11 )

#)

>5

em que (nh11 )L = max(0, (nh1+ − nh11 )) e (nh11 )U = min(nh+1 , nh1+ ). Para os dados da Tabela 12 tem-se: QM H = 18, 41 (p < 0,0001).

Assim,

existe uma forte associa¸ca˜o entre tratamento e a resposta do paciente, ajustado para centro.

Conclui-se, portanto, que o medicamento novo apresenta uma

taxa de resposta favor´avel significativamente maior do que a do placebo. n

CM F = min (52 − 16), (88 − 52)

o

Ainda,

= 16 ≥ 5 mostrando que, para esses dados, a

aproxima¸ca˜o qui-quadrado ´e apropriada para QM H . 3.1.2

Medidas de associa¸c˜ ao Para um conjunto de q tabelas 2 × 2 pode-se calcular a m´edia das odds ratios.

Se as odds ratios s˜ao homogˆeneas, o estimador de Mantel-Haenszel para a odds ratio

Giolo, S. R.

30

An´alise de Dados Discretos

comum ´e dado por: ORM H =

Pq

nh11 nh22 h=1 nh Pq nh12 nh21 h=1 nh

.

O intervalo de confian¸ca a 100(1-α)% para a ORM H ´e: 

ORM H exp(zα/2 σ ˆ ), ORM H exp(−zα/2 σ ˆ)



em que, σ ˆ

2

+ nh22 )(nh11 nh22 )/n2h 2( h (nh11 nh22 )/nh )2

h (nh11

=

P

+

P h h

P

i

(nh11 + nh22 )(nh12 nh21 ) + (nh12 + nh21 )(nh11 nh22 ) /n2h

2( h (nh11 nh22 )/nh )( P 2 h (nh12 + nh21 )(nh12 nh21 )/nh + . P 2( h (nh12 nh21 )/nh )2 P

P

h (nh12

nh21 )/nh )

No exemplo apresentado na Tabela 12 tem-se que as odds ratios s˜ao homogˆeneas (OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada bem como seu respectivo I.C, ao n´ıvel de confian¸ca de 95%, s˜ao: ORM H = 4, 028 IC(ORM H )(95)% = (2, 106; 7, 701). Portanto, aqueles pacientes que receberam o novo tratamento apresentam, em m´edia, uma chance (odds) de apresentarem melhora de em torno de 4 vezes maior, em rela¸ca˜o a odds dos que receberam placebo. Essa chance varia, ao n´ıvel de confian¸ca de 95%, entre 2,1 e 7,7 vezes.

3.2

Conjunto de tabelas de contingˆ encia 2 × r Considere os dados da Tabela 14, referente a um ensaio cl´ınico duplo-cego reali-

zado para investigar um novo tratamento para artrite reumat´oide, em que a resposta

Giolo, S. R.

31

An´alise de Dados Discretos

Tabela 14. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino e masculino para investigar um tratamento para artrite reumat´oide. Melhora Sexo

Tratamento

Feminino

Ativo

6

5

16

27

Feminino

Placebo

19

7

6

32

25

12

22

59

Totais

Nenhuma

Alguma

Acentuada

Totais

Masculino

Ativo

7

2

5

14

Masculino

Placebo

10

0

1

11

17

2

6

25

Totais

considerada foi se existiu nenhuma, alguma ou acentuada melhora nos s´ıntomas da doen¸ca. Os dados s˜ao, portanto, um conjunto de duas tabelas de contingˆencia 2 × 3 em que o interesse est´a na associa¸ca˜o entre tratamento e o grau de melhora, ajustado para sexo. O grau de melhora ´e uma resposta ordinal uma vez que nenhuma, alguma e acentuada s˜ao grada¸co˜es de melhora. Mantel (1963) propˆos uma extens˜ao da estrat´egia de Mantel-Haenszel para a an´alise de tabelas 2 × r quando a resposta ´e ordinal. Essa extens˜ao envolve escores m´edios para a resposta e usa diferen¸cas destes escores no c´alculo de uma estat´ıstica de teste adequada. Antes, por´em, de discutir as estrat´egias usadas para acessar a associa¸ca˜o em um conjunto de tabelas 2 × r, faz-se necess´ario discutir tal associa¸ca˜o em uma u ´nica tabela 2 × r que apresenta resposta ordinal. 3.2.1

Associa¸c˜ ao em uma u ´ nica tabela de contingˆ encia 2 × r Considere a Tabela 14 agrupando-se as freq¨ uˆencias dos sexos feminino e masculino,

respectivamente. A Tabela 15 mostra esse agrupamento.

Giolo, S. R.

32

An´alise de Dados Discretos

Tabela 15. Resultado de um ensaio cl´ınico realizado com pacientes do sexo feminino e masculino para investigar um tratamento para artrite reumat´oide. Melhora Tratamento

Nenhuma

Alguma

Acentuada

Totais

Ativo

13

7

21

41

Placebo

29

7

7

43

Totais

42

14

28

84

Como ´e desej´avel usar na estat´ıstica de teste a informa¸ca˜o de que a vari´avel resposta ´e ordinal, s˜ao assumidos escores para os n´ıveis dessa vari´avel. Obt´em-se, assim, m´edias (uma para cada linha da tabela) que s˜ao, ent˜ao, comparadas. A m´edia para a i-´esima linha (i = 1, 2) da Tabela 15 ´e definida como: f¯i =

3 X aj nij

j=1

ni+

i = 1, 2

em que a = (a1 , a2 , a3 ) ´e o vetor de escores assumidos para os n´ıveis da vari´avel resposta. Se a hip´otese H0 ´e de n˜ao associa¸ca˜o entre tratamento e grau de melhora, o que significa que as freq¨ uˆencias s˜ao similares para todos os n´ıveis, ent˜ao, E(f¯1 | H0 ) =

3 X

j=1

n1+ n+j aj n1+ n

!

=

3 X

j=1

aj

n+j = µa n

em que a variˆancia: 3 n  (n − n1+ ) X (n − n1+ ) va +j V (f¯1 | H0 ) = (aj − µa )2 = n1+ (n − 1) j=1 n n1+ (n − 1)

sendo va =

P3

j=1 (aj

− µa )2



n+j n



.

A quantidade f¯1 tem distribui¸ca˜o aproximadamente Normal, pelo teorema central do limite, de modo que a quantidade: (f¯1 − µa )2 i QS = h (n − n1+ )/(n1+ (n − 1)) va

tem distribui¸ca˜o aproximadamente qui-quadrado com um grau de liberdade. QS ´e chamada estat´ıstica escore m´edio. Por usar a informa¸ca˜o ordinal da vari´avel resposta,

Giolo, S. R.

33

An´alise de Dados Discretos

QS pode indicar onde as mudan¸cas ocorrem. Assim, as estat´ısticas Q e Qp s˜ao u ´teis para detectar tipos gerais de associa¸ca˜o, mas n˜ao s˜ao t˜ao eficientes quanto QS em detectar a localiza¸ca˜o dessas mudan¸cas. Usando os escores a = (1, 2, 3) para os n´ıveis de melhora nenhum, algum e acentuada, respectivamente, obteve-se QS = 12,859 (p = 0,0003). Conclui-se, desse modo, que os tratamentos diferem e que o tratamento “Ativo” apresentou desempenho melhor (grau de melhora mais acentuado) do que o placebo, uma vez que f¯A = 2, 195 e f¯P = 1, 488. 3.2.1.1

Escolha dos escores

As estrat´egias de an´alise de dados ordinais requerem a escolha dos escores a serem atribu´ıdos aos n´ıveis da vari´avel resposta. Dentre as v´arias maneiras que tais escores podem ser escolhidos, as duas mais usuais s˜ao: i) escores inteiros: estes s˜ao definidos como aj = j, para j = 1, 2, · · · , r, e s˜ao u ´teis quando os n´ıveis da vari´avel resposta s˜ao categorias ordenadas vistas como igualmente espa¸cadas. S˜ao tamb´em u ´teis, quando os n´ıveis da vari´avel resposta correspondem a contagens inteiras. Os escores inteiros (0, 1, · · ·) e (1, 2, · · ·), em termos de conclus˜oes, produzem resultados similares. ii) escores padronizados (midranks): estes s˜ao restritos a valores entre 0 e 1 e s˜ao definidos por: aj =

2

P

j k=1



n+k − n+j + 1

2(n + 1)

.

A vantagem desses escores sobre os escores inteiros ´e que o analista n˜ao se responsabiliza diretamente pela sele¸ca˜o dos escores. Ele usa os dados para obtˆe-los. Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados similares. Isso pode, contudo, n˜ao acontecer quando os dados s˜ao muito desbalanceados, tal como quando algumas categorias apresentam muito mais observa¸co˜es do que outras.

Giolo, S. R.

34

An´alise de Dados Discretos

Com os escores padronizados (midranks) isso tamb´em ocorre, uma vez que aquelas categorias apresentando poucas observa¸co˜es, em rela¸ca˜o as demais, apresentar˜ao escores muito pr´oximos. A conseq¨ uˆencia disto ´e que as distˆancias entre os n´ıveis da vari´avel resposta podem vir a ser consideradas muito mais pr´oximas do que elas realmente s˜ao. Como pode ser visto, a escolha dos escores n˜ao ´e uma tarefa t˜ao simples. Agresti (1990, 1996) recomenda que os dados sejam analisados usando diversos razo´aveis conjuntos de escores para determinar se conclus˜oes importantes dependem das escolhas feitas. O pesquisador ´e, sem d´ uvida, de fundamental importˆancia para o entendimento das distˆancias entre os n´ıveis da vari´avel resposta e conseq¨ uente escolha adequada dos escores. 3.2.2

Associa¸c˜ ao em um conjunto de tabelas de contingˆ encia 2 × r A associa¸ca˜o em um conjunto de tabelas 2 × r em que a resposta ´e ordinal tamb´em

envolve o c´alculo de m´edias baseadas em um conjunto de escores. Considere ah = (ah1 , ah2 , · · · , ahr ) o conjunto de escores assumidos para os r n´ıveis da vari´avel resposta na h-´esima tabela 2 × r. Assim, considerando-se as duas tabelas 2 × 3 da Tabela 14, tem-se para o tratamento “Ativo” a seguinte soma de escores: f+1 =

3 2 X X

ahj nh1j =

h=1 j=1

em que

2 X

nh1+ f¯h1

h=1

f¯h1 =

3 X

ahj nh1j j=1 nh1+

´e o escore m´edio para o tratamento Ativo na h-´esima tabela. Sob a hip´otese nula de n˜ao associa¸ca˜o f+1 tem valor esperado dado por: E(f+1 | H0 ) =

2 X

nh1+ µh = µ∗

h=1

e variˆancia, V (f+1 | H0 ) = em que µh =

3 X (ahj nh+j )

j=1

nh

e vh =

2 X nh1+ (nh − nh1+ )

vh = v ∗

3 X

!

h=1

j=1

(nh − 1)

(ahj − µh )2

nh+j . nh

Giolo, S. R.

An´alise de Dados Discretos

Se os tamanhos amostrais n+i+ =

P2

h=1

P3

j=1

35

nhij s˜ao suficientemente grandes,

ent˜ao f+1 tem distribui¸ca˜o aproximadamente normal e a quantidade QSM H =

(f+1 − µ∗ )2 v∗

tem distribui¸ca˜o aproximadamente qui-quadrado com 1 grau de liberdade. QSM H ´e conhecida como a estat´ıstica escore m´edio de Mantel-Haenszel estendida e ´e eficiente para detectar padr˜oes de diferen¸cas quando (f¯h1 − f¯h2 ) apresentarem predominantemente o mesmo sinal. Para os dados da Tabela 14 e considerando-se os escores a = (1, 2, 3), obteve-se QSM H = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e n+2+ = 43 s˜ao tamb´em suficientemente grandes, o que assegura que QSM H apresenta uma boa aproxima¸ca˜o da distribui¸ca˜o qui-quadrado, de modo que, pode-se concluir que tratamento e o grau de melhora, controlando para sexo, s˜ao associados.

3.3

Conjunto de tabelas de contingˆ encia s × 2 Os dados apresentados na Tabela 16 referem-se a um estudo sobre o uso de tabaco

por adolescentes (Bauman et al., 1989). O interesse concentrou-se em fatores que influenciam o uso do tabaco. Note, nesse exemplo, que a Tabela 16 ´e formada por um conjunto de duas tabelas de contingˆencia 3 × 2 e que, o interesse, ´e testar a existˆencia, ou n˜ao, de associa¸ca˜o entre a vari´avel resposta (uso de tabaco) e o fator consciˆencia do risco do uso do tabaco pelo adolescente controlando pelo fator uso de tabaco pelo pai. Para esses dados observam-se, a vari´avel resposta (uso de tabaco) e o fator uso de tabaco pelo pai, como sendo dicotˆomicas e o fator consciˆencia do risco, como ordinal. Na pr´atica, as trˆes vari´aveis podem ser consideradas ordinais, uma vez que ´e comum associar os escores 0 e 1 aos n´ıveis de uma vari´avel dicotˆomica. Para acessar a associa¸ca˜o de interesse, ser´a, inicialmente, considerado uma u ´nica tabela de contingˆencia 3 × 2 para, ent˜ao, estender a id´eia para um conjunto de tabelas de contingˆencia 3 × 2.

Giolo, S. R.

36

An´alise de Dados Discretos

Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fatores que afetam o uso do tabaco. Pai usa

Consciˆencia do risco

N˜ao usa tabaco

Usa tabaco

N˜ao

M´ınima

59

25

84

N˜ao

Moderada

169

29

198

N˜ao

Substancial

196

9

205

424

63

487

Totais Sim

M´ınima

11

8

19

Sim

Moderada

33

11

44

Sim

Substancial

22

2

24

66

21

87

Totais

3.3.1

Totais

Associa¸c˜ ao em uma u ´ nica tabela de contingˆ encia s × 2 Considere somente a primeira tabela de contingˆencia 3 × 2 (relativa aos adoles-

centes cujos pais n˜ao fumam) apresentada anteriormente. Como no caso das tabelas de contingˆencia 2 × s, escores c = (c1 , c2 , c3 ) s˜ao assumidos para os n´ıveis (m´ınima, moderada e substancial) do fator ordinal “consciˆencia do risco”. Para a vari´avel resposta assume-se, como j´a mencionado, os escores a = (a1 , a2 ) = (0, 1) para as respostas “n˜ao usa” e “usa” tabaco, respectivamente. Assim, tem-se: f¯ =

2 3 X X ci aj nij

n

i=1 j=1

em que, sob H0 , E(f¯ | H0 ) =

3 X i=1

ci

n

i+

n

2 X

aj

j=1

n

+j

n



= µ c µa

e V (f¯ | H0 ) =

(

3 X i=1

(ci − aj )

2

n

i+

n

2 X (aj − µa )2 (n+j /n) j=1

(n + 1)

)

A quantidade f¯ tem distribui¸ca˜o aproximadamente Normal para grandes amostras

Giolo, S. R.

37

An´alise de Dados Discretos

de modo que, para essas situa¸co˜es, usa-se a estat´ıstica de teste: QCS

hP

i2

(n − 1) 3i=1 2j=1 (ci − µc )(aj − µa ) nij (f¯ − µc µa )2 2 ih P i = (n − 1) rac = h P3 = 2 2 2 V ar(f¯ | H0 ) i=1 (ci − µc ) ni+ j=1 (aj − µa ) n+j P

em que rac ´e o coeficiente de correla¸ca˜o de Pearson. Por este fato QCS ´e denominada estat´ıstica da correla¸ca˜o. Ainda, QCS tem distribui¸ca˜o aproximada Qui-quadrado com 1 grau de liberdade. Para os dados da primeira tabela de contingˆencia 3 × 2 da Tabela 16 obtevese QCS = 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associa¸ca˜o (correla¸ca˜o) entre consciˆencia do risco de fumo e uso de tabaco. 3.3.2

Associa¸c˜ ao em um conjunto de tabelas de contingˆ encia s × 2 Mantel (1963) tamb´em propˆos uma estat´ıstica de teste para a associa¸ca˜o de duas

vari´aveis que s˜ao ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c assumidos para as colunas e linhas das tabelas. Esta estat´ıstica ´e expressa por:

QCSM H =

"

Pq

h=1

Pq

nh

h=1



f¯h − E(f¯h | H0 )

n2h var(f¯h | H0 )

 2

"

Pq

h=1

= Pq

h=1

nh (vhc vha )

1/2

rca.h

#2

h

n2h vhc vha /(nh − 1)

i

e ´e chamada estat´ıstica da correla¸ca˜o de Mantel-Haenszel estendida.

QCSM H

segue a distribui¸ca˜o Qui-quadrado com 1 grau de liberdade quando o tamanho amostral combinado das tabelas s × 2 for suficientemente grande, isto ´e,

Pq

h=1

nh ≥ 40.

Para os dados da Tabela 16, tomando-se os escores inteiros c = (1, 2, 3), obteve-se QCSM H = 40,6639 (p < 0,0001). Existe, portanto, uma forte associa¸ca˜o (correla¸ca˜o) entre consciˆencia do risco de fumar e uso de tabaco pelo adolescente, controlando pelo fator uso de tabaco pelo pai.

Giolo, S. R.

3.4

38

An´alise de Dados Discretos

Tabelas de contingˆ encia s × r Os conceitos de associa¸ca˜o e medidas de associa¸ca˜o em tabelas 2 × 2 e associa¸ca˜o

em tabelas de contingˆencia 2 × r e s × 2 foram apresentados e discutidos at´e o momento. Nessa se¸ca˜o tais conceitos s˜ao estendidos para as tabelas s × r. 3.4.1

Testes para associa¸c˜ ao geral em tabelas s × r A nota¸ca˜o de uma tabela de contingˆencia s × r, em que tem-se duas vari´aveis,

uma delas com s categorias e a outra com r categorias ´e apresentada na Tabela 17. Tabela 17. Tabela de contingˆencia s × r. Grupos

Categorias da vari´avel resposta 1 2 ··· r

Totais

1

n11

n12

···

n1r

n1+

2 .. .

n21 .. .

n22 .. .

··· .. .

n2r .. .

n2+ .. .

s

ns1

ns2

···

nsr

ns+

Totais

n+1

n+2

···

n+r

n

Para testar a hip´otese nula de n˜ao existˆencia de associa¸ca˜o geral em uma tabela de contingˆencia s × r pode-se usar: 3.4.1.1

Situa¸c˜ ao 1: vari´ avel resposta nominal

i) a estat´ıstica qui-quadrado de Pearson, como definida para uma tabela de contingˆencia 2 × 2, isto ´e, QP =

r s X X (nij − mij )2 i=1 j=1

mij

.

que, quando todas as caselas apresentarem valores esperados maiores que 5, tem distribui¸ca˜o aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.

Giolo, S. R.

39

An´alise de Dados Discretos

ii) a estat´ıstica Q que, como para uma tabela de contingˆencia 2 × 2, ´e obtida por: Q=

(n − 1) QP n

e tˆem, nesse caso, distribui¸ca˜o aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade. 3.4.1.2

Situa¸c˜ ao 2: vari´ avel resposta ordinal

As estat´ısticas Q e QP s˜ao adequadas para a detec¸ca˜o de associa¸ca˜o geral. N˜ao s˜ao, no entanto, t˜ao adequadas quando a vari´avel resposta ´e ordinal e ´e de interesse levar em conta tal ordena¸ca˜o. Assim como para tabelas 2× r, a estat´ıstica escore m´edio, QS , pode ser tamb´em usada para tabelas s × r, de modo que QS ´e expressa por: QS = P em que f¯i = rj=1

aj nij , ni+

(n − 1)

Ps

ni+ (f¯i − µa )2 n va

i=1

µa = E[f¯i | H0 ] =

Pr

j=1

aj n+j n

e va =

Pr

j=1 (aj

− µa )2



n+ j n



.

Nesses casos, QS tem distribui¸ca˜o aproximada Qui-quadrado com (s - 1) graus de

liberdade uma vez que os escores m´edios de s grupos est˜ao sendo comparados. 3.4.1.3

Situa¸c˜ ao 3: ambas as vari´ aveis ordinais

Esta situa¸ca˜o ocorre, por exemplo, quando a vari´avel resposta ´e ordinal e os tratamentos sendo comparados s˜ao, na realidade, dosagens diferentes de um mesmo medicamento. Em tais situa¸co˜es, escores s˜ao assumidos para os n´ıveis da vari´avel resposta e, tamb´em, para os n´ıveis do fator de interesse. A estat´ıstica de teste apropriada para esta situa¸ca˜o, como visto para tabelas de contingˆencia s × 2, ´e a estat´ıstica da correla¸ca˜o QCS que, independente da dimens˜ao da tabela, ter´a sempre distribui¸ca˜o aproximada Qui-quadrado com 1 grau de liberdade. Tal estat´ıstica ´e expressa por: 2 QCS = (n − 1) rac

em que rac ´e o coeficiente de correla¸ca˜o de Pearson (ver pgs. 36 e 37).

Giolo, S. R. 3.4.2

40

An´alise de Dados Discretos

Teste exato para associa¸c˜ ao geral em tabelas s × r Em alguns casos o tamanho amostral, em uma tabela de contingˆencia s × r,

n˜ao ´e suficientemente grande e ocorrem diversos valores esperados menores que 5. As estat´ısticas qui-quadrado discutidas anteriormente n˜ao s˜ao, portanto, recomend´aveis. Nessas situa¸co˜es, uma alternativa ´e o teste exato de Fisher para tabelas s × r. Esse m´etodo segue os mesmos princ´ıpios do teste exato de Fisher para uma tabela de contingˆencia 2 × 2, exceto que as probabilidades s˜ao assumidas serem provenientes de uma distribui¸ca˜o Hipergeom´etrica multivariada, isto ´e.

P (Nij = nij ) =

s Y

ni+ !

i=1

n!

r Y

n+j !

j=1 s Y r Y

.

nij !

i=1 j=1

3.4.3

Medidas de associa¸c˜ ao em tabelas s × r Algumas medidas de associa¸ca˜o encontram-se dispon´ıveis quando h´a interesse em

se obter a intensidade da associa¸ca˜o em uma tabela s × r. A escolha por uma dessas medidas, depender´a da escala de mensura¸ca˜o das vari´aveis. i) Medidas de associa¸c˜ ao ordinal Nos casos em que as categorias exibidas nas linhas e colunas de uma tabela de contingˆencia s × r estiverem em uma escala intervalar ou apresentarem escores que s˜ao igualmente espa¸cados, recomenda-se (Stokes et al., 2000), como medida de associa¸ca˜o, o coeficiente de correla¸ca˜o de Pearson. Nos casos, contudo, em que as categorias s˜ao de natureza ordinal mas n˜ao apresentarem uma escala de distˆancia o´bvia, sugere-se, ent˜ao, o coeficiente de correla¸ca˜o de Spearman o qual baseia-se nos ranks das categorias. ii) Medidas de associa¸c˜ ao nominal Medidas de associa¸ca˜o nos casos em que uma, ou ambas, as vari´aveis de uma tabela de contingˆencia s × r estiverem em uma escala de mensura¸ca˜o nominal, s˜ao mais dif´ıceis. Dois coeficientes propostos na literatura para essas situa¸co˜es

Giolo, S. R.

41

An´alise de Dados Discretos

s˜ao: o coeficiente de incerteza (uncertainty coefficient) e o coeficiente lambda. Agresti (1990) discute algumas dessas medidas. 3.4.4

Exemplos

3.4.4.1

Local de moradia e afilia¸co ˜es pol´ıtico partid´ arias

Os dados apresentados na Tabela 18 referem-se a um estudo sobre a afilia¸ca˜o partid´aria em uma determinada cidade (Stokes et al., 2000). O interesse ´e saber se existe associa¸ca˜o entre partido pol´ıtico e local (bairros) de moradia. Tabela 18. Distribui¸ca˜o pol´ıtico partid´aria nos bairros da cidade. Local de Moradia Partido Pol´ıtico

A

B

C

D

Totais

Democrata

221

160

360

140

881

Independente

200

291

160

311

962

Republicano

208

106

316

97

727

Totais

629

557

548

836

2570

Para esses dados, ambas as vari´aveis encontram-se na escala de mensura¸ca˜o nominal e, desse modo, para testar a hip´otese nula de n˜ao associa¸ca˜o entre partido pol´ıtico e local de moradia pode-se usar a estat´ıstica qui-quadrado de Pearson (QP ) bem como a estat´ıstica Q. Os resultados obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6) e Q = 273, 81 (p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito pr´oximos, o que j´a era esperado uma vez que o tamanho amostral (n = 2570) ´e grande. Dos resultados apresentados, conclui-se haver associa¸ca˜o entre partido pol´ıtico e local de moradia. 3.4.4.2

Medicamentos para dor de cabe¸ca e per´ıodo sem dor

Os dados desse exemplo, que encontram-se apresentados na Tabela 19, s˜ao de um estudo sobre um novo medicamento utilizado para aliviar dores de cabe¸ca. Os

Giolo, S. R.

42

An´alise de Dados Discretos

pesquisadores compararam tal medicamento com o tratamento padr˜ao e um placebo e mediram, para cada um deles, o n´ umero (em horas) de substancial al´ıvio da dor de cabe¸ca. Tabela 19. Estudo de um novo medicamento para o tratamento de dores de cabe¸ca. Horas de al´ıvio Tratamento

0

1

2

3

4

Totais

Placebo

6

9

6

3

1

25

Padr˜ao

1

4

6

6

8

25

Novo

2

5

6

8

6

27

Totais

9

18

18

17

15

77

Claramente, n´ umero de horas ´e uma vari´avel resposta ordinal. Nesses casos, o teste escore m´edio, como visto anteriormente, ´e indicado para testar a hip´otese nula de n˜ao associa¸ca˜o entre medicamento e a intensidade do al´ıvio de dor de cabe¸ca. Utilizando-se, portanto, os escores a = (0, 1, 2, 3, 4) obteve-se QS = 13, 7346 ( p = 0,00104, g.l = 2). Assim, h´a evidˆencias estat´ısticas de associa¸ca˜o entre tratamento e o n´ umero de horas de dor de cabe¸ca. Pode-se, desse modo, concluir que pelo menos dois tratamentos diferem entre si. Quais deles diferem? Observe que f¯1 = 1, 36, f¯2 = 2, 64 e f¯3 = 2, 41 fornecendo ind´ıcios de que o placebo difere dos tratamentos novo e padr˜ao. N˜ao parece haver ind´ıcios, contudo, de diferen¸cas entre os tratamentos novo e padr˜ao. Considerando-se, ent˜ao, a tabela com somente as linhas correspondentes aos tratamentos padr˜ao e novo tem-se QS = 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo, que os tratamentos novo e padr˜ao n˜ao diferem entre si. Para as demais compara¸co˜es obtiveram-se: i) placebo versus novo: QS = 8, 6 (p = 0,0034, g.l. = 1) ii) placebo versus padr˜ao: QS = 11, 66 ( p = 0,0006, g.l. = 1). Observe, neste exemplo, que existe v´arias caselas com n´ umero esperado menores que 5 o que inviabiliza a utiliza¸ca˜o das estat´ısticas Q e QP , mas n˜ao inviabiliza o uso da estat´ıstica QS . Este ´e, portanto, um exemplo que mostra a vantagem em se considerar a escala ordinal dos dados utilizando-se uma estat´ıstica de teste mais apropriada.

Giolo, S. R. 3.4.4.3

43

An´alise de Dados Discretos

Produtos de limpeza de roupas e intensidade da limpeza

Uma companhia de tratamento de a´gua realizou um estudo para pesquisar como os aditivos adicionados a` a´gua afetam a limpeza das roupas. O estudo considerou: a´gua sem nenhum aditivo, a´gua com tratamento padr˜ao e a´gua com dose dupla do tratamento padr˜ao. Os resultados obtidos encontram-se na Tabela 20 Tabela 20. Influˆencia de aditivos na a´gua sobre limpeza das roupas. Limpeza Tratamento

Baixa

M´edia

Alta

Totais

´ Agua pura

27

14

5

46

´ Agua + trat. padr˜ao

10

17

26

53

´ Agua + dose dupla trat. padr˜ao

5

12

50

67

Totais

42

43

81

166

Ambas as vari´aveis s˜ao, nesse caso, ordinais e como foi visto, a estat´ıstica da correla¸ca˜o QCS ´e indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1, 2, 3) para as categorias das vari´aveis limpeza e tratamento, respectivamente, obteve-se QCS = 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza est˜ao associados e que a limpeza aumenta com a dosagem de aditivo adicionado a` agua. 3.4.4.4

Tipo de ve´ıculo adquirido e fonte de propaganda.

Os dados desse exemplo referem-se a um estudo realizado para saber se o tipo de carro que as pessoas tinham comprado nos u ´ltimos meses em uma determinada concession´aria estava associada com o tipo de an´ uncio publicit´ario dos mesmos. O resultado do estudo encontra-se apresentado na Tabela 21. Pode-se notar que os dados n˜ao satisfazem as condi¸ccoes de aplicabilidade dos testes usuais Q e QP pois existem caselas com freq¨ uˆencia zero bem como algumas delas com freq¨ uˆencias esperadas menores do que 5. O teste exato de Fisher para testar a hip´otese nula de n˜ao associa¸ca˜o ´e, desse modo, a estrat´egia indicada. Utilizando-se

Giolo, S. R.

44

An´alise de Dados Discretos Tabela 21. Escolha do carro e an´ uncio publicit´ario An´ uncio publicit´ario Tipo de carro

TV

Revista

Jornal

Radio

Totais

Sedan

4

0

0

2

6

Esportivo

0

3

3

4

10

Utilit´ario

5

5

2

2

14

Totais

9

8

5

8

30

tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). N˜ao existe teste exato de Fisher unilateral para tabelas s × r. Conclui-se, nesse caso, haver evidˆencias de associa¸ca˜o ao n´ıvel de significˆancia de 5%. Para n´ıveis de significˆancia menores n˜ao ´e poss´ıvel concluir pela existˆencia de associa¸ca˜o entre o tipo de carro comprado e tipo de an´ uncio publicit´ario. 3.4.5

Concordˆ ancia entre observadores

3.4.5.1

Estat´ıstica Kappa

Pesquisadores nas a´reas de medicina, epidemiologia, psiquiatria, psicologia etc. tˆem, ou deveriam ter, consciˆencia de que o observador ´e uma poss´ıvel fonte de erro de medi¸ca˜o. Em muitos casos, diferentes observadores, ou um mesmo observador em diferentes tempos, podem, por exemplo, examinar um raio X, ou realizar um exame f´ısico, ´ importante, desse modo, avaliar e chegarem a diferentes conclus˜oes (diagn´osticos). E a concordˆancia entre os observadores. Os dados, em um estudo desse tipo, produzem, em geral, uma tabela de contingˆencia s × s em que os n´ıveis nas colunas representam a resposta de um observador e os n´ıveis nas linhas a resposta do outro observador. As caselas na diagonal representam os casos em que os observadores concordam. Certamente as estat´ısticas tratadas anteriormente para testar a associa¸ca˜o, ou n˜ao, entre as respostas dos observadores poderiam ser usadas. Com os resultados obtidos n˜ao se poderia, contudo, quantificar a concordˆancia dos observadores. Medidas de

Giolo, S. R.

45

An´alise de Dados Discretos

concordˆancia foram, ent˜ao, propostas. O coeficiente Kappa, proposto por Cohen (1960), ´e uma dessas medidas e ´e definido por: κ ˆ= sendo Π0 =

Ps

i=1

pii =

Ps

nii i=1 n

Π0 − Π e 1 − Πe

a probabilidade de concordˆancia com, pii a probabi-

lidade de um indiv´ıduo ser classificado na categoria i por ambos os observadores e, Πe =

Ps

i=1 (pi+ )(p+i )

=

Ps

i=1

ni+ n+i n n

a probabilidade de concordˆancia sob H0 em que

H0 : n˜ao h´a concordˆancia entre os observadores. Como Π0 = 1 quando existir concordˆancia perfeita (todos os elementos fora da diagonal s˜ao iguais a zero), κ ser´a igual a 1 quando existir concordˆancia perfeita entre os observadores e, κ ser´a igual a 0 quando a concordˆancia for aquela esperada sob H0 . Assim quanto mais pr´oximo de 1 for o valor de κ, maior concordˆancia existir´a ´ poss´ıvel obter valores negativos para κ mas isto, raramente entre os observadores. E ocorre. Considera-se, em geral, κ < 0,4 como concordˆancia fraca, κ entre [0,4; 0,8) como concordˆancia moderada e κ ≥ 0,8 como concordˆancia forte. A variˆancia assint´otica do coeficiente Kappa pode ser estimada por: var(ˆ κ) = em que A = h

P

i

(A + B − C) ((1 − Πe )2 n) i2

h

pii 1 − (pi+ + p+i )(1 − κ ˆ )2 ) ˆ ) , B = (1 − κ i2

PP

i6=j

pij (p+1 pj+ )2 e

C= κ ˆ − Πe (1 − κ ˆ ) . Um intervalo de confian¸ca para κ pode, portanto, ser obtido por: κ ˆ ± zα/2

q

(var(ˆ κ))

em que zα/2 ´e o 100(1-α/2) percentil da distribui¸ca˜o normal padr˜ao. Para os casos em que a resposta ´e ordinal uma forma ponderada da estat´ıstica Kappa foi proposta e esta ´e definida por: Π0 (w) − Πe (w) κ ˆw = = 1 − Πe (w)

Ps

i=1

wij pij − si=1 sj=1 wij pi+ p+j P P 1 − si=1 sj=1 wij pi+ p+j

Ps

j=1

P

P

Giolo, S. R.

46

An´alise de Dados Discretos

em que wij s˜ao pesos com valores entre 0 e 1. Um poss´ıvel conjunto de pesos ´e dado por: wij = 1 −

| escore(i) − escore(j) | escore(dim) − escore(1)

em que escore(i) ´e o escore para a i-´esima linha, escore(j) ´e o escore para a j-´esima coluna e dim ´e a dimens˜ao da tabela s × s. A variˆancia assint´otica do coeficiente Kappa ponderado pode ser estimada por: var(ˆ κw ) = em que w¯i+ =

P P i

P

j

j

h

pij wij − (w¯i+ + w¯+j )(1 − κ ˆw )

i2

(1 − Πe (w))2 n

p+j wij e w¯+j =

P

j

h

− κ ˆ w − Πe (w)(1 − κ ˆw )

i2

pi+ wij .

Um intervalo de confian¸ca para κ ˆ w pode, portanto, ser obtido por: κ ˆ (w) ± zα/2



var(ˆ κw )

em que zα/2 ´e o 100(1-α/2) percentil da distribui¸ca˜o normal padr˜ao. 3.4.5.2

Exemplo: concordˆ ancia entre o diagn´ ostico de dois neurologistas

Os dados apresentados na Tabela 22 referem-se a classifica¸ca˜o de pacientes com esclerose m´ ultipla, em 4 classes de diagn´ostico, por dois neurologistas. Tabela 22. Concordˆancia dos diagn´osticos de dois neurologistas Neurologista 1 Neurologista 2

1

2

3

4

Totais

1

38

5

0

1

44

2

33

11

3

0

47

3

10

14

5

6

35

4

3

7

3

10

23

Totais

84

37

11

17

149

Giolo, S. R.

An´alise de Dados Discretos

47

Para esses dados obteve-se: ((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/149 2 ) 1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492 )) κ ˆ = 0, 2079. κ ˆ =

Ainda, var(ˆ κ) = 0, 00255 e, portanto, IC0,95 (ˆ κ) = (0,109; 0,3068). De forma an´aloga, κ ˆ w = 0, 3797, var(ˆ κw ) = 0, 002673 e IC0,95 (ˆ κw ) = (0,2785; 0,4810). Tais resultados indicam uma fraca concordˆancia entre os neurologistas.

3.5

Conjunto de tabelas de contingˆ encia s × r Para um conjunto de tabelas s × r tem-se, para testar as associa¸co˜es de interesse,

as extens˜oes das estat´ısticas: i) QM H , quando as vari´aveis forem nominais; ii) QSM H , quando os n´ıveis da vari´avel resposta forem ordinais e, iii) QCSM H , quando ambas as vari´aveis forem ordinais.

4

˜ LOG´ISTICA DICOTOMICA ˆ REGRESSAO Neste cap´ıtulo, o modelo de regress˜ao log´ıstica ser´a apresentado para descrever a

natureza da associa¸ca˜o entre um conjunto de fatores e a vari´avel resposta por meio de um n´ umero parcimonioso de parˆametros. A regress˜ao log´ıstica ´e freq¨ uentemente apropriada para vari´aveis respostas categ´oricas e descreve a rela¸ca˜o entre esta vari´avel resposta e um conjunto de vari´aveis explanat´orias (covari´aveis). A vari´avel resposta ´e usualmente dicotˆomica (tipicamente sim e n˜ao), mas pode tamb´em ser usada para vari´aveis resposta com mais do que duas categorias (regress˜ao log´ıstica politˆomica). As vari´aveis explanat´orias, em regress˜ao log´ıstica, podem ser categ´oricas ou cont´ınuas. Vari´aveis dummy s˜ao usadas para a incorpora¸ca˜o de vari´aveis qualitativas no modelo de regress˜ao log´ıstica. Considere, como exemplo inicial, os dados da Tabela 24 em que a rela¸ca˜o entre idade e doen¸ca coron´aria est´a sendo estudada. Pelos resultados apresentados nesta tabela, observa-se que com o acr´escimo da idade, cresce tamb´em a probabilidade de ocorrˆencia de doen¸ca coron´aria. A Figura 1 apresenta graficamente tais resultados considerando-se o ponto m´edio de cada intervalo de idade. Uma diferen¸ca importante entre o modelo de regress˜ao log´ıstica e o modelo de regress˜ao linear pode ser notada e, esta, diz respeito a` natureza da rela¸ca˜o entre a vari´avel resposta e as vari´aveis independentes. Em qualquer problema de regress˜ao a quantidade sendo modelada ´e o valor m´edio da vari´avel resposta dado os valores das vari´aveis independentes. Esta quantidade ´e chamada m´edia condicional e ser´a expressa por E(Y | x) em que Y denota a vari´avel resposta e x denota os valores das vari´aveis independentes. Em regress˜ao linear tem-se - ∞ < E(Y | x) < + ∞ e, em regress˜ao log´ıstica, devido a` natureza da vari´avel resposta, 0 ≤ E(Y | x) ≤ 1 como pode ser

Giolo, S. R.

49

An´alise de Dados Discretos

Tabela 23. Dados sobre doen¸ca coron´aria por intervalo de idade Doen¸ca coron´aria N˜ao (Y = 0)

Sim (Y = 1)

Totais

E(Y | x)

20-29

9

1

10

0,10

30-34

13

2

15

0,13

35-39

9

3

12

0,25

40-44

10

5

15

0,33

45-49

7

6

13

0,46

50-54

3

5

8

0,63

55-59

4

13

17

0,76

60-69

2

8

10

0,80

Totais

57

43

100

0,43

0.5 0.4 0.1

0.2

0.3

E[Y|x]

0.6

0.7

0.8

Idade (X = x)

30

40

50

60

Idade(em anos)

Figura 1: E(Y | x) versus idade. observado na Figura 1. Observe ainda, nesta mesma figura, que a mudan¸ca em E(Y | x) por unidade de mudan¸ca em x torna-se progressivamente menor quando E(Y | x) tornase pr´oxima de zero ou de um. A curva em forma de “S” lembra a distribui¸ca˜o acumulada de uma vari´avel aleat´oria, o que motivou o uso da distribui¸ca˜o log´ıstica para fornecer um modelo para E(Y | x).

Giolo, S. R.

50

An´alise de Dados Discretos

A fun¸ca˜o de distribui¸ca˜o log´ıstica ´e descrita por: F (x) =

1 exp{x} = 1 + exp{−x} 1 + exp{x}

em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente

0.6 0.0

0.2

0.4

F(x)

0.8

1.0

1.2

representa¸ca˜o gr´afica ´e mostrada na Figura 2.

−20

−10

0

10

20

x

Figura 2: Fun¸ca˜o de distribui¸ca˜o log´ıstica. A fun¸ca˜o de distribui¸ca˜o log´ıstica toma valores entre zero e um; assume o valor zero em uma parte do dom´ınio das vari´aveis explicativas, um em outra parte do dom´ınio e cresce suavemente na parte intermedi´aria possuindo uma particular curva em forma de “S”. Se comparada a Figura 1 pode-se notar as similaridades. Outras fun¸co˜es de distribui¸ca˜o possuem as caracter´ısticas acima mencionadas. A fun¸ca˜o log´ıstica foi escolhida, no entanto, basicamente por duas raz˜oes: (i) do ponto de vista matem´atico ´e extremamente flex´ıvel e f´acil de ser usada e, (ii) conduz a interpreta¸co˜es simples. Para descrever a varia¸ca˜o entre os θ(x) = E(Y | x), foi, ent˜ao, proposto o modelo de regress˜ao log´ıstico expresso por: θ(x) = P (Y = 1 | x) =

1 1 + exp

(

(

− β0 +

exp β0 + =



p X

1 + exp β0 +

p X

k=1

β k xk

k=1

β k xk

k=1

(

p X

)

β k xk

)



)

(7)

Giolo, S. R.

51

An´alise de Dados Discretos

em que Yi = 1 significa a presen¸ca da resposta, x representa as covari´aveis (fatores de risco), isto ´e, x = (x1 , x2 , · · · , xp ), o parˆametro β0 ´e o intercepto, e βk (k = 1, · · · , p) s˜ao os p parˆametros de regress˜ao. Observe que este modelo retornar´a uma estimativa da probabilidade do indiv´ıduo ter a resposta dado que o mesmo possui, ou n˜ao, determinados fatores de risco. Conseq¨ uentemente, exp 1 − θ(x) =

(

1 + exp

=



− β0 + (



p X

− β0 + 1

(

1 + exp β0 +

β k xk

k=1

p X

p X

)

β k xk

k=1

β k xk

k=1





)

)

retornar´a uma estimativa da probabilidade do indiv´ıduo n˜ao ter a resposta dado que o mesmo possui ou n˜ao determinados fatores de risco. Observe, ainda, que fazendo-se:

θ(x) log 1 − θ(x)

!

= β0 +

p X

β k xk

k=1

tem-se um modelo linear para o logito, isto ´e, para o logaritmo neperiano da raz˜ao entre θ(x) e 1 - θ(x). O logito ´e, na realidade, o logaritmo de uma odds e, este fato, permitir´a que odds ratios sejam, portanto, obtidas pelo modelo (ser´a tratado em detalhes mais adiante). No contexto de modelos lineares generalizados, uma fun¸ca˜o, mon´otona e deriv´avel, que relaciona a m´edia ao preditor linear ´e denominada de fun¸c˜ ao de liga¸c˜ ao. Assim, η = log



θ(x) 1−θ(x)



, ´e a fun¸ca˜o de liga¸ca˜o canˆonica para a modelo Binomial.

Al´em de apresentar uma forma linear, o modelo log´ıstico apresenta a propriedade u ´til de que todos os valores (β0 +

Pp

k=1

βk xk ), pertencentes ao intervalo (-∞, + ∞),

terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por este modelo s˜ao, desse modo, restritas a assumirem valores entre 0 e 1. O modelo, portanto, n˜ao produz probabilidades negativas bem como probabilidades maiores que 1.

Giolo, S. R.

52

An´alise de Dados Discretos

Outra diferen¸ca importante entre um modelo de regress˜ao linear e o modelo de regress˜ao log´ıstico refere-se a` distribui¸ca˜o condicional da vari´avel resposta. No modelo de regress˜ao linear ´e assumido que uma observa¸ca˜o da vari´avel resposta pode ser expressa por y = E(Y | x) + ε em que a quantidade ε ´e chamada erro e ´e assumida ter distribui¸ca˜o Normal com m´edia zero e variˆancia constante. Este n˜ao ´e o caso quando a resposta ´e dicotˆomica ( Y = 1 ou 0 ). O valor da vari´avel resposta dado x ´e expresso por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois poss´ıveis valores, isto ´e, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem 



distribui¸ca˜o com m´edia zero e variˆancia dada por θ(x) 1- θ(x) , isto ´e, a distribui¸ca˜o condicional da vari´avel resposta segue uma distribui¸ca˜o Binomial com probabilidade dada pela m´edia condicional θ(x).

4.1

Estima¸c˜ ao dos parˆ ametros A estima¸ca˜o dos parˆametros em regress˜ao log´ıstica ´e, em geral, feita pelo m´etodo

da m´axima verossimilhan¸ca. Para aplica¸ca˜o deste m´etodo ´e necess´ario construir inicialmente a fun¸ca˜o de verossimilhan¸ca a qual expressa a probabilidade dos dados observados como uma fun¸ca˜o dos parˆametros desconhecidos. Os estimadores de m´axima verossimilhan¸ca dos parˆametros ser˜ao os valores que maximizam esta fun¸ca˜o. Para encontrar esses valores no modelo de regress˜ao log´ıstico, considere a vari´avel resposta Y codificada como zero ou um. Da express˜ao (7) pode-se, ent˜ao, obter a probabilidade condicional de que Y seja igual a 1 dado x, isto ´e, θ(x) = P(Y = 1 | x) e, em conseq¨ uˆencia, a probabilidade condicional de que Y seja igual a zero dado x, isto ´e, 1 - θ(x) = P(Y = 0 | x). Assim, θ(xi ) ser´a a contribui¸ca˜o para a fun¸ca˜o de verossimilhan¸ca dos pares (yi , xi ) em que yi = 1 e 1 - θ(xi ), a contribui¸ca˜o dos pares em que yi = 0. Assumindo-se que as observa¸co˜es s˜ao independentes tem-se a seguinte express˜ao para a fun¸ca˜o de verossimilhan¸ca: L(β) =

n  Y

i=1

θ(xi )

 yi 

1 − θ(xi )

1−yi

(8)

Giolo, S. R.

53

An´alise de Dados Discretos

As estimativas de β ser˜ao os valores que maximizam a fun¸ca˜o de verossimilhan¸ca dada em (8). Algebricamente ´e mais f´acil trabalhar com o logaritmo desta fun¸ca˜o, isto ´e, com: l(β) = log L(β) =

n X i=1







yi log θ(xi ) + (1 − yi ) log 1 − θ(xi )



Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva fun¸ca˜o com respeito a cada parˆametro βj (j = 0, 1,.., p) obtendo-se, assim, o sistema de p + 1 equa¸co˜es, n  X

yi − θ(xi )



= 0

xij yi − θ(xi )



= 0

i=1

n X i=1



j = 1, · · · , p

que, quando igualadas a zero, produzem como solu¸ca˜o as estimativas de m´axima verossimilhan¸ca de β. Os valores ajustados para o modelo de regress˜ao log´ıstico s˜ao, portanto, obtidos substituindo-se as estimativas de β em (7). As p + 1 equa¸co˜es s˜ao chamadas equa¸co˜es de verossimilhan¸ca e por serem n˜aolineares nos parˆametros βj (j = 0, 1,.., p), requerem m´etodos especiais para suas solu¸co˜es. Os m´etodos iterativos de Newton-Raphson e o escore de Fisher s˜ao algoritmos num´ericos comumente utilizados com esta finalidade. Uma discuss˜ao geral de m´etodos implementados em v´arios softwares pode ser encontrada em McCullagh e Nelder (1983). O m´etodo de estima¸ca˜o das variˆancias-covariˆancias dos coeficientes estimados seguem da teoria de estima¸ca˜o de m´axima verossimilhan¸ca a qual estabelece que os estimadores s˜ao obtidos pela matriz das derivadas parciais de segunda ordem do logaritmo da fun¸ca˜o de verossimilhan¸ca. Essas derivadas tˆem a seguinte forma geral: n   X ∂ 2 log L(β) 2 x θ(x ) 1 − θ(x ) = − i i ij ∂βj2 i=1

n   X ∂ 2 log L(β) xij xil θ(xi ) 1 − θ(xi ) = − ∂βj ∂βl i=1

(9) (10)

para j, l = 0, 1, .., p. A matriz contendo o negativo dos termos dados nas equa¸co˜es (9) e (10) ser´a denotada por I(β) e ´e chamada matriz de informa¸ca˜o. As variˆancias e covariˆancias

Giolo, S. R.

54

An´alise de Dados Discretos

dos coeficientes estimados ser˜ao obtidas pela inversa dessa matriz e ser´a denotada por Σ(β) = I −1 (β). O j-´esimo elemento da diagonal dessa matriz, denotado por σ 2 (βj ), corresponde a variˆancia de βˆj e, o elemento na j-´esima linha e l-´esima coluna, dessa matriz, denotado por σ(βj , βl ), corresponde a covariˆancia entre βˆj e βˆl . Os estimadores ˆ β), ˆ s˜ao obtidos por avaliar Σ(β) em β. ˆ das variˆancias e covariˆancias, denotados por Σ( Em nota¸ca˜o matricial, a matriz de informa¸ca˜o I(β) = X’VX em que X ´e uma matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covari´aveis dos indiv´ıduos, e V ´e uma matriz diagonal de n linhas e n colunas com elementos θ(x)(1 − θ(x)) na diagonal. Isto ´e, 

    X=    

e 

 θ(x1 )(1 − θ(x1 ))   0  V =  ..  .  

0



1 x11 · · · x1p   1 x21 · · · x2p    .. .. .. ..  . . . . 

1 xn1 · · · xnp 0

 

···

0

θ(x1 )(1 − θ(x2 )) · · · .. .. . .

0 .. .

0

· · · θ(xn )(1 − θ(xn ))



    .    

Considerando-se o ponto m´edio para cada intervalo de idade, isto ´e, x = 25, 32, 38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regress˜ao log´ıstica para os dados da Tabela 23 foram obtidas as estimativas βˆ0 = -5,123 (s.e. = 1,110) e βˆ1 = 0,1058 (s.e. = 0,023).

4.2

Significˆ ancia das vari´ aveis no modelo Ap´os obten¸ca˜o das estimativas dos coeficientes βj (j = 0, 1,..., p) faz-se necess´ario

avaliar a adequa¸ca˜o do modelo ajustado. O primeiro interesse est´a em acessar a significˆancia das covari´aveis presentes no modelo. O princ´ıpio em regress˜ao log´ıstica ´e o mesmo usado em regress˜ao linear, ou

Giolo, S. R.

55

An´alise de Dados Discretos

seja, comparar os valores observados da vari´avel resposta com os valores preditos pelos modelos com, e sem, a covari´avel sob investiga¸ca˜o. Em regress˜ao linear esta compara¸ca˜o ´e feita por meio de uma tabela chamada an´alise de variˆancia em que aten¸ca˜o ´e dada a` soma de quadrados devida a regress˜ao. Um grande valor da soma de quadrados da regress˜ao sugere que pelo menos uma, ou talvez todas as vari´aveis independentes, sejam importantes. Em regress˜ao log´ıstica a compara¸ca˜o pode ser feita utilizando-se testes tal como, dentre outros, o teste da raz˜ao de verossimilhan¸cas em que, a fun¸ca˜o de verossimilhan¸ca do modelo sem as covari´aveis (LSC ) ´e comparada com a fun¸ca˜o de verossimilhan¸ca do modelo com as covari´aveis (LCC ). Formalmente, o teste ´e expresso por: RV

"

verossimilhan¸ca do modelo sem as covari´aveis = −2 log verossimilhan¸ca do modelo com as covari´aveis # " LSC = 2 log(LCC ) − 2 log(LSC ) = −2 log LCC

#

Note que a raz˜ao das verossimilhan¸cas ´e multiplicada por −2 log. Isto ´e feito para que se obtenha uma quantidade cuja distribui¸ca˜o ´e conhecida (no caso a distribui¸ca˜o qui-quadrado) de modo que, tal quantidade, possa ser usada para a realiza¸ca˜o de testes de hip´oteses. Em regress˜ao log´ıstica a estat´ıstica: "

verossimilhan¸ca do modelo sob estudo D = −2 log verossimilhan¸ca do modelo saturado

#

´e chamada deviance, em que, para um melhor entendimento, ´e conceitualmente u ´til pensar um valor observado da vari´avel resposta como sendo tamb´em um valor predito resultante do modelo saturado. Um modelo saturado ´e aquele que cont´em tantos parˆametros quanto dados existirem. Assim, a estat´ıstica RV apresentada anteriormente, pode ser vista como a diferen¸ca de duas deviances, isto ´e, RV

= Deviance do modelo sem covari´aveis − Deviance do modelo com covari´aveis "

#

verossimilhan¸ca do modelo sem covari´aveis − = −2 log verossimilhan¸ca do modelo saturado "

"

verossimilhan¸ca do modelo com as covari´aveis − 2 log verossimilhan¸ca do modelo saturado

##

Giolo, S. R.

56

An´alise de Dados Discretos

o que resulta em: RV = 2 log(LCC ) − 2 log(LSC ). Sob a hip´otese nula de que os p coeficientes associados a`s covari´aveis no modelo s˜ao iguais a zero, a distribui¸ca˜o de RV ser´a Qui-Quadrado com p graus de liberdade. Rejei¸ca˜o da hip´otese nula neste caso tem interpreta¸ca˜o an´aloga a`quela em regress˜ao linear, ou seja, pode-se concluir que pelo menos um, ou talvez todos, os p coeficientes s˜ao diferentes de zero. 4.2.1

An´ alise de Deviance e sele¸c˜ ao de modelos Uma tabela, similar a` obtida em regress˜ao linear, para a an´alise de deviance

(ANODEV) pode ser constru´ıda.

A ANODEV ´e uma generaliza¸ca˜o da an´alise de

variˆancia visando obter, a partir de uma seq¨ uˆencia de modelos encaixados, os efeitos de fatores, covari´aveis e suas intera¸co˜es. Para uma seq¨ uˆencia de modelos encaixados, tendo estes a mesma distribui¸ca˜o e fun¸ca˜o de liga¸ca˜o, utiliza-se a deviance como uma medida de discrepˆancia do modelo e pode-se, ent˜ao, construir uma tabela das diferen¸cas de deviances, como, por exemplo, a apresentada na Tabela 24 em que ´e considerado um experimento com duas covari´aveis cont´ınuas X1 e X2 . Tabela 24. Exemplo de uma tabela de Diferen¸ca de Deviances para um experimento com duas covari´aveis cont´ınuas X1 e X2 .

Modelo

g.l.

Deviance Residual

Diferen¸ca Deviances

Diferen¸ca g.l.

Nulo

g.l.N

DN

X1

g.l.N - 1

D X1

D N - D X1

1

X1 e X 2

g.l.N - 2

DX1 +X2

DX1 - DX1 +X2

1

X1 , X2 e X 1 ∗ X 2

g.l.N - 3

DX1 ∗X2

DX1 +X2 - DX1 ∗X2

1

Saturado

0

0

A partir das deviances e suas diferen¸cas pode-se, ent˜ao, usando-se o teste da

Giolo, S. R.

57

An´alise de Dados Discretos

raz˜ao de verossimilhan¸cas, descrito anteriormente, testar a significˆancia da inclus˜ao de determinadas covari´aveis bem como intera¸co˜es no modelo. Em outras palavras, podese avaliar o quanto da varia¸ca˜o dos dados ´e explicada pela inclus˜ao de termos no modelo.

Para o exemplo apresentado na Tabela 23 em que deseja-se verificar a rela¸ca˜o entre idade e doen¸ca coron´aria tem-se: Tabela 25. Tabela de diferen¸ca de deviances para os dados sobre doen¸ca coron´aria. Modelo

g.l.

Deviance residual

Nulo

7

28,7015

X1 : idade

6

0,5838

Dif. Deviance

Dif. g.l.

28,1177

1

bem como a correspondente an´alise de deviance (ANODEV), Tabela 26. An´alise de deviance para os dados sobre doen¸ca coron´aria. Causa de varia¸ca˜o

g.l.

Deviances

RV

valor p

Regress˜ao

1

28,1177

28,1177

1,142e-07

Res´ıduos

6

0,5838

Total

7

28,7015

Portanto, RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se a hip´otese H0 : β1 = 0 concluindo-se, ent˜ao, que idade est´a altamente associada a doen¸ca coron´aria e deve, portanto, permanecer no modelo.

4.3

Qualidade do modelo ajustado Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o qu˜ao

bem ele se ajusta aos dados, ou seja, qu˜ao pr´oximo os valores preditos pelo modelo encontram-se de seus correspondentes valores observados. As estat´ısticas de teste usadas para essa finalidade s˜ao, em geral, denominadas estat´ısticas de qualidade do ajuste

Giolo, S. R.

58

An´alise de Dados Discretos

e comparam, de alguma maneira apropriada, as diferen¸cas entre os valores observados e preditos. Duas estat´ısticas tradicionais de qualidade do ajuste s˜ao: a qui-quadrado de Pearson, QP , que ´e baseada nos res´ıduos de Pearson e a qui-quadrado da raz˜ao de verossimilhan¸cas, QL , tamb´em conhecida como deviance por basear-se nos res´ıduos deviance, e estas s˜ao expressas, respectivamente, por: QP =

 2 X nij − mij

QL =

X i,j

e

mij

i,j

nij 2nij log mij

!

em que mij s˜ao as quantidades preditas pelo modelo e definidas por: ˆ mij = ni+ θ(x)

para j = 1

ˆ mij = ni+ (1 − θ(x))

para j = 2.

Sob a hip´otese H0 de que o modelo se ajusta bem aos dados, QP e QL s˜ao aproximadamente qui-quadrado com graus de liberdade igual ao n´ umero de linhas na tabela de dados menos o n´ umero de parˆametros no modelo. Na pr´atica, essas estat´ısticas ser˜ao aproximadamente qui-quadrado se: • cada ni+ > 10 • 80% das contagens preditas s˜ao pelo menos 5 • todas as outras contagens esperadas s˜ao maiores que 2, e nenhuma contagem ´e 0.

Para o modelo ajustado aos dados de doen¸ca coron´aria obtiveram-se: Qp = 0.59 (p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6). Conclui-se, desses resultados, pela n˜ao rejei¸ca˜o da hip´otese H0 e, portanto, pode-se dizer que o modelo escolhido se ajusta satisfatoriamente aos dados.

Giolo, S. R. 4.3.1

59

An´alise de Dados Discretos

O modelo ajustado e interpreta¸co ˜es Para os dados da Tabela 23, foi ajustado, e considerado satisfat´orio, o modelo: exp ˆ θ(x) =

(

1 + exp

− 5, 123 + 0, 1058 ∗ idade (

)

− 5, 123 + 0, 1058 ∗ idade

)

podendo-se, ent˜ao, obter, a partir deste, algumas estimativas, tais como, por exemplo: Tabela 27. Estimativas obtidas pelo modelo ajustado. Idade (xi )

ˆ i) θ(x

ˆ i) 1 − θ(x

logito

26

0,0853

0,9147

-2,3724

27

0,0939

0,9061

-2,2669

65

0,8524

0,1476

1,7535

θ(xi ) = odds (tratada anteriormente). (1 − θ(xi )) Pode-se, ent˜ao, obter a odds ratio para, por exemplo, os indiv´ıduos com idades 65 e 26 Observe que exp{logito(θ(xi ))} =

anos, isto ´e, ˆ = odds(65 anos) = exp{1, 7535} = 61, 9 OR odds(26 anos) exp{−2, 3724} concluindo-se, assim, que indiv´ıduos com 65 anos de idade tem odds 61,9 vezes maior de doen¸ca coron´aria do que a odds dos indiv´ıduos com 26 anos.

4.4

Diagn´ ostico da regress˜ ao log´ıstica As estat´ısticas Qp e QL , descritas na se¸ca˜o anterior e usadas para verificar a

qualidade de ajuste do modelo de regress˜ao log´ıstica, fornecem um u ´nico n´ umero o qual resume a concordˆancia entre os valores observados e os ajustados. O problema com essas estat´ısticas ´e que um u ´nico n´ umero ´e usado para resumir uma quantidade consider´avel de informa¸ca˜o. Portanto, antes de considerar que o modelo ajustado ´e satisfat´orio, ´e importante que outras medidas sejam examinadas para que se possa averiguar se

Giolo, S. R.

60

An´alise de Dados Discretos

o ajuste ´e v´alido sobre todo o conjunto de padr˜oes (combina¸co˜es das categorias) das covari´aveis. Pregibon (1981) estendeu os m´etodos de diagn´ostico de regress˜ao linear para a regress˜ao log´ıstica e argumenta que, como as estat´ısticas qui-quadrado de Pearson (Q p ) e deviance (QL ) s˜ao duas medidas usadas para verificar a qualidade do modelo ajustado, faz sentido analisar os componentes individuais dessas estat´ısticas uma vez que estes componentes s˜ao fun¸co˜es dos valores observados e preditos pelo modelo Assim, se em uma tabela de contingˆencia s × 2, tem-se para cada uma das s linhas

ni+ sujeitos dos quais ni1 apresentam a resposta de interesse (sucesso) e θˆi1 denota a probabilidade predita de sucesso para a i-´esima linha (grupo), define-se o i-´esimo res´ıduo por: ni1 − ((ni+ ) θˆi1 ) ci = q (ni+ ) θˆi1 (1 − θˆi1 )

i = 1, · · · , s.

Esses res´ıduos s˜ao conhecidos como res´ıduos de Pearson, uma vez que a soma deles ao quadrado resulta em QP . Exame dos valores residuais ci auxiliam a determinar qu˜ao bem o modelo se ajusta aos grupos individuais. Freq¨ uentemente, res´ıduos excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste. Similarmente, a deviance residual ´e um componente da estat´ıstica deviance e ´e expressa por: "

ni1 di = sinal(ni1 − yˆi1 ) 2 ni1 log yˆi1

!

ni+ − ni1 + 2(ni+ − ni1 ) log ni+ − yˆi1

!#1/2

em que yˆi1 = (ni+ ) θˆi1 . A soma das deviances residuais di ao quadrado resulta na estat´ıstica deviance QL . A partir do exame dos res´ıduos deviance pode-se observar a presen¸ca de res´ıduos n˜ao usuais (demasiadamente grandes) bem como a presen¸ca de outliers ou, ainda, padr˜oes sistem´aticos de varia¸ca˜o indicando, possivelmente, a escolha de um modelo n˜ao muito adequado.

Para os dados da Tabela 23 obtiveram-se os res´ıduos de Pearson e res´ıduos deviance apresentados a seguir.

Giolo, S. R.

61

An´alise de Dados Discretos

Covariavel

Pearson

Deviance Residual

IDADE

Residual

1

25.0000

0.2677 |

2

32.0000

-0.1763 |

3

38.0000

0.0070 |

4

43.0000

-0.2169 |

5

47.0000

-0.0051 |

6

53.0000

0.0375 |

7

57.0000

0.4774 |

8

65.0000

-0.4662 |*

Value * *

|

0.2570

|

|

-0.1791

|

|

0.0070

|

|

-0.2182

|

|

-0.0051

|

|

|

|

|

*

|

|

|

|

*

|

0.0376

|

|*

|

* |

0.4870

|

|

* |

|

-0.4465

| *

|

|

* * * *

*

*

*

Uma an´alise dos res´ıduos mostram que os mesmos apresentam-se satisfat´orios, podendo-se, ent˜ao, concluir que o modelo escolhido ajusta-se bem aos dados. As estat´ısticas de diagn´ostico apresentadas permitem, ao analista, identificar aqueles padr˜oes de covari´aveis que est˜ao com um ajuste pobre. Depois destes padr˜oes serem identificados, pode-se, ent˜ao, avaliar a importˆancia que eles tˆem na an´alise. Esta avalia¸ca˜o ´e similar ao que ´e feito em regress˜ao linear, ou seja, retira-se o(s) padr˜ao(˜oes) com ajuste pobre e verifica-se o impacto causado nas estimativas dos parˆametros bem como nas estat´ısticas QP e QL , usadas para verificar a qualidade de ajuste do modelo. Na Figura 3 encontram-se apresentados os valores observados e preditos pelo mo-

E(Y|x)

0.0

0.2

0.4

0.6

0.8

delo de regress˜ao log´ıstico ajustado.

30

40

50

60

idade

Figura 3: Valores observados e preditos pelo modelo.

Giolo, S. R.

62

An´alise de Dados Discretos

4.5

Exemplos

4.5.1

Exemplo 1 Os dados apresentados na Tabela 28 referem-se a um estudo realizado com pa-

cientes que procuraram uma determinada cl´ınica para serem submetidos a um eletrocardiagrama (ECG). A vari´avel resposta, presen¸ca ou ausˆencia de doen¸ca coron´aria arterial, bem como as covari´aveis sexo e ECG, s˜ao dicotˆomicas. Tabela 28. Estudo sobre doen¸ca coron´aria arterial. Sexo (x1 )

ECG (x2 )

Presen¸ca doen¸ca

Ausˆencia doen¸ca

Total

Feminino

< 0,1 ST

4

11

15

Feminino

≥ 0,1 ST

8

10

18

Masculino

< 0,1 ST

9

9

18

Masculino

≥ 0,1 ST

21

6

27

Assumindo-se que a vari´avel resposta apresenta distribui¸ca˜o binomial (uma para cada linha da tabela) de modo que tem-se, associado a tabela, o modelo produto de binomias independentes, pode-se utilizar o modelo de regress˜ao log´ıstico para descrever a varia¸ca˜o entre os θi1 (x), isto ´e, (

exp β0 + β1 x1 + β2 x2 θi1 (x) =

(

)

1 + exp β0 + β1 x1 + β2 x2

)

em que β0 ´e o intercepto e, β1 e β2 , s˜ao os parˆametros desconhecidos associados a`s covari´aveis sexo e ECG, respectivamente. Assim, tem-se que: θi1 (x) log 1 − θi1 (x)

!

= logit(θi1 (x)) = β0 + β1 x1 + β2 x2

o, que matricialmente corresponde a:

(11)

Giolo, S. R.

63

An´alise de Dados Discretos





   logit(θ ) 31  

=     β   0  

 logit(θ11 )       logit(θ21 ) 

logit(θ41 )



 β0    β0







    1 0 0      β0     + β2    1 0 1   =   β    1     1 1 0         β2 + β2 1 1 1

+ β1

β0 + β 1

Esse tipo de parametriza¸ca˜o ´e freq¨ uentemente denominada “parametriza¸ca˜o de efeito incremental”. Como a combina¸ca˜o sexo feminino e ECG < 0,1 s˜ao descritas pelo intercepto, esse grupo ´e conhecido, nessa parametriza¸ca˜o, como a combina¸ca˜o de referˆencia. O parˆametro β1 ´e o incremento no logito para o sexo masculino e β2 ´e o incremento no logito para ECG ≥ 0,1. As probabilidades e odds preditas para esse modelo s˜ao, portanto, as apresentadas na Tabela 29 Tabela 29. Probabilidades e odds preditas para o modelo. Sexo (x1 )

ECG (x2 )

θi1

Odds de doen¸ca

Feminino

< 0,1

eβ0 /(1 + eβ0 )

e β0

Feminino

≥ 0,1

eβ0 +β2 /(1 + eβ0 +β2 )

eβ0 +β2

Masculino

< 0,1

eβ0 +β1 /(1 + eβ0 +β1 )

eβ0 +β1

Masculino

≥ 0,1

eβ0 +β1 /(1 + eβ0 +β1 +β2 )

eβ0 +β1 +β2

Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus as do sexo feminino por: eβ0 +β1 = e β1 e β0

eβ0 +β1 +β2 = e β1 . eβ0 +β2

ou

Similarmente, a odds ratio para alto ECG versus baixo ECG ´e determinado por: eβ0 +β1 +β2 = e β2 eβ0 +β1

ou

eβ0 +β2 = e β2 . e β0

Em regress˜ao log´ıstica, as odds ratio s˜ao, portanto, fun¸co˜es dos parˆametros do modelo. Para modelos com somente efeitos principais, cada odds, que comp˜oem a odds

Giolo, S. R.

64

An´alise de Dados Discretos

ratio, ´e obtida simplesmente exponenciando as estimativas dos parˆametros. Contudo, diferentemente das odds ratio obtidas de tabelas 2 × 2, estas s˜ao ajustadas para todas as outras covari´aveis no modelo. 4.5.1.1

Resultados e conclus˜ oes obtidas para os dados do exemplo 1

As estimativas de m´axima verossimilhan¸ca do modelo apresentado em (11) e obtidas para os dados do exemplo 1 foram: βˆ0 = -1,1747 (s.e.= 0,4854), βˆ1 = 1,277 (s.e.= 0,4980) e βˆ2 = 1,0545 (s.e.= 0,4980). A Tabela 30 apresenta as diferen¸cas de deviances e mostra a significˆancia das vari´aveis sexo (p = 0,00762) e ECG (p = 0,03108). Tabela 30. Tabela de diferen¸ca de deviances para os dados do exemplo 1. Modelos seq¨ uenciais

g.l.

Deviance residual

Dif. Deviance

Dif. g.l.

valor p

Nulo

3

11,9835

X1 : sexo

2

4,8626

7,1209

1

0,00762

X2 : ECG

1

0,2141

4,6485

1

0,03108

A ANODEV apresentada na Tabela 31 mostra que o modelo de regress˜ao log´ıstico, com as covari´aveis sexo e ECG, apresentou uma redu¸ca˜o na deviance residual de 11,7694 (de um total de 11,9835) evidenciando que ambas as covari´aveis est˜ao associadas a vari´avel resposta e devem, portanto, permanecer no modelo uma vez que estas explicam grande parte da variabilidade total dos dados. Tabela 31. An´alise de deviance para os dados do exemplo 1. Causa de varia¸ca˜o

g.l.

Deviances

RV

valor p

Regress˜ao

2

11,7694

11,7694

0,00278

Res´ıduos

1

0,2141

Total

3

11,9835

Giolo, S. R.

65

An´alise de Dados Discretos

Para o modelo ajustado e expresso por: logit(θˆi1 (x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e, sendo assim, n˜ao se rejeita a hip´otese nula H0 de que o modelo ajustado ´e satisfat´orio. Os valores θi1 observados e preditos pelo modelo bem como a deviance residual e res´ıduos de Pearson s˜ao apresentados na Tabela 32. Nota-se, desses resultados, que os res´ıduos apresentam-se satisfat´orios, podendo-se, ent˜ao, concluir que o modelo escolhido ajusta-se bem aos dados. Tabela 32. Valores θi1 observados e preditos pelo modelo, deviance residual e res´ıduo de Pearson. θi1

θˆi1

(θi1 - θˆi1 )

di = deviance res.

ci = res. de Pearson

0,2666667

0,2360103

0,03065632

0.2756894

0.2796124

0,4444444

0,4699914

-0,02554693

-0.2174355

-0.2171644

0,5000000

0,5255469

-0,02554693

-0.2169146

-0.2170564

0,7777778

0,7607465

0,01703129

0.2091855

0.2074342

Tem-se, ent˜ao, que a odds ratio dos pacientes do sexo masculino versus a dos ˆ (m/f ) = pacientes do sexo feminino pode ser estimada, como visto anteriormente, por OR e1,277 = 3,586. Homens, nesse estudo, tˆem, portanto, odds 3,5 vezes maior de doen¸ca coron´aria arterial do que a odds das mulheres. De modo an´alogo, a odds ratio estimada ˆ = e1,0545 = 2,871. Ent˜ao, pacientes com de ECG ≥ 0,1 versus a de ECG < 0,1 ´e de OR ECG ≥ 0,1 tˆem odds aproximadamente 3 vezes maior de doen¸ca coron´aria arterial do que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo masculino e com ECG ≥ 0,1 s˜ao os mais propensos a apresentaram doen¸ca coron´aria arterial. Intervalos de confian¸ca para as odds ratio podem ser obtidos usando-se as proˆ (m/f ) ´e dado por priedades assint´oticas de βˆi . Assim, por exemplo, o I.C.95% para OR (e(1,277−1,96∗0,498) , e(1,277+1,96∗0,498) ) = (1,35; 9,51). Analogamente, para a odds ratio de ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confian¸ca, de (1,082; 7,618).

Giolo, S. R.

66

An´alise de Dados Discretos

A intera¸ca˜o entre sexo e ECG, quando inclu´ıda no modelo, mostrou-se n˜ao significativa com correspondente valor p, associado ao teste da raz˜ao de verossimilhan¸cas, de 0,6436. 4.5.2

Exemplo 2 Neste exemplo dados de um estudo sobre infec¸co˜es urin´arias (Koch et al., 1985),

que encontram-se apresentados na Tabela 33, ser˜ao analisados. Tabela 33. Estudo sobre tratamento de infec¸co˜es urin´arias. Diagn´ostico(x1 )

Tratamento (x2 )

Curado

N˜ao curado

Total

Infec¸ca˜o complicada

A

78

28

106

Infec¸ca˜o complicada

B

101

11

112

Infec¸ca˜o complicada

C

68

46

114

Infec¸ca˜o n˜ao complicada

A

40

5

45

Infec¸ca˜o n˜ao complicada

B

54

5

59

Infec¸ca˜o n˜ao complicada

C

34

6

40

Observe que trˆes tratamentos foram aplicados aos pacientes que apresentaram, no diagn´ostico, infec¸ca˜o urin´aria complicada, ou n˜ao, de ser curada. A resposta ´e, portanto, dicotˆomica, a covari´avel diagn´ostico apresenta duas categorias e a covari´avel ´ importante notar que uma covari´avel com L categorias tratamento trˆes categorias. E deve ser representada por (L - 1 ) parˆametros. O modelo com os efeitos principais (diagn´ostico e tratamento) e a intera¸ca˜o entre eles ser´a, portanto, representado matricialmente por:              

logit(θ11 )





    logit(θ21 )       logit(θ31 )   =   logit(θ41 )       logit(θ51 )     logit(θ61 )

1

1

1

0

1

1

1

0

1

0

1

1

0

0

0

1

0

1

0

0

1

0

0

1

0

1

0

0

0

0

0



  1    0    0    0   0

β0



  β1    β2    β3    β4   β5

Giolo, S. R.

67

An´alise de Dados Discretos

Uma vez que o modelo considerado ´e o saturado, isto ´e, seu n´ umero de parˆametros ´e igual ao n´ umero de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste n˜ao se aplica a este modelo porque n˜ao existem graus de liberdade dispon´ıveis. Ajustar esse modelo, contudo, permite que seja determinada a existˆencia, ou n˜ao, do efeito da intera¸ca˜o. Na Tabela 34 ´e apresentado as diferen¸cas de deviances dos modelos seq¨ uenciais ajustados. Tabela 34. Tabela de Diferen¸ca de Deviances para o estudo sobre infec¸co˜es urin´arias. Modelo

g.l.

Deviance Residual

Diferen¸ca Deviances

Diferen¸ca g.l.

Nulo

5

44,473

X1

4

30,628

13,844

1

X1 e X 2

2

2,515

28,114

2

X1 , X2 e X 1 ∗ X 2

0

0,000

2,515

2

Da tabela de diferen¸ca das deviances tem-se, portanto, que o teste da RV , relativo a hip´otese nula de que a intera¸ca˜o ´e n˜ao significativa, o que eq¨ uivale a testar a hip´otese H0 : β4 = β5 = 0, resultou em RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, n˜ao h´a evidˆencias para a rejei¸ca˜o da hip´otese H0 . O modelo sem a intera¸ca˜o entre diagn´ostico e tratamento ser´a, ent˜ao, a seguir analisado. Para saber se h´a, ou n˜ao, efeito da covari´avel tratamento, o que eq¨ uivale a testar a hip´otese nula H0 : β2 = β3 = 0, usou-se, novamente, o teste da RV obtendo-se RV = 28,114 (p = 7,85e-07, g.l. = 2). A conclus˜ao ´e, portanto, de que h´a evidˆencias de efeito dos tratamentos. Analogamente obteve-se, para o teste do efeito da covari´avel diagn´ostico (H0 : β1 = 0), RV = 13,844 (p = 0,000198, g.l.= 1) concluindo-se, tamb´em, haver evidˆencias de efeito do diagn´ostico. O modelo a ser ajustado ser´a, portanto, aquele que considera os efeitos principais de diagn´ostico e tratamento. Os respectivos parˆametros estimados, para este modelo, encontram-se apresentados na Tabela 35.

Giolo, S. R.

68

An´alise de Dados Discretos

Tabela 35. Estimativas dos parˆametros obtidas para o modelo ajustado. Parˆametros

Estimativas

e.p.

β0 : intercepto

1,4184

0,2986

β1 : diag = infec¸ca˜o complicada

-0,9616

0,2997

β2 : tratamento A

0,5847

0,2641

β3 : tratamento B

1,5608

0,3158

A ANODEV para esse modelo encontra-se na Tabela 36 e, desta tabela, pode-se observar que as covari´aveis diagn´ostico e tratamento s˜ao altamente associadas a vari´avel resposta (cura, ou n˜ao, da infec¸ca˜o urin´aria). Tabela 36. An´alise de deviance para os dados do exemplo 2. Causa de varia¸ca˜o

g.l.

Deviances

RV

valor p

Regress˜ao

3

41,958

41,958

4.09e-09

Res´ıduos

2

2,515

Total

5

44,473

As estat´ısticas de qualidade de ajuste do modelo considerado resultaram em QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2) fornecendo, assim, evidˆencias de que o modelo apresenta ajuste satisfat´orio aos dados. Ainda, dos valores observados e preditos pelo modelo bem como da deviance residual e dos res´ıduos de Pearson, apresentados na Tabela 37, nota-se que os res´ıduos apresentaram-se satisfat´orios, podendo-se, desse modo, concluir que o modelo escolhido, e expresso por: logit(θˆi1 ) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB em que diag = 1 se infec¸ca˜o urin´aria foi diagnosticada como complicada e 0 em caso contr´ario, tratA = 1 e tratB = 0 se o tratamento A foi utilizado, tratA = 0 e tratB = 1 se o tratamento B foi utilizado e tratA = tratB = 0 se o tratamento C foi utilizado, ajusta-se bem aos dados.

Giolo, S. R.

69

An´alise de Dados Discretos

Tabela 37. Valores observados e preditos, deviance residual e res´ıduo de Pearson. θi1

θˆi1

di = deviance res.

ci = res. de Pearson

0,7358491

0,7391443

-0,07715904

-0,07726359

0,9017857

0,8826267

0,64598342

0,62995503

0,5964912

0,6122501

-0,34450962

-0,34533240

0,8888889

0,8811267

0,16244931

0,16088958

0,9152542

0,9516237

-1,18234402

-1,30201030

0,8500000

0,8050871

0,74055971

0,71706568

Do modelo ajustado pode-se, ent˜ao, obter as odds, apresentadas na Tabela 48, para que se possa tirar algumas conclus˜oes de interesse do pesquisador. Tabela 38. Logitos e odds obtidos a partir do modelo de regress˜ao log´ıstico ajustado. diagn´ostico

tratamento

logito

odds de cura

inf. complicada

A

βˆ0 + βˆ1 + βˆ2 = 1,0415

e1,0415 = 2,8335

inf. complicada

B

βˆ0 + βˆ1 + βˆ3 = 2,0175

e2,0175 = 7,5198

inf. complicada

C

βˆ0 + βˆ1 = 0,4567

e0,4567 = 1,5789

inf. n˜ao complicada

A

βˆ0 + βˆ2 = 2,0031

e2,0031 = 7,4123

inf. n˜ao complicada

B

βˆ0 + βˆ3 = 2,9791

e2,9791 = 19,671

inf. n˜ao complicada

C

βˆ0 = 1,4184

e1,4184 = 4,1305

Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagn´ostico de infec¸ca˜o ˆ = eβˆ1 = 0,3822 e, portanto, a complicada versus a de infec¸ca˜o n˜ao complicada ´e de OR odds de cura, se a infec¸ca˜o for diagnosticada como n˜ao complicada, ´e de (1/0,3822) = 2,6 vezes maior do que a odds de cura no caso de infec¸co˜es diagnosticadas como complicadas. Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, ´e ˆ

de eβ2 = 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando ˆ

comparado ao tratamento C, ´e de eβ3 = 4,76 vezes maior. De modo an´alogo, tem-se que ˆ

ˆ

a odds de cura com o tratamento B, comparado ao tratamento A, ´e de eβ3 −β2 = 2,65 vezes maior.

Giolo, S. R. 4.5.3

70

An´alise de Dados Discretos

Exemplo 3 Neste exemplo ser˜ao analisados os dados apresentados na Tabela 39 referente a

um estudo sobre doen¸ca coron´aria, similar ao analisado previamente no exemplo 1, considerando-se, no entanto, al´em das covari´aveis sexo e eletrocardiograma (ECG), a covari´avel idade (em anos). Ainda, a covari´avel ECG ´e considerada, nesse estudo, em trˆes categorias: < 0,1, [0,1; 0,2) e ≥ 0,2 e foi considerada nos modelos como uma vari´avel ordinal em que foram assumidos, para as categorias citadas, os escores 0, 1 e 2, respectivamente. Tabela 39. Dados de pacientes observados em um estudo sobre doen¸ca coron´aria. sexo

ECG

idade

dc

sexo

ECG

idade

dc

sexo

ECG

idade

dc

sexo

ECG

idade

dc

0

0

28

0

1

0

42

1

0

1

46

0

1

1

45

0

0

0

34

0

1

0

44

1

0

1

48

1

1

1

45

1

0

0

38

0

1

0

45

0

0

1

49

0

1

1

45

1

0

0

41

1

1

0

46

0

0

1

49

0

1

1

46

1

0

0

44

0

1

0

48

0

0

1

52

0

1

1

48

1

0

0

45

1

1

0

50

0

0

1

53

1

1

1

57

1

0

0

46

0

1

0

52

1

0

1

54

1

1

1

57

1

0

0

47

0

1

0

52

1

0

1

55

0

1

1

59

1

0

0

50

0

1

0

54

0

0

1

57

1

1

1

60

1

0

0

51

0

1

0

55

0

0

2

46

1

1

1

63

1

0

0

51

0

1

0

59

1

0

2

48

0

1

2

35

0

0

0

53

0

1

0

59

1

0

2

57

1

1

2

37

1

0

0

55

1

1

1

32

0

0

2

60

1

1

2

43

1

0

0

59

0

1

1

37

0

1

0

30

0

1

2

47

1

0

0

60

1

1

1

38

1

1

0

34

0

1

2

48

1

0

1

32

1

1

1

38

1

1

0

36

1

1

2

49

0

0

1

33

0

1

1

42

1

1

0

38

1

1

2

58

1

0

1

35

0

1

1

43

0

1

0

39

0

1

2

59

1

0

1

39

0

1

1

43

1

1

0

42

0

1

2

60

1

0

1

40

0

1

1

44

1

sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2; dc = 1 se doen¸ ca coron´ aria presente e dc = 0 em caso contr´ ario.

Observe que diversos valores da covari´avel idade s˜ao u ´nicos o que implica que, na constru¸ca˜o de uma tabela de contingˆencia considerando-se as 3 covari´aveis, existir˜ao diversas caselas com somente uma observa¸ca˜o. Isso significa que o tamanho amostral requerido pelas estat´ısticas de teste QL e QP n˜ao ser˜ao atendidos e n˜ao poder˜ao, desse modo, serem calculadas. Este fato ´e muito comum quando se tem a presen¸ca de covari´aveis cont´ınuas. Para esses casos, estrat´egias alternativas encontram-se dispon´ıveis. Um modelo de interesse para os dados apresentados ´e aquele com os termos sexo,

Giolo, S. R.

71

An´alise de Dados Discretos

ECG e idade e, possivelmente, as intera¸co˜es entre eles. Um cuidado que se deve ter, no entanto, ´e quanto ao n´ umero de parˆametros envolvidos. Alguns analistas sugerem que haja pelo menos 5 observa¸co˜es, da resposta que ocorre com menor freq¨ uˆencia, para cada parˆametro sendo considerado. Nesse estudo tem-se 37 indiv´ıduos que apresentaram resposta n˜ao e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere que em torno de 7 a 8 parˆametros podem ser considerados. Na Tabela 40 ´e apresentado as diferen¸cas de deviances dos modelos seq¨ uenciais ajustados para os dados do estudo descrito. Tabela 40. Tabela das diferen¸cas de deviances dos modelos de regress˜ao log´ıstica seq¨uˆencias ajustados ao estudo sobre doen¸cas coron´arias. Modelo

g.l.

Deviance Residual

Diferen¸ca Deviances

Diferen¸ca g.l.

Nulo

77

107,926

X1

76

101,840

6,086

1

X1 e X 2

75

95,080

6,760

1

X1 , X 2 e X 3

74

86,811

8,626

1

X1 , X2 , X3 + int. duplas

71

85,522

1,289

3

X1 , X2 , X3 + int. duplas e tripla

70

85,414

0,108

1

.

X1 = sexo; X2 = ECG e X3 = idade

Pela tabela de diferen¸ca das deviances tem-se, portanto, que o teste da RV , relativo a hip´otese nula de que a intera¸ca˜o tripla ´e n˜ao significativa, o que eq¨ uivale a testar a hip´otese H0 : β7 = 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo, n˜ao h´a evidˆencias para a rejei¸ca˜o da hip´otese H0 . De modo an´alogo, para o teste da hip´otese nula H0 : β4 = β5 = β6 = 0 (intera¸co˜es duplas) tem-se RV = 1,289 (p = 0,7317, g.l. = 3) e, assim, n˜ao h´a evidˆencias para a rejei¸ca˜o da hip´otese nula. Como h´a evidˆencias de que as intera¸co˜es tripla e duplas n˜ao s˜ao necess´arias no modelo, testou-se as hip´oteses: a) H0 : β3 = 0 em que RV = 8,626 (p = 0,0033, g.l.= 1) b) H0 : β2 = 0 em que RV = 6,760 (p = 0,0093, g.l.= 1) c) H0 : β1 = 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)

Giolo, S. R.

72

An´alise de Dados Discretos

concluindo-se, portanto, haver evidˆencias para rejeitar as trˆes hip´oteses nulas testadas. O modelo a ser ajustado ser´a, portanto, aquele que considera os efeitos principais de sexo, ECG e idade. Os respectivos parˆametros estimados, para este modelo, encontram-se apresentados na Tabela 41. Tabela 41. Estimativas dos parˆametros do modelo ajustado. Parˆametros

Estimativas

e.p.

β0 : intercepto

-5,6417

1,8026

β1 : sexo = masculino

1,3564

0,5458

β2 : ECG

0,8732

0,3839

β3 : idade

0,0928

0,0350

O modelo estimado ficou expresso, portanto, por: logit(θi1 ) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade. Para avaliar a qualidade do modelo ajustado, na presen¸ca de vari´aveis cont´ınuas, Hosmer e Lemeshow (1989) propuseram uma estat´ıstica, denotada aqui por QHL , que considera as contagens esperadas e observadas, para as respostas dc = 1 e dc = 0, em cada decil das probabilidades preditas. Para esse estudo, tal estat´ıstica resultou em ´ poss´ıvel, desse modo, concluir que o modelo 4,776 (p = 0,7812, g.l. = 8 (# decis -2)). E considerado ajusta-se satisfatoriamente aos dados. Os res´ıduos (deviance e de Pearson)

2 1 0 −2

−1

deviance residual

1 0 −1 −2

residuos de Pearson

2

apresentaram-se, tamb´em, satisfat´orios como pode ser observado na Figura 4.

0

20

40 Index

60

80

0

20

40

60

80

Index

Figura 4: Res´ıduos de Pearson e deviance residual.

Giolo, S. R.

An´alise de Dados Discretos

73

A odds ratio para sexo, ajustado para ECG e idade, ´e, nesse estudo, estimada por OR = e1,3564 = 3,882. Assim, a odds de doen¸ca coron´aria dos pacientes do sexo masculino ´e de 3,882 vezes maior do que a odds de doen¸ca coron´aria dos pacientes do sexo feminino. De modo an´alogo, a odds ratio para ECG, ajustado para sexo e idade, ´e estimada por OR = e0,8732 = 2,395. Isto significa que a odds de doen¸ca coron´aria de pacientes com ECG = 1 ´e 2,395 vezes maior do que a odds daqueles com ECG = 0 bem como que, a odds dos pacientes com ECG = 2 ´e de 2,395 vezes maior do que a odds dos pacientes com ECG = 1. Ainda, a odds ratio para a idade, ajustado para sexo e ECG, dada por OR = e0,0929 = 1,097 significa que a odds de doen¸ca coron´aria de um paciente com x + 1 anos ´e 1,097 vezes maior do que a odds de um paciente com x anos. Para, por exemplo, dois pacientes do mesmo sexo e mesmo ECG, mas em que um deles tenha 30 anos e outro 40, tem-se OR = e0,0929∗(40−30) = 2,53, ou seja, a odds de doen¸ca coron´aria do paciente com 40 anos ´e de 2,53 vezes maior do que a odds do paciente com 30 anos. De um modo geral pode-se concluir, desse estudo, que a presen¸ca de doen¸ca coron´aria encontra-se positivamente associada com a idade e com o resultado do ECG bem como que, os pacientes do sexo masculino s˜ao mais propensos a apresent´a-la. 4.5.4

M´ etodos auxiliares no diagn´ otico do modelo ajustado

4.5.4.1

QQplot com envelope simulado

No caso em que a vari´avel resposta ´e assumida ser normalmente distribu´ıda, ´e comum que afastamentos s´erios da distribui¸ca˜o Normal sejam verificados por meio do gr´afico de probabilidades Normal dos res´ıduos. No contexto de modelos lineares generalizados, em que distribui¸co˜es diferentes da Normal s˜ao tamb´em consideradas, gr´aficos similares com envelopes simulados podem ser tamb´em constru´ıdos com os res´ıduos gerados a partir do modelo ajustado. A inclus˜ao do envelope simulado no QQplot auxilia a decidir se o pontos diferem significativamente de uma linha reta (Atkinson, 1985). Paula (2000) apresenta c´odigos em linguagem Splus, que podem ser utilizados no pacote estat´ıstico R, para gerar tais gr´aficos em: regress˜ao gama, log´ıstica, Poisson e Binomial Negativa, al´em da Normal. Para que o modelo ajustado seja considerado

Giolo, S. R.

74

An´alise de Dados Discretos

satisfat´orio, faz-se necess´ario que as deviances residuais caiam dentro do envelope simulado. Para os dados desse exemplo, o QQplot obtido encontra-se apresentado na Figura 5. Desta figura ´e poss´ıvel observar que n˜ao ocorreram afastamentos s´erios da distribui¸ca˜o Binomial para a vari´avel resposta uma vez que as deviances encontram-se dentro do envelope.

0 −1 −2

Deviance

1

2

Normal Q−Q Plot

−2

−1

0

1

2

Percentis

Figura 5: QQplot com envelope simulado para os dados do exemplo 3.

4.5.4.2

Poder preditivo do modelo e outras medidas auxiliares

O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar a qualidade do modelo ajustado. Para isso, faz-se necess´ario estabelecer uma probabilidade, denominada “ponto de corte”, a partir da qual se estabele¸ca que: - a vari´avel resposta receba o valor 1, isto ´e, Y = 1 para probabilidades estimadas pelo modelo maiores ou iguais a esse ponto de corte e, ainda, que - a vari´avel resposta receba o valor 0, isto ´e, Y = 0 para probabilidades estimadas pelo modelo menores do que esse ponto de corte.

Giolo, S. R.

75

An´alise de Dados Discretos

Estabelecendo o ponte de corte pc = 0.50 obteve-se para os dados do exemplo 3, os resultados apresentados na Tabela 42. Desta tabela tem-se que: 31+25 78

a) valor preditivo do modelo = b) valor preditivo + = c) falsos positivos =

31 43

12 37

= 0, 7179

= 0, 7209 e valor preditivo - =

= 0, 3243 e falsos negativos =

d) sensibilidade do modelo =

31 41

= 0, 7143

= 0, 2439

= 0, 7561

25 37

e) especificidade do modelo =

10 41

25 35

= 0, 6757

Tabela 42. Classifica¸co˜es pelo modelo para pc = 0.5 vs. observado. Classificado pelo modelo Observado

dc = 1 (+)

dc = 0 (-)

Totais

dc = 1 (+)

31

10

41

dc = 0 (-)

12

25

37

Totais

43

35

78

De um modo geral, e dos resultados apresentados, pode-se concluir que o modelo ajustado apresenta-se satisfat´orio.

5

˜ LOG´ISTICA POLITOMICA ˆ REGRESSAO A regress˜ao log´ıstica tamb´em se aplica, como mencionado no cap´ıtulo anterior, a

situa¸co˜es em que a vari´avel resposta apresenta mais do que duas categorias (respostas politˆomicas), podendo, as categorias, serem ordinais ou nominais.

5.1

Resposta ordinal: modelo de odds proporcionais Para tratar a situa¸ca˜o em que a resposta ´e ordinal, considere os dados apresentados

na Tabela 43 em que pacientes do sexo feminino e masculino receberam o tratamento A, ou um placebo, para suas dores de artrite. A resposta, nesse estudo, foi a o grau de melhora das dores: nenhuma, alguma e melhora acentuada. Tabela 43. Dados sobre tratamentos para artrite Grau de melhora Sexo

Tratamento

Acentuada

Alguma

Nenhuma

Totais

F

A

16

5

6

27

F

Placebo

6

7

19

32

M

A

5

2

7

14

M

Placebo

1

0

10

11

Uma poss´ıvel estrat´egia de an´alise desses dados seria criar uma vari´avel resposta dicotˆomica combinando duas das categorias de respostas. Contudo, visto que existe uma ordem natural das categorias de resposta, faz sentido considerar uma estrat´egia que leve em conta essa ordena¸ca˜o. Considere, desse modo, as quantidades: θhi1 = πhi1

e

θhi2 = πhi1 + πhi2

Giolo, S. R.

77

An´alise de Dados Discretos

em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabilidade de alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1 para sexo feminino, h = 2 para sexo masculino, i = 1 para tratamento A e i = 2 para placebo). Assim, θhi1 ´e a probabilidade de melhora acentuada e θhi2 ´e a probabilidade de melhora acentuada ou alguma melhora, ou seja, ´e uma probabilidade acumulada. Para uma resposta dicotˆomica foi visto que, uma u ´nica fun¸ca˜o logito ´e considerada para cada subpopula¸ca˜o (cada linha da tabela de contingˆencia). J´a para uma resposta ordinal com L > 2 categorias, L − 1 logitos cumulativos, baseados nas probabilidades acumuladas, s˜ao considerados para cada subpopula¸ca˜o. Para trˆes categorias de resposta, como ´e o caso do exemplo apresentado na Tabela 43, os dois logitos cumulativos s˜ao expressos por: "

πhi1 logit(θhi1 ) = log πhi2 + πhi3

#

e

"

#

πhi1 + πhi2 logit(θhi2 ) = log . πhi3

Esses logitos s˜ao, respectivamente, o log(odds) de melhora acentuada para alguma ou nenhuma melhora e o log(odds) de melhora acentuada ou alguma melhora para nenhuma melhora. O modelo de odds proporcionais leva em considera¸ca˜o ambas as odds citadas. Assumindo-se que os totais marginais nhi+ s˜ao fixos, tem-se, associado a cada subpopula¸ca˜o (cada linha da tabela de contingˆencia), a distribui¸ca˜o multinomial em que

P3

j=1

πhij = 1. Um modelo, que se aplica a ambos os logitos simultaneamente, para

cada combina¸ca˜o de sexo e tratamento, poderia, ent˜ao, ser escrito por: logit(θhik ) = β0k + β 0k xhi em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos s˜ao distintos bem como existem diferentes conjuntos de parˆametros de regress˜ao para cada logito. Com a suposi¸ca˜o de odds proporcionais tem-se que β k = β para todo k, simplicando, assim, o modelo para: logit(θhik ) = β0k + β 0 xhi

Giolo, S. R.

78

An´alise de Dados Discretos

que tamb´em pode ser expresso por: θhik =

n

exp β0k + β 0 xhi n

o

1 + exp β0k + β 0 xhi

o =

n

exp β0k + n

Pp

g=1

1 + exp β0k +

xhig

Pp

o

g=1 xhig

o

em que g = 1, ..., p refere-se as covari´aveis. Esse modelo ´e similar ao modelo de regress˜ao log´ıstica dicotˆomico e ´e tamb´em ajustado por m´etodos de m´axima verossimilhan¸ca. Os valores para πhij podem, usando-se esse modelo, ser determinados por meio das apropriadas subtra¸co˜es de θhik , ou seja: πhi1 = θhi1 πhi2 = θhi2 − θhi1 πhi3 = 1 − θhi2 . 5.1.1

Regress˜ ao log´ıstica politˆ omica ajustada aos dados sobre artrite Sob a suposi¸ca˜o de odds proporcionais, o modelo de efeitos principais ´e um apro-

priado ponto de partida para a an´alise dos dados sobre artrite e, este modelo, em nota¸ca˜o matricial, ´e expresso por:                         



logit(θ111 )  

logit(θ112 ) logit(θ121 ) logit(θ122 ) logit(θ211 ) logit(θ212 ) logit(θ221 ) logit(θ222 )



 β01            β   01         =     β01               β01    



+ β1 + β2  

β02 + β1 + β1

β02 + β1

β02

β02



 1     0 + β2        1         0   =    1 + β2       + β2    0       1    



0 1 1  

1 1 1     0 1 0  β   01  

1 1 0 0 0 1 1 0 1 0 0 0

0 1 0 0

    β02      β1    β2      

       

Esse modelo ´e muito similar aos modelos descritos anteriormente, exceto pela existˆencia de dois parˆametros de intercepto, correspondendo as duas fun¸co˜es logito sendo modeladas para cada subpopula¸ca˜o. O parˆametro β01 ´e o intercepto do primeiro logito cumulativo e o parˆametro β02 ´e o intercepto do segundo logito cumulativo, β1 ´e

Giolo, S. R.

79

An´alise de Dados Discretos

o efeito (incremento) do sexo feminino e β2 ´e o efeito (incremento) do tratamento A. Sexo masculino e o placebo compreendem a casela de referˆencia. Na Tabela 44 s˜ao apresentadas as diferen¸cas de deviances dos modelos seq¨ uenciais ajustados, podendo-se observar, desta tabela, que a intera¸ca˜o entre sexo e tratamento ´e n˜ao significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). J´a para os efeitos principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812 (p = 6,06e−7 ), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos s˜ao significativos e devem, portanto, permanecer no modelo. Tabela 44. Tabela de Diferen¸ca de Deviances para os dados sobre artrite. Modelo

Deviance Residual

Diferen¸ca Deviances

Diferen¸ca g.l.

Nulo

169,9159

X1

166,1106

3,8053

1

X1 e X 2

150,0294

16,0812

1

X1 , X2 e X 1 ∗ X 2

149,7210

0,3084

1

X1 = sexo, X2 = tratamento

Os respectivos parˆametros estimados, para o modelo com as covari´aveis sexo e tratamento, encontram-se apresentados na Tabela 45. Tabela 45. Estimativas dos parˆametros obtidas para o modelo ajustado. Parˆametros

Estimativas

e.p.

β01 : intercepto 1

-2,6672

0,6065

β02 : intercepto 2

-1,8128

0,5654

β1 : sexo feminino

1,3187

0,5381

β2 : tratamento A

1,7973

0,4718

A avalia¸ca˜o da qualidade de ajuste do modelo de odds proporcionais ´e similar a realizada para o modelo de regress˜ao log´ıstica dicotˆomica. Se pelo menos 80% das contagens observadas nas caselas for 5, ent˜ao pode-se usar as estat´ısticas QL e QP

Giolo, S. R.

80

An´alise de Dados Discretos

as quais, sob H0 , tˆem distribui¸ca˜o Qui-Quadrado com ((r − 1)(s − 1) − p) g.l. em que r = n´ umero de categorias da vari´avel resposta, s = n´ umero de subpopula¸co˜es e p ´e o n´ umero de covari´aveis. Para os dados desse exemplo obtiveram-se QL = 2,7121 (p = 0,6071, g.l. = 4) e QP = 1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se que o modelo ajusta-se satisfatoriamente aos dados. O modelo ajustado ´e, portanto, expresso por: logit(θˆhik ) = βˆ0k + 1, 3187 sexo + 1, 7973 tratamento ou, ainda, θˆhik

exp βˆ0k + 1, 3187 sexo + 1, 7973 tratamento o, n = 1 + exp βˆ0k + 1, 3187 sexo + 1, 7973 tratamento o

n

k = 1, 2.

As probabilidades cumulativas preditas por tal modelo e, conseq¨ uentemente, as probabilidades n˜ao-cumulativas, encontram-se apresentadas na Tabela 46. Tabela 46. Probabilidades cumulativas (θhik ) e n˜ao-cumulativas (πhij ) preditas pelo modelo. Sexo

Tratamento

θˆhi1

θˆhi2

π ˆhi1 = θˆhi1

π ˆhi2 = θˆhi2 - θˆhi1

π ˆhi3 = 1 - θˆhi2

F

A

0,6104

0,7864

0,6104

0,1760

0,2136

F

Placebo

0,2061

0,3789

0,2061

0,1728

0,6211

M

A

0,2953

0,4961

0,2953

0,2008

0,5039

M

Placebo

0,0649

0,1403

0,0649

0,0754

0,8597

Note, ainda, que as probabilidades observadas e preditas pelo modelo, apresentadas na Tabela 5.1.1, encontram-se bastante pr´oximas umas das outras indicando que o modelo ajustado apresenta-se satisfat´orio. As odds ratio s˜ao, tamb´em, obtidas de modo similar a` regress˜ao log´ıstica dicotˆomica. Na Tabela 48 s˜ao apresentadas as odds para o modelo de odds proporcionais ajustado. Desta tabela, pode-se, por exemplo, observar que a odds de melhora acentuada versus alguma ou nenhuma melhora para pacientes do sexo feminino comparada com a odds dos pacientes do sexo masculino ´e de OR =

exp(β01 +β1 +β2 ) exp(β01 +β2 )

=

exp(β01 +β1 ) exp(β01 )

=

Giolo, S. R.

81

An´alise de Dados Discretos Tabela 47. Probabilidades observadas e preditas pelo modelo. observadas

preditas

(observadas - preditas)

0.5925926

0.61036848

-0.017775889

0.1851852

0.17601388

0.009171310

0.2222222

0.21361764

0.008604579

0.1875000

0.20612474

-0.018624743

0.2187500

0.17281504

0.045934963

0.5937500

0.62106022

-0.027310220

0.3571429

0.29527688

0.061865982

0.1428571

0.20084884

-0.057991694

0.5000000

0.50387429

-0.003874287

0.0909091

0.06493692

0.025972174

0.0000000

0.07536270

-0.075362704

0.9090909

0.85970038

0.049390531

exp(β1 ). Assim, pacientes do sexo feminino tˆem odds e1,3187 = 3, 738 vezes maior de mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes reˆ

cebendo o tratamento A tˆem odds eβ2 = e1,8128 = 6,13 vezes maior de mostrar melhora acentuada do que os pacientes recebendo placebo e, pela suposi¸ca˜o de odds proporcionais assumida para o modelo ajustado, esta ´e tamb´em a odds ratio para melhora acentuada ou alguma melhora versus nenhuma melhora. Tabela 48. F´ormulas das odds obtidas para o modelo de odds proporcionais ajustado. Melhora acentuada versus

Melhora acentuada ou alguma

Sexo

Tratamento

alguma ou nenhuma

versus nenhuma

F

A

exp{β01 + β1 + β2 }

exp{β02 + β1 + β2 }

F

Placebo

exp{β01 + β1 }

exp{β02 + β1 }

M

A

exp{β01 + β2 }

exp{β02 + β2 }

M

Placebo

exp{β01 }

exp{β02 }

Observe que a suposi¸ca˜o de odds proporcionais ´e necess´aria para o uso do modelo aqui apresentado. Assim, a hip´otese de que existe um vetor comum de β, em vez de distintos β k , deve ser testada, isto ´e, deve-se testar a hip´otese nula H0 : β k = β. Se esta hip´otese for rejeitada, uma outra abordagem deve ser considerada. Uma abordagem

Giolo, S. R.

82

An´alise de Dados Discretos

sugerida, nesses casos, ´e considerar os dados como nominais e, ent˜ao, ajustar um modelo para os logitos generalizados (tratado na pr´oxima se¸ca˜o). Para o exemplo considerado, o teste da hip´otese nula citada resultou em QRS = 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − p) = 2), concluindo-se, portanto, que a suposi¸ca˜o de odds proporcionais ´e razo´avel para esses dados.

5.2

Resposta nominal: modelo de logitos generalizados Um modelo de regress˜ao log´ıstica tamb´em pode ser usado para modelar os dados

quando a vari´avel resposta for nominal. Nesses casos, contudo, ajusta-se um modelo para os logitos generalizados e n˜ao para os logitos cumulativos. Para tratar este modelo, considere os dados apresentados na Tabela 49 referente a um estudo realizado com crian¸cas para determinar qual programa de aprendizado elas preferem bem como se, tal preferˆencia, estaria associada com a escola e o per´ıodo escolar (padr˜ao ou com atividades em tempo integral). Tabela 49. Dados sobre programa escolar. Preferˆencia aprendizado Escola

Per´ıodo

Individual

Grupo

Sala Aula

Totais

1

Padr˜ao

10

17

26

53

1

Integral

5

12

50

67

2

Padr˜ao

21

17

26

64

2

Integral

16

12

36

64

3

Padr˜ao

15

15

16

46

3

Integral

12

12

20

44

Uma vez que as categorias da vari´avel resposta n˜ao apresentam uma ordena¸ca˜o, o modelo de odds proporcionais n˜ao ´e apropriado. Assim, o logito generalizado, usado nessas situa¸co˜es, ´e definido como: logithij

"

πhij = log πhir

#

Giolo, S. R.

83

An´alise de Dados Discretos

para j = 1, 2, · · · , (r − 1). Cada logito ´e, portanto, formado com a probabilidade de cada categoria sobre a u ´ltima categoria de resposta. Os logitos generalizados para uma resposta com trˆes categorias, como ´e o caso do exemplo sobre o programa escolar, s˜ao expressos, portanto, por: logithi1

"

#

πhi1 = log , πhi3

logithi2

"

πhi2 = log πhi3

#

para h = 1, 2, 3 (escolas) e i = 1, 2 (per´ıodos padr˜ao e integral, respectivamente). Desse modo, o modelo a ser ajustado para os logitos generalizados ´e expresso por: logithij = β0k + β 0k xhi em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes interceptos e diferentes conjuntos dos parˆametros de regress˜ao β k . Assim, enquanto para o modelo de odds proporcionais estimam-se m´ ultiplos parˆametros de interceptos para os logitos cumulativos mas um u ´nico conjunto de parˆametros correspondendo a`s covari´aveis, para o modelo de logitos generalizados estimam-se m´ ultiplos conjuntos de parˆametros tanto para o intercepto quanto para as covari´aveis. Como m´ ultiplas fun¸co˜es resposta (logitos) est˜ao sendo modeladas para cada subpopula¸ca˜o (cada linha da tabela de contingˆencia), existe um n´ umero maior de graus de liberdade associados a cada efeito. A forma matricial do modelo ´e, tamb´em, um tanto mais complicada devido a` necessidade de se levar em considera¸ca˜o tais fun¸co˜es m´ ultiplas. Contudo, o procedimento de modelagem ´e o usual, isto ´e, ajusta-se o modelo, examinam-se as estat´ısticas de qualidade de ajuste do modelo ajustado e, se necess´ario, reduz-se o modelo. Note que, como mais de um logito est´a sendo predito por subpopula¸ca˜o, o tamanho amostral necessita ser grande o suficiente para acomodar o n´ umero de logitos sendo modelados. Problemas de estima¸ca˜o dos parˆametros ser˜ao certamente encontrados em situa¸co˜es em que n˜ao existem dados suficientes para justificar a an´alise de logitos generalizados. Em tais situa¸co˜es, simplificar a estrutura da vari´avel resposta para uma razo´avel resposta dicotˆomica e proceder a uma an´alise de regress˜ao log´ıstica dicotˆomica pode ser uma alternativa plaus´ıvel.

Giolo, S. R. 5.2.1

84

An´alise de Dados Discretos

Logitos generalizados ajustados aos dados do programa escolar Os logitos generalizados, nesse exemplo, ser˜ao constru´ıdos considerando-se a pro-

babilidade de preferˆencia de aprendizado individual com respeito ao aprendizado em sala de aula (πhi1 /πhi3 ) e a probabilidade de preferˆencia de aprendizado em grupo com respeito ao aprendizado em sala de aula (πhi2 /πhi3 ). Na Tabela 50 s˜ao apresentadas as diferen¸cas de deviances dos modelos seq¨ uenciais ajustados, podendo-se observar, desta tabela, que a intera¸ca˜o entre escola e per´ıodo ´e n˜ao significativa uma vez que RV = 1,7776 (p = 0,78, g.l. = 4). J´a para os efeitos principais de escola e per´ıodo obtiveram-se RV = 17,3765 (p = 0,0016, g.l. = 4 ) e RV = 11,094 (p = 0,0039, g.l.= 2 ), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos s˜ao significativos e devem, portanto, permanecer no modelo. Tabela 50. Tabela de Diferen¸ca de Deviances para os dados do programa escolar. Modelo

g.l.

Deviance Residual

Nulo

2

695,4043

X1

6

X1 e X 2 X1 , X2 e X 1 ∗ X 2

Diferen¸ca Deviances

Diferen¸ca g.l.

678,0278

17,3765

(6-2) = 4

8

666,9338

11,0940

(8-6) = 2

12

665,1562

1,7776

(12-8) = 4

X1 = escola, X2 = per´ıodo

Note que os graus de liberdade para modelar dois logitos s˜ao duas vezes os graus de liberdade esperados ao modelar-se um u ´nico logito. Isso ocorre porque simultaneamente s˜ao modeladas duas fun¸co˜es resposta (logitos) em vez de uma e, conseq¨ uentemente, o n´ umero de parˆametros a serem estimados s˜ao duplicados. Assim, em um modelo de logitos generalizados, os graus de liberdade associados aos efeitos s˜ao determinados multiplicando-se por (r -1) o n´ umero de graus de liberdade esperado para modelar um logito, sendo r o n´ umero de categorias da vari´avel resposta. Como a intera¸ca˜o apresentou-se n˜ao significativa, o modelo de efeitos principais,

Giolo, S. R.

85

An´alise de Dados Discretos

em nota¸ca˜o matricial, fica expresso por:                                

logit111





1

     0 logit112       1 logit121       0 logit122       1 logit211       0 logit212  =    1 logit221       0 logit222       1 logit311       0 logit312       1 logit321    logit322 0

0

1

0

0

0

1

1

0

1

0

0

0

0

1

0

0

0

−1

1

0

1

0

0

0

0

0

0

1

0

1

1

0

0

0

1

0

0

0

0

1

0

−1

1

0

0

0

1

0

0

−1

0

−1

0

1

1

0

−1

0

−1

0

0

−1

0

−1

0

−1

1

0

−1

0

−1

0

0



  1    0    −1     0    1    0    −1     0    1    0   −1

β01



  β02    β11    β12    β21    β22    β31   β32

Observe, na representa¸ca˜o matricial do modelo, que as linhas ´ımpares correspondem ao primeiro logito e as linhas pares ao segundo logito. Similarmente, as colunas ´ımpares correspondem aos parˆametros do primeiro logito e as pares aos do segundo logito. As estimativas dos parˆametros correspondente ao modelo ajustado encontram-se apresentadas na Tabela 51 e, na Tabela 52, estes s˜ao apresentados de acordo ao logito a que se referem. Tabela 51. Estimativas dos parˆametros do modelo ajustado.

Efeito Intercepto

escola

per´ıodo

Erro

Chi-

Parˆametro

Estimativa

Padr˜ao

Quadrado

valor p

β01

-0,7979

0,1465

29,65

< 0, 0001

β02

-0,6589

0,1367

23,23

< 0, 0001

β11

-0,7992

0,2198

13,22

0,0003

β12

-0,2786

0,1867

2,23

0,1356

β21

0,2836

0,1899

2,23

0,1352

β22

-0,0985

0,1892

0,27

0,6028

β31

0,3737

0,1410

7,03

0,0080

β32

0,3713

0,1353

7,53

0,0061

Giolo, S. R.

86

An´alise de Dados Discretos Tabela 52. Estimativas dos parˆametros do modelo ajustado por logito. logito(indiv./sala aula) Covari´avel

Coeficiente

e.p.

logito(grupo/sala de aula) Coeficiente

e.p.

Intercepto

-0,7979

0,1465

-0,6589

0,1367

Escola 1

-0,7992

0,2198

-0,2786

0,1867

Escola 2

0,2836

0,1899

-0,0985

0,1892

Per´ıodo

0,3737

0,1410

0,3713

0,1353

Pela Tabela 52 ´e poss´ıvel observar que a escola 1 apresenta o maior efeito dentre as escolas, particularmente para o logito comparando aprendizado individual ao aprendizado em sala de aula. O per´ıodo escolar apresenta efeitos similares em ambos os logitos. As odds ratios tamb´em podem ser usadas nos modelos de logitos generalizados para facilitar a interpreta¸ca˜o do modelo. Para o modelo considerado, as odds encontram-se apresentadas na Tabela 53. Tabela 53. Odds preditas pelo modelo de logitos generalizados. Odds Escola

Per´ıodo

Individual/Sala aula

Grupo/Sala aula

1

Padr˜ao

eβ01 +β11 +β31

eβ02 +β12 +β32

1

Integral

eβ01 +β11 −β31

eβ02 +β12 −β32

2

Padr˜ao

eβ01 +β21 +β31

eβ02 +β22 +β32

2

Integral

eβ01 +β21 −β31

eβ02 +β22 −β32

3

Padr˜ao

eβ01 −β11 −β21 +β31

eβ02 −β12 −β22 +β32

3

Integral

eβ01 −β11 −β21 −β31

eβ02 −β12 −β22 −β32

As odds ratio de aprendizado individual, em rela¸ca˜o ao aprendizado em sala de aula, de interesse s˜ao: i) entre per´ıodos: ORP/I =

eβ01 +β11 +β31 = e2∗β31 = 2,11 eβ01 +β11 −β31

Giolo, S. R.

An´alise de Dados Discretos

ii) entre escolas: OR2/1 =

87

eβ01 +β21 +β31 = eβ21 −β11 = 2,95 eβ01 +β11 +β31

OR3/1 =

eβ01 −β11 −β21 +β31 = e−2∗β11 −β21 = 3,72 eβ01 +β11 +β31

OR3/2 =

eβ01 −β11 −β21 +β31 = e−2∗β21 −β11 = 1,26 β +β +β 01 21 31 e

Assim, a odds de preferˆencia pelo aprendizado individual sobre a de aprendizado em sala de aula foi de 2,11 vezes maior nas escolas com per´ıodo escolar padr˜ao do que nas escolas com per´ıodo escolar integral. Ainda, por exemplo, os alunos da escola 2, em rela¸ca˜o aos da escola 1, preferem o aprendizado individual ao em sala de aula sendo, esta preferˆencia, 2,95 vezes maior entre os alunos da escola 2 do que entre os alunos da escola 1. De modo an´alogo tem-se que as odds ratio de aprendizado em grupo, em rela¸ca˜o ao aprendizado em sala de aula, s˜ao: i) entre per´ıodos: ORP/I = ii) entre escolas: OR2/1 =

eβ02 +β12 +β32 = e2∗β32 = e2∗0,3713 = 2,10 eβ02 +β12 −β32

eβ02 +β22 +β32 = eβ22 −β12 = 1,19 β +β +β 02 12 32 e

OR3/1 =

eβ02 −β12 −β22 +β32 = e−2∗β12 −β22 = 1,93 eβ02 +β12 +β32

OR3/2 =

eβ02 −β12 −β22 +β32 = e−2∗β22 −β12 = 1,61 eβ02 +β22 +β32

Desse modo, tem-se que a odds de preferˆencia pelo aprendizado em grupo sobre a de aprendizado em sala de aula foi de 2,10 vezes maior nas escolas com per´ıodo escolar padr˜ao do que nas escolas com per´ıodo escolar integral. Os alunos, por exemplo, da escola 3, em rela¸ca˜o aos da escola 1, preferem o aprendizado em grupo ao em sala de aula sendo, esta preferˆencia, 1,93 vezes maior entre os alunos da escola 3 do que entre os alunos da escola 1. Note, a partir dos resultados apresentados na Tabela 54, que as probabilidades observadas e preditas pelo modelo encontram-se consideravelmente pr´oximas, indicando

Giolo, S. R.

88

An´alise de Dados Discretos

que o modelo ajustado apresenta-se satisfat´orio. Tabela 54.

Maximum Likelihood Predicted Values for Probabilities

---------------------------------------------------------------------------------------------------Observed------Standard escola

periodo

pref

Probability

-------Predicted------Standard

Error

Probability

Error

Residual

--------------------------------------------------------------------------------------------1

1

2

2

3

3

pad

int

pad

int

pad

int

ind

0.1887

0.0537

0.158

0.0403

0.0306

gr

0.3208

0.0641

0.3049

0.0527

0.0159

aula

0.4906

0.0687

0.5371

0.056

-0.047

ind

0.0746

0.0321

0.0989

0.0279

-0.024

gr

0.1791

0.0468

0.1917

0.0393

-0.013

aula

0.7463

0.0532

0.7095

0.0459

ind

0.3281

0.0587

0.3409

0.0515

-0.013

gr

0.2656

0.0552

0.2667

0.0469

-0.001

aula

0.4063

0.0614

0.3924

0.0509

0.0139

ind

0.25

0.0541

0.2372

0.0444

0.0128

0.0368

gr

0.1875

0.0488

0.1864

0.0389

aula

0.5625

0.062

0.5764

0.0518

-0.014

0.0011

ind

0.3261

0.0691

0.3436

0.0587

-0.017 -0.017

gr

0.3261

0.0691

0.3429

0.0582

aula

0.3478

0.0702

0.3136

0.0536

0.0343

ind

0.2727

0.0671

0.2545

0.0521

0.0183

gr

0.2727

0.0671

0.2552

0.0517

0.0176

aula

0.4545

0.0751

0.4904

0.0608

-0.036

---------------------------------------------------------------------------------------------

BIBLIOGRAFIA AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990. AGRESTI, A. An Introduction to Categorical data Analysis. New York: John Wiley & Sons, 1996. BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived health risk, and smokeless tobacco use among white adolescent males, NI Monographs 8, p.43-48, 1989. ´ DEMETRIO,

C.G.B.

Modelos

Lineares

Generalizados

em

Experimenta¸ca˜o

Agronˆomica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001. FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel Dekker, 1987. HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New York: John Wiley & Sons, 1989. McCULLACH, P., NELDER, J.A. Generalized Linear Models. London: Chapman and Hall, 1989. MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the MantelHaenszel procedure, Journal of the American Statistical Association, v.58, p.690-700, 1963. MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retrospective studies of disease, Journal of the National Cancer Institute, v.22, p.719-748, 1959.

Giolo, S. R.

An´alise de Dados Discretos

90

MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the MantelHaenszel one-degree of freedom ch-square test and a related rapid procedure, American Journal of Epidemiology, v.112, p.129-143, 1980. PAULA, G. An´ alise de Regress˜ ao. 2000. PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, p.705-724, 1981. SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de Ecologia dos Insetos. S˜ao Paulo: Agronˆomica Ceres, 1976, 419p. STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis using the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.

Related Documents