Aula 4 Analise Dados Bio Medicos

  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Aula 4 Analise Dados Bio Medicos as PDF for free.

More details

  • Words: 4,371
  • Pages: 38
Análise Inteligente de Dados 4. Algoritmos Básicos

Quanto mais simples melhor…  

Os algoritmos simples obtêm frequentemente resultados surpreendentemente bons Muitos tipos diferentes de estruturas simples    





Um atributo pode fazer o trabalho todo Importância igual de todos os atributos Uma combinação linear pode ser suficiente Uma representação baseada em instâncias pode ser a melhor Estruturas lógicas simples podem ser adequadas

O sucesso de um método depende do domínio de aplicação

Análise Inteligente de Dados

1

Inferência de regras rudimentares 

1R: Aprende uma árvore de decisão com apenas um nível 



Noutras palavras, gera um conjunto de regras que testam um único atributo

Versão básica (assumindo atributos nominais)   



Um ramo para cada valor do atributo Cada ramo atribui a classe mais frequente Medida de erro: proporção de instâncias que não pertencem à classe da maioria no ramo correspondente É escolhido o atributo com menor erro Análise Inteligente de Dados

Pseudo-código para o 1R



“valor em falta” é sempre tratado com um valor do atributo

Análise Inteligente de Dados

2

Avaliação dos atributos para os dados meteorológicos

Análise Inteligente de Dados

Tratamento dos atributos numéricos 

Os atributos numéricos são discretizados: O domínio do atributo é dividido numa série de intervalos 



 

As instâncias são ordenadas de acordo com os valores do atributo Pontos de corte são acrescentados onde a classe (da maioria) muda O erro total é assim minimizado Exemplo: atributo temperature dos dados meteorológicos

Análise Inteligente de Dados

3

O problema do sobre-ajustamento 

O procedimento de discretização é muito sensível ao ruído 





Uma instância com um valor de classe errado resultará provavelmente num intervalo separado Um atributo do tipo “selo temporal” terá zero erros

Solução simples: obrigar à existência de um número mínimo de instâncias pertencentes à classe da maioria por intervalo 

Exemplo para os dados meteorológicos (com o mínimo a 3)

Análise Inteligente de Dados

Evitando o sobre-ajustamento 

Resultados finais para o atributo temperature:



Sobram apenas dois intervalos já que não deve haver intervalos consecutivos com a mesma classe A classe do último intervalo foi escolhida de forma arbitrária



Análise Inteligente de Dados

4

Conjuntos de regras resultantes 

Humidity ou outlook são os atributos que seriam escolhidos pelo 1R

Análise Inteligente de Dados

Discussão do 1R 

O 1R foi inicialmente descrito num artigo por Holte (1993) 







Nele é apresentada a avaliação experimental de 16 conjuntos de dados comuns em AID O número mínimo de instâncias foi fixado em 6 após algum trabalho experimental As regras resultantes do 1R obtiveram resultados não muito piores do que os obtidos por árvores de decisão muito mais complexas

A simplicidade compensa! Análise Inteligente de Dados

5

Modelação estatística 

Método “oposto ao 1R” 



todos os atributos são utilizados

Duas assunções: os atributos são  

igualmente importantes, estatisticamente independentes (sabendo-se o valor da classe)  Isto quer dizer que o conhecimento do valor de um atributo não nos diz nada sobre o valor de outro atributo, no caso em que a classe é conhecida



Embora baseado em assunções que se verifica quase nunca serem verdadeiras 

este esquema, na prática, funciona bem Análise Inteligente de Dados

Bayes ingénuo 

Resumo dos dados meteorológicos 

obtido pela contagem de quantas vezes cada para atributo/valor aparece para cada valor da classe

Análise Inteligente de Dados

6

Dados para um novo dia



Possibilidade de cada classe



Conversão para probabilidades por normalização

Análise Inteligente de Dados

Regra de bayes 

Probabilidade de um evento H dada a prova E Pr[ E | H ] Pr[ H ] Pr[ H | E ] = Pr[ E ]



Probabilidade a priori de H: Pr[H ] 



Probabilidade do evento antes da prova ter sido vista

Probabilidade a posterior de H: Pr[ H | E ] 

Probabilidade do evento depois da prova ter sido vista Análise Inteligente de Dados

7

Classificação usando o método de Bayes 

Aprendizagem de uma classificação: qual a probabilidade da classe dada uma instância?  



Prova E = instância Evento H = classe

Assunção que torna o método ingénuo 

A prova pode ser separada em pedaços independentes (i.e. atributos da instância)

Pr[ H | E ] =

Pr[ E1 | H ] Pr[ E2 | H ]... Pr[ En | H ] Pr[ H ] Pr[ E ] Análise Inteligente de Dados

Exemplo para os dados meteorológicos 

Prova E



Probabilidade da classe “yes”

Pr[ yes | E ] = Pr[Outlook = Sunny | yes ] × Pr[Temperature = Cool | yes ] × Pr[ Humidity = High | yes ] × Pr[Windy = True | yes ] × Pr[ yes ] Pr[ E ] 2 / 9 × 3 / 9 × 3 / 9 × 3 / 9 × 9 / 14 = Pr[ E ]



O Pr[E] no denominador desaparecerá aquando da normalização Análise Inteligente de Dados

8

Problema da frequência zero 

E se o valor de um atributo não ocorrer com todos os valores da classe, e.g. “Humidity=High” para a classe “yes”? 

A probabilidade seria 0!

Pr[ Humidity = High | yes ] = 0 

A probabilidade a posteriori seria também 0!

Pr[ yes | E ] = 0 



Remédio: adicionar 1 à contagem de cada combinação valor de atributo/classe (estimador de Laplace) Resultado: as probabilidades nunca serão 0! Análise Inteligente de Dados

Valores em falta 

Durante o treino: 



Na classificação: 



a instância não é incluída na contagem da frequência da combinação valor de atributo/classe o atributo é omitido dos cálculos

Exemplo:

Análise Inteligente de Dados

9

Lidar com atributos numéricos 



Assunção normal: os atributos têm uma distribuição de probabilidade normal ou Gaussiana A função de densidade de probabilidade é definida por dois parâmetros 1 n ∑ xi n i =1



O valor médio µ: µ =



O desvio padrão σ: σ =



1 n ∑ ( x i − µ )2 n − 1 i =1

Função de densidade f(x): f ( x ) =

− 1 e 2π σ

( x − µ )2 2σ 2

Análise Inteligente de Dados

Dados meteorológicos numéricos



Exemplo de valor de densidade f (temperatur e = 66 | yes ) =

1 2π 6.2



e

( 66 −73) 2 2×6.22

= 0.0340

Análise Inteligente de Dados

10

Classificação de um novo dia



Valores em falta durante o treino: 

não são incluídos no cálculo do valor médio e do desvio padrão Análise Inteligente de Dados

Densidades de probabilidade 

Relação entre probabilidade e densidade:

Pr[ c − 



ε

ε

< x < c − ] ≈ ε × f (c ) 2 2

Isto não muda o cálculo da probabilidade a posteriori já que já que os ε se cancelam b Relação exacta: Pr[ a ≤ x ≤ b] = f (t )dt



a

Análise Inteligente de Dados

11

Discussão do Bayes “ingénuo” 



Funciona surpreendentemente bem, mesmo quando a assunção de independência é claramente violada Porquê? Porque a classificação não requer uma estimativa precisa das probabilidades 

 

desde que a probabilidade máxima seja atribuída à classe correcta

No entanto, o acrescento de muitos atributos redundantes pode trazer problemas Note-se também que muitos atributos numéricos não são distribuídos normalmente Análise Inteligente de Dados

Construção de árvores de decisão 

Procedimento normal: top-down num processo recursivo de “dividir para reinar” 



Primeiro: um atributo é escolhido para raiz e um ramo é criado para cada valor possível Em seguida: as instâncias são divididas em subconjuntos  um para cada ramo que sai do nodo



Finalmente: o procedimento é repetido recursivamente para cada nodo  são utilizadas apenas as instâncias que chegam ao ramo



O processo termina se todas as instâncias tiverem a mesma classe Análise Inteligente de Dados

12

Como escolher o atributo

Análise Inteligente de Dados

Um critério para a selecção do atributo 

Qual é o melhor atributo?  



Critério comum de impureza: ganho de informação 



O que resultar na árvore mais pequena Heurística: escolher o atributo que resulte nos nodos “mais puros”

O ganho de informação aumenta com a pureza média dos subconjuntos que um atributo produz

Estratégia a seguir: 

Escolher um atributo que resulte no maior ganho de informação Análise Inteligente de Dados

13

Cálculo da informação 

A informação é medida em bits 





Dada uma distribuição de probabilidade, a informação necessária para predizer um evento é a entropia da distribuição A entropia fornece a informação necessária em bits (isto pode incluir fracções de bits!)

Fórmula para o cálculo da entropia:

entropia ( p1 , p2 ,..., pn ) = − p1 log( p1 ) − p2 log( p2 )... − pn log( pn )

Análise Inteligente de Dados

Exemplo para o atributo outlook 

“Outlook”=“Sunny” inf([ 2,3]) = entropia ( 2 / 5,3 / 5) = −2 / 5 log(2 / 5) − 3 / 5 log(3 / 5) = 0.971 bits



“Outlook”=“Sunny” inf([ 4,0]) = entropia (1,0) = −1 log(1) − 0 log(0) = 0



“Outlook”=“Sunny” inf([ 3,2]) = entropia (3 / 5,2 / 5) = −3 / 5 log(3 / 5) − 2 / 5 log(2 / 5) = 0.971 bits



Informação esperada do atributo: inf([ 3,2], [4,0, [3,2]) = (5 / 14) × 0.971 + ( 4 / 14) × 0 + (5 / 14) × 0.971 = 0.693 bits Análise Inteligente de Dados

14

Cálculo do ganho de informação 

Ganho de informação: informação antes de ramificar - informação depois de ramificar gain(" Outlook " ) = inf([9,5]) − inf([ 2,3], [4,0], [3,2]) = 0.940 − 0.693 = 0.247 bits



Ganhos para os outros atributos gain(" Temperatur e" ) = 0.029 bits gain(" Windy " ) = 0.048 bits Análise Inteligente de Dados

Continuando a ramificação

gain(" Temperatur e" ) = 0.571 bits gain(" Humidy " ) = 0.971 bits gain("Windy" ) = 0.020 bits Análise Inteligente de Dados

15

Árvore de decisão final



Nem todas as folhas têm de ser puras. Por vezes instâncias idênticas têm classes diferentes 

A ramificação pára quando for impossível dividir mais os dados Análise Inteligente de Dados

Atributos de ramificação elevada 

Problema: atributos com elevado número de valores 



Os subconjuntos terão mais tendência a ser puros se houver um grande número de valores 





Caso extremo: código ID

O ganho de informação é tendencioso no sentido de escolher atributos com um número de valores elevado Isto pode resultar em sobre-ajustamento

Outro problema: fragmentação Análise Inteligente de Dados

16

Código ID 

Os dados meteorológicos com um código ID

Análise Inteligente de Dados

Árvore parcial para o atributo ID



Entropia: inf(" ID Code" ) = inf([0,1]) + inf([0,1]) + ... + inf([0,1]) = 0 bits



O ganho de informação é máximo para ID Code Análise Inteligente de Dados

17

O ratio de ganho 

Ratio de ganho: 



O ratio de ganho leva em atenção o número e “tamanho” dos ramos aquando da escolha do atributo 



uma alteração ao ganho de informação que diminui a tendência descrita atrás

Corrige o ganho de informação tendo em conta a informação intrínseca à ramificação

Informação intrínseca: 

Entropia da distribuição de instâncias pelos ramos Análise Inteligente de Dados

Cálculo do ratio de ganho 

Exemplo: informação intrínseca para o ID Code

inf([1,1,...,1]) = 14 × ( −1 / 14 × log 1 / 14) = 3.807 bits  

O valor do atributo diminui à medida que a informação intrínseca aumenta Definição do ratio de ganho

ratio(" Atributo" ) = 

ganho(" Atributo" ) inf_intrínseca(" Atributo" )

Exemplo:

ratio(" ID Code" ) =

0.949 bits = 0.246 3.807 bits Análise Inteligente de Dados

18

Ratios para os dados atmosféricos

Análise Inteligente de Dados

Ainda o ratio de ganho…  

“Outlook” é ainda o melhor atributo Mas o “ID Code” continua a ter o melhor ratio de ganho 



Solução habitual: teste ad hoc para evitar a ramificação a partir desses tipo de atributos

Problema com o ratio de ganho: pode sobre-compensar 



Pode escolher um atributo apenas porque a sua informação intrínseca é muito baixa Solução habitual: considerar apenas atributos com ganho de informação superior à média Análise Inteligente de Dados

19

Discussão do ID3 

O algoritmo padrão para indução top-down de árvores de decisão, chamado ID3, foi desenvolvido por Ross Quinlan 



 

O ratio de ganho é apenas uma modificação no algoritmo básico O ID3 levou mais tarde ao desenvolvimento do C4.5, o qual pode lidar com atributos numéricos, valores em falta e dados ruidosos

Abordagem semelhante: CART Existem muitos outros critérios de selecção do atributo de ramificação 

Quase todos levam à mesma precisão no resultado… Análise Inteligente de Dados

Algoritmos de cobertura 

Uma árvore de decisão pode ser convertida num conjunto de regras  



Estratégia para gerar um conjunto de regras directamente 



Conversão simples: o conjunto de regras pode resultar desnecessariamente complexo Conversões mais eficientes não são triviais…

Encontrar para cada classe um conjunto de regras que cubra todas as instâncias nessa classe (excluindo instâncias que não pertençam à classe)

Esta abordagem é chamada uma abordagem de cobertura 

em cada etapa é identificada uma regra que cobre algumas das instâncias Análise Inteligente de Dados

20

Exemplo de geração de uma regra



Conjunto possível de regras para a classe B



Podiam ser acrescentadas mais regras de maneira a obter um conjunto de regras “perfeito” Análise Inteligente de Dados

Regras vs. árvores 

Árvore de decisão correspondente 



produz exactamente as mesmas predições

Mas: 



Os conjuntos de regras podem ser mais “perspicazes” quando as árvores de decisão sofrem de sub-árvores replicadas Quando há várias classes, os algoritmos de cobertura concentram-se numa classe de cada vez Análise Inteligente de Dados

21

Um algoritmo simples de cobertura  

Generaliza uma regra acrescentando testes que maximizam a sua precisão Questão semelhante à das árvores de decisão: qual o atributo onde ramificar 



só que o indutor de árvores maximiza a pureza

Cada novo teste reduz a cobertura da regra

space of examples rule so far rule after adding new term

Análise Inteligente de Dados

Selecção de um teste 

Objectivo: maximizar a precisão   

 

t: número total de instâncias cobertas pela regra p: exemplos positivos da classe coberta pela regra t-p: número de erros cometidos pela regra

Pretende-se seleccionar um teste que maximize p/t Terminamos quando  

p/t =1 ou não seja possível dividir mais o conjunto de instâncias Análise Inteligente de Dados

22

Dados das lentes de contacto 

Exemplo: dados das lentes de contacto  

Regra que procuramos Testes possíveis

Análise Inteligente de Dados

Regra modificada 

Regra modificada e dados resultantes 

Regra com o melhor teste adicionado:



Instâncias cobertas pela regra modificada:

Análise Inteligente de Dados

23

Refinamento das regras 

Estado actual



Testes possíveis

Análise Inteligente de Dados

Regra modificada 

Regra modificada e dados resultantes 

Regra com o melhor teste adicionado:



Instâncias cobertas pela regra modificada:

Análise Inteligente de Dados

24

Refinamento 

Estado actual



Testes possíveis



Empate entre o primeiro e o quarto 

Escolhemos aquele que tem maior cobertura

Análise Inteligente de Dados

Resultado 

Regra final:



Segunda regra para a recomendação de “hard lenses” 



obtida a partir das instâncias não cobertas pela anterior

As duas regras cobrem todas as “hard lenses” 

O processo é repetido para as duas outras classes

Análise Inteligente de Dados

25

Pseudo-código para o PRISM

Análise Inteligente de Dados

Regras vs. listas de decisão 

O PRISM sem ciclo exterior gera uma lista de decisão para uma classe 





O ciclo exterior considera todas as classes separadamente 



Regras subsequentes são criadas para cobrir as instâncias não cobertas por regras anteriores A ordem não interessa já que todas as regras predizem a mesma classe

Não implica nenhuma dependência da ordem

Problemas:  

regras sobrepostas é necessário uma regra default Análise Inteligente de Dados

26

Separar para conquistar 

Métodos como o PRISM são algoritmos do tipo separar para conquistar:  





Primeiro é identificada uma regra Em seguida, todas as instâncias cobertas pela regra são separadas Finalmente, as instâncias restantes são “conquistadas”

Diferença em relação aos métodos do tipo dividir para conquistar: 

O subconjunto de instâncias coberto pela regra não é mais explorado Análise Inteligente de Dados

Procura de regras de associação 

Método ingénuo para procura de regras de associação:  



Problemas:  



Utilização do método padrão separar para conquistar, tratando todas as possíveis combinações de valores dos atributos como uma classe separada. Complexidade computacional O número resultante de regras (que teriam de ser podadas em função do apoio e confiança)

Podemos procurar directamente regras com apoio elevado!

Análise Inteligente de Dados

27

Conjuntos de itens 

Apoio: número de instâncias correctamente coberto pela regra de associação 

  

O mesmo que o número de instâncias coberto por todos os testes da regra (lado esquerdo + lado direito)

Item: uma par teste/valor de atributo Conjunto de itens: todos os itens presentes numa regra Objectivo:  

apenas as regras que excedam um apoio predefinido Podemos fazer isso encontrando todos os conjuntos de itens com o apoio mínimo requerido e gerando regras para esses conjuntos Análise Inteligente de Dados

Itens para os dados atmosféricos



No total: 12 conjuntos com um item, 47 conjuntos com dois itens, 39 conjuntos com três itens, 6 conjuntos com quatro itens e 0 conjuntos com cinco itens (apoio mínimo 2) Análise Inteligente de Dados

28

Regras a partir de um conjunto de itens 



Após todos os conjuntos de itens com apoio mínimo terem sido gerados podem ser convertidos em regras Exemplo: 

Sete (2N-1) regras potenciais:

Análise Inteligente de Dados

Regras para os dados atmosféricos 

Regras com apoio > 1 e confiança = 100%



No total: 3 regras com apoio quatro, 5 com apoio três e 50 com apoio dois Análise Inteligente de Dados

29

Regras para um mesmo conjunto 

Conjunto de itens



Regras resultantes (todas com confiança 100%)



São resultado dos seguintes conjuntos “frequentes” de itens:

Análise Inteligente de Dados

Geração eficiente de conjuntos de itens 

Existe alguma maneira eficiente de encontrar todos os conjuntos frequentes de itens? 



Os conjuntos de 1 item são fáceis…

Ideia: utilizar os conjuntos de 1 item para gerar os conjuntos de 2 itens, os conjuntos de 2 para gerar os conjuntos de 3… 





Se (A B) é um conjunto frequente de itens então (A) e (B) também têm de ser conjuntos frequentes de dados Em geral: se X é um conjunto frequente de k-itens então todos os subconjuntos de X com (k-1)-itens são também frequentes Podemos calcular os conjuntos com k-itens através da reunião de conjuntos com (k-1)-itens Análise Inteligente de Dados

30

Um exemplo 

Dados: cinco conjuntos com 3 itens



Ordenados lexicograficamente Conjuntos candidatos de 4 itens



 

Teste final contando as instâncias no conjunto de dados Os conjuntos de (k-1)-itens são armazenados numa tabela de hash Análise Inteligente de Dados

Geração eficiente de regras 

Estamos à procura de regras com confiança elevada  



Uma abordagem melhor:  



O apoio dos antecedentes pode ser retirado da tabela hash Se optarmos pela força bruta temos 2N-1 regras Construção de regras com (c+1)-consequentes a partir de regras com c-consequentes Uma regra com (c+1)-consequentes só é verdadeira se todas as regras correspondentes com c-consequentes também o forem

O algoritmo resultante é semelhante ao processo utilizado para conjuntos grandes de itens Análise Inteligente de Dados

31

Exemplo 

Regras com 1-consequente



Regra correspondente com 2-consequentes



Teste final dos antecedentes na tabela de hash

Análise Inteligente de Dados

Discussão das regras de associação 

O método descrito faz-nos passar pelos dados uma vez para cada tamanho do conjunto de itens  





Outra possibilidade: gerar conjuntos de (k+2)-itens logo a seguir à geração dos conjuntos de (k+1)-itens Resultado: geram-se mais conjuntos de (k+2)-itens do que o necessário mas teremos menos passagens pelos dados Faz sentido se os dados forem demasiados para manter na memória principal

Questão prática: geração de um número de regras predeterminado  

Definimos um apoio inicial elevado Vamos decrementando o apoio mínimo requerido até obtermos o número de regras pretendido Análise Inteligente de Dados

32

Outras questões 

O formato ARFF é muito ineficiente para dados típicos de cesto de compras 

 

Os atributos representam itens num cesto e a generalidade dos itens geralmente falta

As instâncias são também chamadas transacções A confiança não é necessariamente a melhor medida 



Exemplo: Leite faz parte de quase todas as transacções num supermercado É necessário encontrar outras medidas Análise Inteligente de Dados

Modelos lineares  

Funcionam mais naturalmente com atributos numéricos Técnica padrão para a predição numérica:  

Regressão linear O resultado é uma combinação linear dos atributos

x = w0 + w1a1 + w2a2 + ... + wn an  

Os pesos são calculados a partir dos dados de treino Valor predito para a primeira instância de treino k

w0a0(1) + w1a1(1) + ... + w2 a2(1) = ∑ w j a (j1) j =0 Análise Inteligente de Dados

33

Minimização do erro quadrático 



São escolhidos k+1 coeficientes de maneira a minimizar o erro quadrático para o conjunto de treino 2 n  k Erro quadrático: 

∑  x i =0



− ∑ w j a (ji )  j =0 

Os coeficientes podem ser determinados utilizando as operações sobre matrizes 





(i )

Pode ser feito desde que (de modo geral) existam mais instâncias do que atributos (e pesos)

A minimização do erro absoluto é mais difícil Análise Inteligente de Dados

Classificação 

Qualquer técnica de regressão pode ser utilizada para classificação 





Treino: é executada uma regressão para cada classe, colocando a saída a 1 para instâncias que pertençam à classe e a 0 para instâncias que não pertençam Predição: é predita a classe correspondendo ao modelo com maior valor de saída (valor de pertença)

Em regressão linear isto é conhecido como regressão linear multi-resposta Análise Inteligente de Dados

34

Regressão logística 



Problema: algumas assunções são violadas quando a regressão é aplicada a problemas de classificação Regressão logística: alternativa à regressão linear  

Projectada tendo em vista a sua aplicação a problemas de classificação Tenta estimar as probabilidades de cada classe directamente  Utiliza o método da máxima verosimilhança



Utiliza o seguinte modelo linear

log( P /(1 − P ) = w0a0 + w1a1 + ... + wn an 

P é a probabilidade da classe Análise Inteligente de Dados

Discussão dos modelos lineares  

Não são apropriados caso os dados exibam relações não lineares Mas podem servir como blocos de construção para esquemas mais complexos (i.e. árvores modelo) 

Exemplo: a regressão linear multi-resposta define um hiperplano para separar duas classes:

( w0(1) − w0( 2 ) )a0 + ( w1(1) − w1( 2 ) )a1 + ... + ( wk(1) − wk( 2 ) )ak > 0 

O mesmo acontece na regressão a par Análise Inteligente de Dados

35

Aprendizagem baseada nas instâncias  

Uma função de distância define o que é aprendido A maior parte dos esquemas baseados em instâncias utilizam a distância Euclideana ( a1(1) − a1( 2 ) ) 2 + ( a2(1) − a2( 2 ) ) 2 + ... + ( ak(1) − ak( 2 ) ) 2 

 

a(1) e a(2) são duas instâncias com k atributos

A raíz quadrada não é necessária na simples comparação de distâncias Outra métrica popular:  

Distância de Manhattan As diferenças são adicionadas, não se recorrendo ao quadrado Análise Inteligente de Dados

Normalização e outras questões 

Atributos diferentes são medidos em escalas diferentes 

É necessária uma normalização:

ai = 

 

vi − min vi max vi − min vi

vi é o valor utilizado para o atributo I

Valores nominais: a distância ou é 0 ou 1 Política habitual para os atributos em falta 

Assume-se a distância máxima (quando se utiliza atributos normalizados)

Análise Inteligente de Dados

36

Discussão do 1-NN 

É frequentemente muito preciso mas também muito lento 

A versão simples percorre todo o conjunto de dados para fazer uma predição



Assume a mesma importância para todos os atributos



Possíveis remédios contra instâncias ruidosas



 



Solução: selecção de atributos ou pesos Fazer a média para os k vizinhos mais próximos Remoção das instâncias ruidosas (difícil)

Os estatísticos têm utilizado o k-NN desde os anos 50 

Se n → ∞ e k/n → 0, o erro aproxima-se do mínimo Análise Inteligente de Dados

Alguns comentários 

A regra de Bayes emergiu do seu “Essay towards solving a problem in the doctrine of chances” (1763)  



Extensão do Bayes Ingénuo 



Tarefa difícil: estimar as probabilidades a priori Não as utilizando podem-se obter intervalos de confiança Redes Bayesianas

As regras de associação surgem mais na literatura de bases de dados do que na de aprendizagem 

Ênfase em lidar com grandes quantidades de dados Análise Inteligente de Dados

37

Alguns comentários  

O algoritmo descrito para as regras de associação é chamado APRIORI Os métodos de regressão linear são métodos estatísticos padrão descritos na maior parte dos livros de texto sobre o assunto 



Os classificadores lineares tiveram uma grande popularidade nos anos 60

Minsky e Papert (1969) mostraram que os classificadores lineares têm limitações  

Exemplo clássico: não podem aprender o XOR Existem no entanto combinações de “classificadores lineares” que podem aprender qualquer função: Redes Neuronais Análise Inteligente de Dados

38

Related Documents