Aula 2 Analise Dados Bio Medicos

  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Aula 2 Analise Dados Bio Medicos as PDF for free.

More details

  • Words: 1,525
  • Pages: 17
Análise Inteligente de Dados 2. Dados de Entrada

Preparação para o processo de AID 

O que constitui os dados de entrada: 

Conceitos: tipos de coisas que podem ser aprendidas  Objectivo: uma descrição inteligível e operacional do conceito



Instâncias: exemplos independentes e individuais do conceito  Nota: são possíveis formas mais complexas de dados de entrada



Atributos: aspectos mesuráveis de uma instância  Vamos concentra-nos nos atributos numéricos e nominais



Um aspecto prático 

Torna-se necessário definir um formato adequado para o ficheiro que deverá conter os dados de entrada Análise Inteligente de Dados

1

O que é um conceito? 

Estilos de aprendizagem: 





 

Aprendizagem de classificações: predição de uma classe discreta Aprendizagem de associações: detecção de associações entre características Agrupamento: consiste no agrupamento de instâncias semelhantes

Conceito: aquilo que queremos aprender Descrição do conceito: deve resultar do método de aprendizagem Análise Inteligente de Dados

Aprendizagem de classificações  

Exemplos de problemas: dados atmosféricos, lentes de contacto, iris, negociações laborais... A aprendizagem de classificações é uma forma de aprendizagem supervisionada 



Esta apreciação é chamada 



Cada instância é já fornecida com uma apreciação a classe do exemplo (ou instância)

O sucesso do processo de aprendizagem pode ser medido facilmente 

Utiliza-se um novo conjunto de exemplos com classificação conhecida

Análise Inteligente de Dados

2

Aprendizagem de associações 



Pode ser aplicado se não for especificada nenhuma classe e qualquer estrutura for considerada interessante Diferenças em relação à aprendizagem de classificações: 





Pode predizer o valor de qualquer atributo, não apenas a classe, e mesmo vários atributos simultaneamente Logo vamos ter muitas mais regras de associação do que de classificação Assim torna-se necessário impor restrições  Cobertura mínima  Precisão mínima

Análise Inteligente de Dados

Agrupamento  

Consiste em encontrar grupos de itens similares A aprendizagem por agrupamento é não supervisionada 





A classe do exemplo é desconhecida

O sucesso da aprendizagem por agrupamento é frequentemente medido de forma subjectiva Exemplo: problema das íris não sendo fornecida a classe: Análise Inteligente de Dados

3

Agrupamento 

Exemplo: 

problema das íris não sendo fornecida a classe:

Análise Inteligente de Dados

Predição numérica  

Semelhante à aprendizagem de classificações mas a “classe” é numérica Forma de aprendizagem supervisionada 



A cada exemplo é associado um valor alvo

O sucesso da aprendizagem é medido utilizando exemplos de teste… 

ou subjectivamente se o conceito for inteligível

Análise Inteligente de Dados

4

Predição numérica 

Exemplo: 

dados atmosféricos com modificações

Análise Inteligente de Dados

O que é um exemplo? 

Instância: tipo específico de exemplo 





Entradas para o processo de aprendizagem  



Aquilo que pretendemos classificar, associar ou agrupar Exemplo individual e independente do conceito alvo Conjunto de instâncias Representado como uma relação única num ficheiro plano

Constitui um forma de dados de entrada um tanto limitada  

Não permite relações entre objectos Constitui, no entanto, a forma mais comum de entrada em aplicações práticas de AID Análise Inteligente de Dados

5

Uma árvore genealógica

Análise Inteligente de Dados

A árvore sob a forma de tabela

Análise Inteligente de Dados

6

A relação “irmã de…“

Análise Inteligente de Dados

A mesma relação numa única tabela

Análise Inteligente de Dados

7

Geração de um ficheiro plano 

Processo de “achatamento” chamado desnormalização 



 

Várias relações são juntas de maneira formar uma única Possível com qualquer conjunto finito de relações finitas

Problema: relações sem número fixo de elementos A desnormalização pode produzir regularidades espúrias que reflectem a estrutura da base de dados 

Exemplo: “fornecedor” permite predizer “morada do fornecedor” Análise Inteligente de Dados

A relação “antepassado de”

Análise Inteligente de Dados

8

Recursividade



Técnicas apropriadas: programação lógica inductiva  

Exemplo: FOIL (Quinlan) Problemas  Ruído  Complexidade computacional Análise Inteligente de Dados

O que é um atributo?  

Cada instância é descrita por um número fixo de características: os seus atributos Na prática o número de atributos pode variar 



Problema relacionado: 



Possível solução: flag de “valor irrelevante” A existência de um atributo pode depender do valor de outro atributo

Tipos de atributos possíveis (“níveis de medição”) 

Nominal, Ordinal, Intervalo, Ratio Análise Inteligente de Dados

9

Quantidades nominais 

Os valores possíveis são símbolos distintos 



Exemplo: o atributo “outlook” dos dados meteorológicos 



Os valores propriamente ditos servem apenas como etiquetas ou nomes

Valores: “sunny”, “overcast”, “rainy”

Não existe nenhuma relação implícita entre valores nominais  

Não é possível ordenar nem medir a distância Apenas são possíveis testes de igualdade Análise Inteligente de Dados

Quantidades ordinais 

É imposta uma ordem aos valores 



Exemplo: atributo “temperature” dos dados meteorológicos 

 

Continua a não haver distância definida entre eles

Valores: “hot” > “mild” > “cool”

Operações como adição e subtracção não fazem sentido Exemplo de regra: 

temperature < hot => play = yes Análise Inteligente de Dados

10

Ratios  

São as quantidades para as quais o sistema de medida define um ponto 0 Exemplo: atributo “distância” 



A distância entre um objecto e ele próprio é 0

Os ratios são tratados como números reais 

Todas as operações matemáticas são permitidas

Análise Inteligente de Dados

Tipos de atributo utilizados na prática 



A generalidade dos esquemas acomodam apenas dois níveis de medição: nominal e ordinal Os atributos nominais são também chamados  

 

categóricos, enumerados ou discretos Estes dois últimos implicam ordem

Caso especial: dicotomia (atributo booleano) Os atributos ordinais são também chamados numéricos Análise Inteligente de Dados

11

Metadados   

Informação sobre os dados que codifica conhecimento sobre o contexto Pode ser utilizada para restringir o espaço de procura Exemplos: 

 

Considerações dimensionais (i.e. as expressões devem ser dimensionalmente correctas) Ordenamentos circulares (e.g. graus num compasso) Ordenamentos parciais (e.g. relações de generalização/especialização) Análise Inteligente de Dados

Preparação dos dados de entrada  

A desnormalização não é o único aspecto relevante Problema: diferentes origens dos dados  

 

Por exemplo: departamento de vendas, contabilidade... Diferenças: estilo dos registros, convenções, períodos de tempo, agregação dos dados, chaves primárias, tipos de erro Torna-se necessário agrupar, integrar e limpar os dados “Data Warehouse”: ponto de acesso consistente Análise Inteligente de Dados

12

Formato ARFF

Análise Inteligente de Dados

Tipos de atributo no formato ARFF  

O formato ARFF suporta atributos numéricos e nominais A interpretação depende do esquema de aprendizagem 

Os atributos numéricos são interpretados como  Escalas ordinais se as relações menor e maior forem utilizadas  Ratios se forem executadas computações de distâncias



Esquemas baseados em instâncias podem definir distâncias entre valores nominais Análise Inteligente de Dados

13

Nominal vs. ordinal 

Atributo “age” nominal



Atributo “age” ordinal 

E.g. “young” < “pre-presbyopic” < “presbyopic

Análise Inteligente de Dados

Valores em falta 

Indicados frequentemente por entradas fora do domínio do atributo  



Tipos: desconhecido, não guardado, irrelevante Razões: Equipamento defeituosos, alterações num projecto experimental, medição impossível, agregação de várias bases de dados

A falta do atributo pode ter valor em si mesma  



E.g. teste que falta num exame médico A generalidade dos esquemas de aprendizagem assume que este não é o caso Pode ser necessário codificar “desconhecido” como um valor adicional

Análise Inteligente de Dados

14

Valores incorrectos 

Razão: 



Resultado 





Os dados não foram recolhidos a pensar em AID Erros e omissões que não afectam o propósito original dos dados E.g., a idade de um cliente

Erros tipográficos em atributos nominais 

A consistência dos valores deve ser verificada

Análise Inteligente de Dados

Valores incorrectos 

Erros tipográficos e de medida em atributos numéricos 



Os erros podem ser propositados 



Necessário identificar valores fora dos limites E.g., moradas erradas

Outros problemas  

Dados duplicados Dados estagnados

Análise Inteligente de Dados

15

Conhecer os dados 

A simples visualização pode permitir a identificação de problemas 

Atributos nominais: histogramas  A distribuição é consistente com o conhecimento existente sobre o contexto?



Atributos numéricos: gráficos  Existem valores significativamente fora dos limites?



Exemplos  9999 na codificação dum ano em falta  -1 kg na falta do peso



Visualizações em 2D e 3D podem ser utilizadas para mostrar dependências entre os dados Análise Inteligente de Dados

Conhecer os dados 

Peritos no domínio devem ser consultados para explicar   





anomalias, valores em falta, o significado de inteiros que representam categorias, etc

A análise gráfica entre dois atributos ou entre um atributo e o valor da classe pode ser muito reveladora E o conjunto de dados for demasiado grande para visualizar na sua totalidade?  

Recolha de uma amostra! Técnicas de amostragem... Análise Inteligente de Dados

16

Limpeza de dados 

A limpeza dos dados é um processo que   

consome muito tempo, é intensivo em termos de trabalho, é essencial para uma análise inteligente de dados com sucesso

Análise Inteligente de Dados

17

Related Documents