Análise Inteligente de Dados 2. Dados de Entrada
Preparação para o processo de AID
O que constitui os dados de entrada:
Conceitos: tipos de coisas que podem ser aprendidas Objectivo: uma descrição inteligível e operacional do conceito
Instâncias: exemplos independentes e individuais do conceito Nota: são possíveis formas mais complexas de dados de entrada
Atributos: aspectos mesuráveis de uma instância Vamos concentra-nos nos atributos numéricos e nominais
Um aspecto prático
Torna-se necessário definir um formato adequado para o ficheiro que deverá conter os dados de entrada Análise Inteligente de Dados
1
O que é um conceito?
Estilos de aprendizagem:
Aprendizagem de classificações: predição de uma classe discreta Aprendizagem de associações: detecção de associações entre características Agrupamento: consiste no agrupamento de instâncias semelhantes
Conceito: aquilo que queremos aprender Descrição do conceito: deve resultar do método de aprendizagem Análise Inteligente de Dados
Aprendizagem de classificações
Exemplos de problemas: dados atmosféricos, lentes de contacto, iris, negociações laborais... A aprendizagem de classificações é uma forma de aprendizagem supervisionada
Esta apreciação é chamada
Cada instância é já fornecida com uma apreciação a classe do exemplo (ou instância)
O sucesso do processo de aprendizagem pode ser medido facilmente
Utiliza-se um novo conjunto de exemplos com classificação conhecida
Análise Inteligente de Dados
2
Aprendizagem de associações
Pode ser aplicado se não for especificada nenhuma classe e qualquer estrutura for considerada interessante Diferenças em relação à aprendizagem de classificações:
Pode predizer o valor de qualquer atributo, não apenas a classe, e mesmo vários atributos simultaneamente Logo vamos ter muitas mais regras de associação do que de classificação Assim torna-se necessário impor restrições Cobertura mínima Precisão mínima
Análise Inteligente de Dados
Agrupamento
Consiste em encontrar grupos de itens similares A aprendizagem por agrupamento é não supervisionada
A classe do exemplo é desconhecida
O sucesso da aprendizagem por agrupamento é frequentemente medido de forma subjectiva Exemplo: problema das íris não sendo fornecida a classe: Análise Inteligente de Dados
3
Agrupamento
Exemplo:
problema das íris não sendo fornecida a classe:
Análise Inteligente de Dados
Predição numérica
Semelhante à aprendizagem de classificações mas a “classe” é numérica Forma de aprendizagem supervisionada
A cada exemplo é associado um valor alvo
O sucesso da aprendizagem é medido utilizando exemplos de teste…
ou subjectivamente se o conceito for inteligível
Análise Inteligente de Dados
4
Predição numérica
Exemplo:
dados atmosféricos com modificações
Análise Inteligente de Dados
O que é um exemplo?
Instância: tipo específico de exemplo
Entradas para o processo de aprendizagem
Aquilo que pretendemos classificar, associar ou agrupar Exemplo individual e independente do conceito alvo Conjunto de instâncias Representado como uma relação única num ficheiro plano
Constitui um forma de dados de entrada um tanto limitada
Não permite relações entre objectos Constitui, no entanto, a forma mais comum de entrada em aplicações práticas de AID Análise Inteligente de Dados
5
Uma árvore genealógica
Análise Inteligente de Dados
A árvore sob a forma de tabela
Análise Inteligente de Dados
6
A relação “irmã de…“
Análise Inteligente de Dados
A mesma relação numa única tabela
Análise Inteligente de Dados
7
Geração de um ficheiro plano
Processo de “achatamento” chamado desnormalização
Várias relações são juntas de maneira formar uma única Possível com qualquer conjunto finito de relações finitas
Problema: relações sem número fixo de elementos A desnormalização pode produzir regularidades espúrias que reflectem a estrutura da base de dados
Exemplo: “fornecedor” permite predizer “morada do fornecedor” Análise Inteligente de Dados
A relação “antepassado de”
Análise Inteligente de Dados
8
Recursividade
Técnicas apropriadas: programação lógica inductiva
Exemplo: FOIL (Quinlan) Problemas Ruído Complexidade computacional Análise Inteligente de Dados
O que é um atributo?
Cada instância é descrita por um número fixo de características: os seus atributos Na prática o número de atributos pode variar
Problema relacionado:
Possível solução: flag de “valor irrelevante” A existência de um atributo pode depender do valor de outro atributo
Tipos de atributos possíveis (“níveis de medição”)
Nominal, Ordinal, Intervalo, Ratio Análise Inteligente de Dados
9
Quantidades nominais
Os valores possíveis são símbolos distintos
Exemplo: o atributo “outlook” dos dados meteorológicos
Os valores propriamente ditos servem apenas como etiquetas ou nomes
Valores: “sunny”, “overcast”, “rainy”
Não existe nenhuma relação implícita entre valores nominais
Não é possível ordenar nem medir a distância Apenas são possíveis testes de igualdade Análise Inteligente de Dados
Quantidades ordinais
É imposta uma ordem aos valores
Exemplo: atributo “temperature” dos dados meteorológicos
Continua a não haver distância definida entre eles
Valores: “hot” > “mild” > “cool”
Operações como adição e subtracção não fazem sentido Exemplo de regra:
temperature < hot => play = yes Análise Inteligente de Dados
10
Ratios
São as quantidades para as quais o sistema de medida define um ponto 0 Exemplo: atributo “distância”
A distância entre um objecto e ele próprio é 0
Os ratios são tratados como números reais
Todas as operações matemáticas são permitidas
Análise Inteligente de Dados
Tipos de atributo utilizados na prática
A generalidade dos esquemas acomodam apenas dois níveis de medição: nominal e ordinal Os atributos nominais são também chamados
categóricos, enumerados ou discretos Estes dois últimos implicam ordem
Caso especial: dicotomia (atributo booleano) Os atributos ordinais são também chamados numéricos Análise Inteligente de Dados
11
Metadados
Informação sobre os dados que codifica conhecimento sobre o contexto Pode ser utilizada para restringir o espaço de procura Exemplos:
Considerações dimensionais (i.e. as expressões devem ser dimensionalmente correctas) Ordenamentos circulares (e.g. graus num compasso) Ordenamentos parciais (e.g. relações de generalização/especialização) Análise Inteligente de Dados
Preparação dos dados de entrada
A desnormalização não é o único aspecto relevante Problema: diferentes origens dos dados
Por exemplo: departamento de vendas, contabilidade... Diferenças: estilo dos registros, convenções, períodos de tempo, agregação dos dados, chaves primárias, tipos de erro Torna-se necessário agrupar, integrar e limpar os dados “Data Warehouse”: ponto de acesso consistente Análise Inteligente de Dados
12
Formato ARFF
Análise Inteligente de Dados
Tipos de atributo no formato ARFF
O formato ARFF suporta atributos numéricos e nominais A interpretação depende do esquema de aprendizagem
Os atributos numéricos são interpretados como Escalas ordinais se as relações menor e maior forem utilizadas Ratios se forem executadas computações de distâncias
Esquemas baseados em instâncias podem definir distâncias entre valores nominais Análise Inteligente de Dados
13
Nominal vs. ordinal
Atributo “age” nominal
Atributo “age” ordinal
E.g. “young” < “pre-presbyopic” < “presbyopic
Análise Inteligente de Dados
Valores em falta
Indicados frequentemente por entradas fora do domínio do atributo
Tipos: desconhecido, não guardado, irrelevante Razões: Equipamento defeituosos, alterações num projecto experimental, medição impossível, agregação de várias bases de dados
A falta do atributo pode ter valor em si mesma
E.g. teste que falta num exame médico A generalidade dos esquemas de aprendizagem assume que este não é o caso Pode ser necessário codificar “desconhecido” como um valor adicional
Análise Inteligente de Dados
14
Valores incorrectos
Razão:
Resultado
Os dados não foram recolhidos a pensar em AID Erros e omissões que não afectam o propósito original dos dados E.g., a idade de um cliente
Erros tipográficos em atributos nominais
A consistência dos valores deve ser verificada
Análise Inteligente de Dados
Valores incorrectos
Erros tipográficos e de medida em atributos numéricos
Os erros podem ser propositados
Necessário identificar valores fora dos limites E.g., moradas erradas
Outros problemas
Dados duplicados Dados estagnados
Análise Inteligente de Dados
15
Conhecer os dados
A simples visualização pode permitir a identificação de problemas
Atributos nominais: histogramas A distribuição é consistente com o conhecimento existente sobre o contexto?
Atributos numéricos: gráficos Existem valores significativamente fora dos limites?
Exemplos 9999 na codificação dum ano em falta -1 kg na falta do peso
Visualizações em 2D e 3D podem ser utilizadas para mostrar dependências entre os dados Análise Inteligente de Dados
Conhecer os dados
Peritos no domínio devem ser consultados para explicar
anomalias, valores em falta, o significado de inteiros que representam categorias, etc
A análise gráfica entre dois atributos ou entre um atributo e o valor da classe pode ser muito reveladora E o conjunto de dados for demasiado grande para visualizar na sua totalidade?
Recolha de uma amostra! Técnicas de amostragem... Análise Inteligente de Dados
16
Limpeza de dados
A limpeza dos dados é um processo que
consome muito tempo, é intensivo em termos de trabalho, é essencial para uma análise inteligente de dados com sucesso
Análise Inteligente de Dados
17