Análise Inteligente de Dados 1. Introdução
Dados e informação
A sociedade em que vivemos produz grandes quantidades de dados
Os dados em bruto são inúteis
são necessárias técnicas que permitam a extracção automática da informação neles contida
Dados são
Fontes: negócios, ciência, medicina, economia, geografia, ambiente, desporto, … Recursos potencialmente valiosos
factos armazenados
Informação consiste
nos padrões subjacentes aos dados Análise Inteligente de Dados
1
A informação é crucial
Exemplo 1: Fertilização in vitro
Fornecido: embriões descritos por 60 características Problema: selecção dos embriões que sobreviverão Dados: registros históricos dos embriões e resultados finais
Exemplo 2: Abate de Vacas
Fornecido: vacas descritas por 700 características Problema: selecção das vacas a abater Dados: registros históricos e decisões dos agricultores
Análise Inteligente de Dados
Análise inteligente de dados
Ou Data Mining
Ou Knowledge Discovery in Databases
Mais descritivo, procura de conhecimento no meio dos dados
Extracção de informação
Metáfora do processo de pesquisar os dados em busca de algo precioso
implícita, previamente desconhecido e potencialmente útil
a partir de dados pré-existentes Análise Inteligente de Dados
2
Análise inteligente de dados
Necessário:
Programas capazes de detectar regularidades e padrões nos dados
Padrões suficientemente fortes podem ser utilizados para fazer previsões
Problema 1: a maior parte dos padrões descobertos não têm interesse Problema 2: os padrões podem ser inexactos (ou mesmo errados) caso os dados sejam ruidosos ou incompletos Análise Inteligente de Dados
Técnicas de aprendizagem
Base técnica para a análise inteligente de dados
Algoritmos para aquisição de descrições estruturais a partir de exemplos
As descrições estruturais representam os padrões explicitamente
Podem ser utilizadas para prever o resultado numa nova situação, compreender e explicar como é que a predição foi feita. Este último factor é talvez o mais significativo…
Métodos originários da Inteligência Artificial, Estatística e investigação em Bases de Dados Análise Inteligente de Dados
3
Descrições estruturais
Por exemplo: regras if-then
Análise Inteligente de Dados
Podem as máquinas aprender?
Definições de “aprendizagem” a partir do dicionário:
Obter conhecimento de algo através de estudo, experiência ou ensinamento – difícil de medir Tomar consciência de algo a partir de informação ou observação – difícil de medir Guardar em memória – trivial para um computador Ser informado ou instruído sobre algo – trivial para um computador
Definição operacional
Uma entidade aprende quando modifica o seu comportamento de maneira a melhorar o desempenho futuro Análise Inteligente de Dados
4
O problema do clima
Condições climáticas para a prática de um desporto
Análise Inteligente de Dados
Regras de classificação/associação
Regra de classificação
prediz o valor de um determinado atributo (classifica um exemplo)
Regra de associação
prediz o valor de um atributo arbitrário ou de uma combinação de atributos
Análise Inteligente de Dados
5
Atributos mistos
Dois atributos com valores numéricos:
Análise Inteligente de Dados
Problema das lentes de contacto
Análise Inteligente de Dados
6
Problema das lentes de contacto
Um conjunto de regras completo e correcto:
Análise Inteligente de Dados
Problema das lentes de contacto
Uma árvore de decisão para o mesmo problema
Análise Inteligente de Dados
7
Classificação de Iris (flores)
Análise Inteligente de Dados
Predição do desempenho de um CPU
Exemplos: 209 configurações diferentes
Análise Inteligente de Dados
8
Negociações laborais
Análise Inteligente de Dados
Negociações laborais
Análise Inteligente de Dados
9
Problemas reais
Quando os resultados da aprendizagem ou o próprio método de aprendizagem são integrados numa aplicação prática
Avaliação de Pedidos de Empréstimo
Dados Questionário com informação financeira e pessoal
Problema Devemos ou não conceder o empréstimo?
Análise Inteligente de Dados
Avaliação de pedidos de empréstimo
Uma mera avaliação estatística cobre 90% dos casos Os casos fronteira são decididos por pessoal especializado
No entanto verificou-se que 50% dos casos fronteira aceites não pagaram o empréstimo!
Solução (?)
Rejeitar todos os casos fronteira Não é uma boa ideia: verifica-se que os casos fronteira são os melhores clientes do banco (precisam sempre de mais dinheiro :) ) Análise Inteligente de Dados
10
Avaliação de pedidos de empréstimo
Abordagem com AID
20 atributos:
Escolheram-se 1000 exemplos de treino de casos fronteira idade, anos no emprego actual, anos na morada actual, anos como cliente do banco, outros cartões de crédito…
As regras obtidas classificaram correctamente 2/3 dos casos fronteira! O banco gostou das regras já que estas podiam ser utilizadas para explicar as decisões aos clientes Análise Inteligente de Dados
Análise de imagens
Dados
Problema
Imagens de radar de águas costeiras obtidas por satélite Detecção de manchas de petróleo nas imagens
As manchas de óleo aparecem como regiões escuras de tamanho e forma variável
Trata-se de um problema difícil regiões semelhantes podem ser causadas simplesmente pelas condições atmosféricas (e.g. vento forte) É um processo dispendioso que requer pessoal altamente treinado Análise Inteligente de Dados
11
Análise de imagens
Abordagem com AID
Atributos:
As manchas escuras são extraídas de uma imagem normalizada tamanho da região, forma área, intensidade, forma da fronteira, proximidade de outras manchas, informação sobre o ambiente
Restrições ao processo de aprendizagem
Escassez de exemplos (as manchas de óleo são raras) Dados mal balanceados: a maior parte das manchas não são de óleo Exemplos vindos de uma mesma imagem agrupam-se naturalmente Requisito da aplicação: deve servir como um filtro e o utilizador deve poder alterar o nível de falsos alarmes Análise Inteligente de Dados
Procura de energia eléctrica
As companhias que fornecem electricidade necessitam de uma previsão das necessidades futuras
Dados:
Previsões precisas da procura máxima e mínima por hora podem resultar em poupanças significativas modelo estático da potência construído manualmente e assumindo condições climatéricas normais
Problema:
adicionar variações climáticas ao modelo Análise Inteligente de Dados
12
Procura de energia eléctrica
O modelo estático consistia em
potência base para o ano, periodicidade da potência ao longo do ano, efeito das férias e feriados
Abordagem com AID
A previsão original é corrigida utilizando os 8 dias mais “parecidos”
Análise Inteligente de Dados
Procura de energia eléctrica
Atributos
temperatura, humidade, velocidade do vento, nebulosidade diferença entre a potência prevista e a realmente necessária
A diferença média entre os três dias mais parecidos é adicionada ao modelo estático Coeficientes obtidos por regressão linear são utilizados como pesos na função de similaridade Análise Inteligente de Dados
13
Marketing e vendas
As empresas guardam quantidades enormes de informação sobre o marketing e vendas Possíveis aplicações
Lealdade do cliente: identificação de clientes passíveis de deixar de o ser identificando comportamentos de risco Ofertas especiais: identificação de clientes lucrativos
Análise Inteligente de Dados
Marketing e vendas
Análise do “cesto de compras”
Técnicas de associação que permitem encontrar grupos de produtos que tendem a aparecer juntos numa transacção
Análise histórica de padrões de compra
Identificação de potenciais clientes
Centrar mailings promocionais apenas em clientes prováveis é muito mais barato Análise Inteligente de Dados
14
Questões éticas
Quando tratamos de aplicações práticas começam a surgir questões éticas A análise inteligente de dados é utilizada frequentemente para descriminar
E.g., no caso da avaliação de pedidos de empréstimo, a utilização de atributos com a raça, sexo ou religião não seria ética
A avaliação ética depende das aplicações
E.g. os atributos mencionados atrás poderiam ser utilizados numa aplicação médica Análise Inteligente de Dados
Questões éticas
Os atributos podem conter indirectamente informação problemática:
E.g. o código postal pode estar correlacionado com a raça
Algumas questões importante em aplicações práticas
Quem tem acesso aos dados? Para que objectivo são os dados recolhidos? Que tipo de conclusões podem ser legitimamente retiradas dos dados? Análise Inteligente de Dados
15
Questões éticas
Deve-se sempre analisar os resultados com prudência
Argumentos puramente estatísticos nunca são suficientes
Estarão os nossos recursos a serem utilizados de forma satisfatória?
Análise Inteligente de Dados
16