Escola Superior de Tecnologia Análise de Dados Biomédicos
Ficha 5 – Meta-algoritmos O site www.istockphoto.com dedica-se à venda de fotografias. Um dos aspectos importantes (e secreto) do modelo de negócio deste site é o algoritmo que ordena as imagens quando estas são apresentadas ao utilizador na procura por defeito (best match). O objectivo desta ficha consiste na construção de um modelo de previsão numérica que permita ter uma ideia de quais os atributos de uma imagem que mais a beneficiam em termos de procura, fazendo assim o “reverse engineering” do algoritmo de best match utilizado pelo site.
1. No site www.istock.com faça uma procura de imagens à sua escolha. Confirme que na barra de procura, a seguir a Sort, está seleccionada a procura “Best Match” e que procurou apenas “Photos”. Construa um ficheiro Arff em que as instâncias correspondem às primeiras 100 imagens da sua busca descritas pelos seguintes atributos: Exclusive (0 ou 1), Downloads, Views, Age (em dias=meses*30), Average Rating, Total Rating, LightBoxes, Class. Como não temos forma de saber a Class, que basicamente é o valor que permite ordenar as imagens na busca, vamos atribuir o valor 1000 à primeira imagem, 990 à segunda, 980 à terceira, … e 10 à última imagem. Entregue junto com a ficha uma impressão do seu ficheiro Arff. 2. Utilize o Weka para analisar o ficheiro resultante, utilizando os algoritmos que lhe pareçam adequados a este problema. Apresente os três melhores modelos que obteve, juntamente com o seu desempenho. 3. Analise a importância dos atributos nos modelos que obteve e, partindo dessa análise, experimente remover alguns dos atributos que lhe pareçam menos importantes (Tab Preprocess do Weka). Consegue melhorar algum dos modelos anteriores? Apresente-os aqui. 4. Nos algoritmos de classificação do weka existe um conjunto de algoritmos na pasta meta denominados meta-algoritmos. Investigue qual o principio genérico destes algoritmos e descreva o funcionamento dos métodos de Stacking, Bagging e Vote. 5. Tente, utilizando os meta-algoritmos que descreveu anteriormente, melhorar os resultados que obteve até agora no problema apresentado. Discuta aqui os novos resultados. 6. A partir dos resultados que foi obtendo que conclusões pode tirar em relação ao problema inicial? Quais os atributos mais importantes na ordenação dos ficheiros e quais aqueles que não são utilizados? Atendendo ao conhecimento que já tem do problema apresente sugestões de novas abordagens (por exemplo na criação do ficheiro .arff) que possam permitir conhecer melhor o algoritmo de ordenação utilizado neste site.
Licenciatura em Informática para a Saúde
ADB – Análise de Dados Biomédicos