Universidade Federal de Pernambuco Centro de Informática Especialização em Gestão da Tecnologia da Informação
Aspectos das Ferramentas de Busca Organizacional
por JOSÉ MÁRCIO SOUZA MEDEIROS
Fernando da Fonseca de Souza Orientador
Recife, outubro de 2006
José Márcio Souza Medeiros
[email protected]
Aspectos das Ferramentas de Busca Organizacional Monografia apresentada ao curso de Pósgraduação em Gestão da Tecnologia da Informação do Centro de Informática da Universidade Federal de Pernambuco
Orientador: Fernando da Fonseca de Souza
Recife, outubro de 2006
Aspectos das Ferramentas de Busca Organizacional
Agradecimentos Meus sinceros agradecimentos ao meu orientador Prof. Fernando Fonseca pela ajuda na organização das idéias e distribuição delas na monografia. Ao professor Hermano Perrelli pela organização de todo o curso desde o primeiro dia, controlando ansiedades e fornecendo o suporte necessário. Agradeço aos colegas do Departamento de TI do Banco Central, especialmente ao Dan Carlo, ao João Carlos e ao Davi Shamballa da divisão de sistemas operacionas e ao Marcos Euzébio da divisão de segurança pela ajuda no levantamento de dados de uso nos ambientes computacionais. Ao colega Wylber pela disposição em fazer uma revisão do documento. Finalmente, faço um agradecimento especial à Natália, minha esposa, por agüentar junto comigo os dias presos em casa e pelo apoio logístico nos momentos mais críticos.
i
Aspectos das Ferramentas de Busca Organizacional
Resumo Na última década, o volume de informações em meio eletrônico gerado e armazenado pelas empresas e organizações públicas aumentou substancialmente, tendo como uma das principais razões o declínio dos custos das commodities de armazenamento. A popularização dos mecanismos de busca da Internet gerou o interesse pelos funcionários em ter a mesma experiência ao procurar informações dentro de suas empresas. Este trabalho apresenta as características das ferramentas de busca organizacional, como funcionam e como avaliá-las em um processo de aquisição, analisando exemplos de soluções comerciais. Além disso, são apresentadas as possibilidades de implantação de um sistema desses na arquitetura de tecnologia da informação do Banco Central do Brasil.
Palavras-chaves: busca organizacional, recuperação da informação
ii
Aspectos das Ferramentas de Busca Organizacional
Abstract In the last decade, the volume of digital information generated and stored by the companies and public organizations has increased substantially, mostly due to the decrease in the costs of storage commodities. The popularization of Internet search engines has increased the interest of the employees in having the same experience – to look for information – inside their companies. This paper presents the characteristics of enterprise search tools, how they work, how to evaluate them in an acquisition process and analyzes examples of commercial solutions. Not only that, but it is also presented some possibilities of introducing a system like this in the information technology architecture of Banco Central do Brasil.
Keywords: enterprise search, information retrieval
iii
Sumário LISTA DE FIGURAS
VI
LISTA DE QUADROS
VII
CAPÍTULO 1
- INTRODUÇÃO
1
CAPÍTULO 2
- BUSCA ORGANIZACIONAL
3
2.1
CARACTERIZANDO BUSCA ORGANIZACIONAL
4
2.2
PROBLEMAS CHAVES DA ÁREA DE BUSCA ORGANIZACIONAL
8
2.3
CONSIDERAÇÕES PARA A AQUISIÇÃO DE UMA FERRAMENTA
11
CAPÍTULO 3
- FERRAMENTAS ANALISADAS
16
3.1
GOOGLE SEARCH APPLIANCE
16
3.1.1
COMO TRABALHA O GOOGLE SEARCH APPLIANCE
21
3.1.2
CARACTERÍSTICAS DA BUSCA
23
3.1.3
BUSCA EM ESTAÇÕES DE TRABALHO
27
3.2
AUTONOMY
28
3.3
APACHE LUCENE / SOLR
33
3.4
CONSIDERAÇÕES FINAIS
37
CAPÍTULO 4
- BUSCA ORGANIZACIONAL NO BANCO CENTRAL
42
4.1
CENÁRIO ATUAL DOS SISTEMAS DE INFORMAÇÃO
42
4.2
UM SISTEMA DE BUSCA ORGANIZACIONAL PARA O BANCO CENTRAL
45
4.2.1
CENÁRIO 1: ESCOPO DEPARTAMENTAL
46
4.2.2
CENÁRIO 2: ESCOPO AMPLO
48
Aspectos das Ferramentas de Busca Organizacional
4.2.3
CENÁRIO 3: SOFTWARE DE CÓDIGO ABERTO
49
4.2.4
CENÁRIO 4: SOFTWARE DE BUSCA PESSOAL
51
4.3
POSSÍVEIS DIFICULDADES
52
CAPÍTULO 5
- CONCLUSÃO
54
5.1
CONTRIBUIÇÕES DESTE TRABALHO
55
5.2
SUGESTÕES PARA TRABALHOS FUTUROS
55
REFERÊNCIAS BIBLIOGRÁFICAS
57
APÊNDICES
60
v
Aspectos das Ferramentas de Busca Organizacional
Lista de Figuras FIGURA 2.1: CLASSIFICAÇÃO DOS USUÁRIOS DE FERRAMENTAS DE BUSCA [7]. ................... 12 FIGURA 2.2: O QUADRANTE MÁGICO PARA A TECNOLOGIA DE ACESSO À INFORMAÇÃO, 2005 [9]................................................................................................................... 15 FIGURA 3.1: MODELO GB-1001 DO GOOGLE SEARCH APPLIANCE..................................... 17 FIGURA 3.2: MODELO GB-5005 DO GOOGLE SEARCH APPLIANCE..................................... 17 FIGURA 3.3: MODELO GB-8008 DO GOOGLE SEARCH APPLIANCE..................................... 18 FIGURA 3.4: EXEMPLO DA CONFIGURAÇÃO ADMINISTRATIVA DO GOOGLE SEARCH APPLIANCE. ............................................................................................................. 19 FIGURA 3.5: EXEMPLO DA CONFIGURAÇÃO DO LEIAUTE DA PÁGINA DE RESULTADOS. ........ 20 FIGURA 3.6: EXEMPLO DA CONFIGURAÇÃO DO CRAWLER DO GOOGLE SEARCH APPLIANCE. 22 FIGURA 3.7: EXEMPLO DE UMA PÁGINA DE RESULTADOS DO GOOGLE SEARCH APPLIANCE. 24 FIGURA 3.8: EXEMPLO DE RELATÓRIOS ADMINISTRATIVOS: NÚMERO DE BUSCAS POR DIA, MÉDIA DE CONSULTAS POR HORA E AS 100 PALAVRAS MAIS PESQUISADAS.................. 26
FIGURA 3.9: EXEMPLO DA INTERFACE DE BUSCA RÁPIDA DO GOOGLE DESKTOP. ............... 27 FIGURA 3.10: ARQUITETURA DA PLATAFORMA DE BUSCA DA AUTONOMY [12]. ................. 29 FIGURA 3.11: ARQUITETURA DO APACHE SOLR [18]. ........................................................ 35 FIGURA 3.12: INTERFACE DE ADMINISTRAÇÃO DO SOLR [18]............................................. 36 FIGURA 4.1: INTERFACE DE BUSCA DO PORTAL INTRANET DO BANCO CENTRAL. ................ 44 FIGURA 4.2: CLASSIFICAÇÃO DOS FUNCIONÁRIOS DO BANCO CENTRAL EM RELAÇÃO AOS USUÁRIOS PROPOSTOS POR SONDEREGGER [7]. .......................................................... 46
vi
Aspectos das Ferramentas de Busca Organizacional
Lista de Quadros QUADRO 3.1: COMPARAÇÃO ENTRE AS CARACTERÍSTICAS DAS FERRAMENTAS DE BUSCA ORGANIZACIONAL.
___________________________________________________ 37
QUADRO 3.2: TEMPO MÉDIO ESTIMADO DAS CINCO PRINCIPAIS TAREFAS DE IMPLANTAÇÃO DE UM SISTEMA DE BUSCAS [4]. ____________________________________________
38
QUADRO 3.3: ORDEM DE VALORES DAS LICENÇAS DOS SISTEMAS DE BUSCA POR CATEGORIA [4]. _______________________________________________________________ 40
vii
Capítulo 1 - Introdução A informação é o maior bem das organizações de hoje. Ela se tornou a nova moeda do reino, passada de lá para cá entre comprador e vendedor na forma de transações eletrônicas, entre funcionários na forma de mensagens de correio eletrônico, entre sistemas de saúde e seus pacientes e entre órgãos do governo e os cidadãos. A partir do momento que não é possível saber quais informações serão úteis amanhã, no próximo ano, ou na próxima década, armazena-se tudo, em computadores pessoais, em datawarehouses, em sistemas de gerenciamento de conteúdo e nas nossas mentes. Há repositórios de informações em todos os lugares, e não saber o que a organização possui tem se tornado a maior barreira das grandes instituições para conduzirem os negócios, manterem os clientes, evitarem riscos e manterem a saúde de suas finanças. Encontrar a informação correta ou mesmo um documento criado em coleções de milhões de documentos tornou-se uma das tarefas mais árduas e angustiantes. Nos últimos anos, uma nova categoria de software invadiu o mercado de aplicações corporativas com a promessa de fornecer às empresas ferramentas de busca que realizam consultas nos mais diferentes tipos de repositórios de dados e apresentam para o usuário a resposta mais relevante. Tais ferramentas são classificadas internacionalmente como soluções de enterprise search, e neste trabalho serão denominadas de soluções de busca organizacional. Acredita-se
que
os
sistemas
de
busca
organizacional
podem
alterar
fundamentalmente o modo como as organizações acessam, integram e analisam suas múltiplas coleções de conteúdo e dados de forma que tenham uma visão unificada de tudo. O Banco Central, como grande produtor e consumidor de informações eletrônicas, precisa estar atento às tecnologias que possam agregar valor às suas decisões e que permitam diminuir o tempo utilizado na procura de dados espalhados em seus repositórios.
Aspectos das Ferramentas de Busca Organizacional
O presente trabalho visa discutir o que são as ferramentas de busca organizacional, entender como elas podem mudar o conceito de busca, como funcionam e como avaliá-las em um processo de aquisição. Em um segundo momento, é feita a análise das características de duas ferramentas comerciais e de um projeto de buscas de código aberto, mostrando suas potencialidades e seus pontos fracos com o objetivo de guiar um futuro projeto de aquisição dentro do Banco Central do Brasil. Este levantamento de funcionalidades baseou-se exclusivamente em informações obtidas nos sítios dos fornecedores e de institutos especializados em avaliação de produtos. A utilização de laboratórios para essa avaliação mostrou-se inviável devido ao tamanho e à complexidade de algumas soluções. Por fim, são colocadas as possibilidades de implantação de um sistema desses na estrutura de sistemas de informação do Banco Central a partir da apresentação de quatro diferentes cenários, apontando vantagens e desvantagens de cada abordagem. Além desta introdução, esta monografia conta com mais quatro capítulos, como se segue: Capítulo 2 – Busca organizacional – Esse capítulo apresenta a definição e detalha os principais conceitos sobre busca organizacional. Capítulo 3 – Ferramentas analisadas – Nesse capítulo, serão apresentadas três ferramentas de categorias diferentes disponíveis no mercado para solucionar problemas de busca organizacional, bem como, a análise do funcionamento dessas ferramentas. Capítulo 4 – Busca organizacional no Banco Central – Esse capítulo apresenta as possibilidades e dificuldades de implantação de uma solução de busca organizacional no Banco Central do Brasil. Capítulo 5 – Conclusão – Esse capítulo conclui a monografia com um breve resumo das principais contribuições, apontando algumas limitações, além das possibilidades de trabalhos futuros.
2
Capítulo 2 - Busca Organizacional O termo “busca organizacional” ainda não é uma expressão, em português, difundida por pesquisadores e empresas de tecnologia de computação, haja vista, o baixo número de documentos retornados com esta expressão no sítio de buscas Google.com, e mesmo esses não tratavam da tecnologia de busca computacional. Já os pesquisadores e empresas estrangeiros utilizam o termo “enterprise search” de forma bem natural e como forma de diferenciar tal tecnologia das chamadas “search engine” e “web search”, cujos termos se referem, na maioria das vezes, aos mecanismos de sítios especializados em busca de páginas na Internet. Assim, o termo “busca organizacional” será utilizado neste trabalho como tradução da expressão em inglês “enterprise search”. Atualmente, a área de recuperação de informação é confrontada com um desafio de grandes dimensões – como apresentar buscas efetivas em espaços de informação complexos dentro das organizações. Superar este desafio é o objetivo das soluções de busca organizacional. O termo busca organizacional pode incluir, no âmbito de uma empresa ou instituição: •
a recuperação de conteúdo em formato textual através de busca;
•
as buscas no sítio Web da organização;
•
as buscas nos sítios Web internos (na Intranet); e
•
as buscas em textos eletrônicos mantidos pela organização na forma de mensagens de correio eletrônico, registros de banco de dados, documentos em servidores de arquivos ou o que for semelhante.
Existem grandes diferenças entre busca organizacional e busca na Internet [1]. A primeira delas refere-se à noção que um usuário tem de um bom resultado da busca. Na
Aspectos das Ferramentas de Busca Organizacional
Internet, o usuário freqüentemente está procurando o melhor documento ou aquele mais relevante. Em uma Intranet, o usuário está procurando a resposta exata para uma consulta. Ele pode conhecer ou ter visto um determinado documento e o está procurando. A resposta certa para uma consulta na Intranet não necessariamente é o documento mais popular como ocorre nas buscas na Internet. Uma segunda diferença entre as buscas na Intranet de uma organização e na Internet está nas diferentes motivações para criar conteúdo. O conteúdo na Internet reflete a voz de muitos autores com liberdade de publicação que objetivam atrair e prender a atenção de um determinado grupo de usuários. O conteúdo numa Intranet é criado para disseminar informações institucionais ou como produto do trabalho diário dos funcionários de uma organização. Não há incentivo para criação de conteúdo e pode ser que nem todos os usuários tenham permissão de publicar seus conhecimentos. A estrutura de ligações (apontamentos) como os “hiperlinks”, tão comuns em conteúdos na Internet não são utilizados na maioria dos documentos publicados em uma Intranet. Desse modo, algoritmos de cálculo de relevância, como o PageRank [2] utilizado no sítio Google.com, que utilizam fortemente os “hiperlinks” no seu cálculo, têm baixa efetividade nas buscas na Intranet. A complexidade das informações das empresas, além de restringir o número de produtos comerciais aplicáveis e aumentar o custo de implantação, torna difícil medir a qualidade dos resultados obtidos pelas buscas e frustra os que tentam atingir o nível de efetividade dos mecanismos de busca da Internet como o Google.com.
2.1
Caracterizando busca organizacional No trabalho de Abrol et al. [3], foi proposto o que eles denominaram de “portal de
negócios” como a solução para os problemas da busca organizacional e os seguintes requisitos deviam ser atendidos:
4
Aspectos das Ferramentas de Busca Organizacional
1. A necessidade de acessar informações em diversos repositórios incluindo sistemas de arquivos, servidores Web, Lotus Notes, Microsoft Exchange, sistemas de gerenciamento de conteúdo, bem como de bancos de dados relacionais; 2. A necessidade de respeitar direitos de acesso granulares, tipicamente no nível de documento. Assim, dois usuários emitindo a mesma requisição de busca podem ver diferentes conjuntos de documentos devido às diferenças dos seus privilégios; 3. A necessidade de indexar e realizar buscas em uma grande variedade de tipos (formatos) de documentos, tais como, arquivos PDF, Microsoft Word ou Powerpoint, e em idiomas diferentes; e 4. A necessidade de combinar informações estruturadas e não-estruturadas no resultado de uma busca. Entretanto, as características citadas acima não representam toda a complexidade da situação. Por exemplo, a qualidade do resultado de uma busca não foi tratada adequadamente. A meta principal dos sistemas de recuperação de informação organizacional é responder a uma solicitação do usuário pesquisando em todos os documentos que possivelmente possam conter uma resposta útil e para os quais o mesmo tenha autorização de leitura. Além disso, os resultados da busca devem estar em um formato e em uma ordem que seja a de maior utilidade para o usuário do sistema. O que isso significa, na prática, depende muito mais da natureza da organização, da identidade do usuário e das características da tarefa para a qual os resultados da busca irão contribuir. A diversidade de fontes de dados para a pesquisa é uma característica desejável das ferramentas de busca organizacional, do mesmo modo que ocorre com os sítios de busca da Internet. Também, não é esperado que os resultados de uma busca contenham dezenas de links para o mesmo sítio Web, para o mesmo documento ou para a mesma conversação de correio eletrônico. Para Arnold [4], os componentes básicos de uma solução de busca organizacional compreendem módulos que executem as funções de aquisição de conteúdo, indexação,
5
Aspectos das Ferramentas de Busca Organizacional
processamento de consultas e a formatação dos resultados. O módulo de aquisição de conteúdo é responsável por percorrer diretórios e sítios Web, extrair conteúdo de bancos de dados ou receber esses dados de forma periódica. A função de indexação consiste em criar um índice de alto desempenho de todo o conteúdo abrangido pelo sistema de buscas. O processamento de consultas pode ter suas funções divididas nas seguintes tarefas: análise sintática, que recebe as consultas de busca e as codifica no melhor formato para o sistema; emparceiramento, que percorre a consulta pelo índice e procura os documentos que atendem os critérios da busca; e um processamento posterior, responsável por ordenar os documentos baseados, por exemplo, na relevância. Para Andrews e Knox [5], devem ser funções básicas de uma solução de busca organizacional: •
permitir busca simples por palavra-chave;
•
permitir uma busca nos resultados da busca inicial;
•
prover interfaces diferentes para buscas básicas e avançadas;
•
enfatizar os termos buscados nos resultados apresentados;
•
permitir buscas com caráter curinga;
•
opção para o usuário escolher quais repositórios ou coleções ele quer pesquisar;
•
permitir buscas utilizando frases;
•
informar de qual repositório o documento retornado pertence;
•
ordenação automática dos resultados de acordo com a relevância dos documentos;
•
ordenação dos resultados por data de criação ou alteração, pelo repositório a que pertence ou pelo nome do autor do documento;
6
Aspectos das Ferramentas de Busca Organizacional
•
indicar o URL do documento e seu tamanho;
•
apresentar o resultado da busca no formato XML;
•
permitir buscas com operadores booleanos;
•
realizar a indexação de arquivos comumente utilizados, como HTML, arquivos do Microsoft Office e no formato PDF;
•
ter capacidade de pesquisar diferenciando letras maiúsculas de minúsculas;
•
possibilitar a adequação da página de resultados de acordo com os padrões de apresentação da organização;
•
gerar relatórios dos termos mais pesquisados pelos usuários; e
•
coletar a satisfação dos usuários com os resultados da busca.
É possível ainda que outras funções adicionais sejam requeridas pela organização, mas não representam funções obrigatórias das ferramentas de busca. São elas: •
armazenar uma busca para utilização futura;
•
alertar os usuários através de e-mail com novos documentos que atendem a uma busca realizada anteriormente;
•
realizar buscas em campos específicos, como título, o URL ou metatags;
•
apresentar ao usuário as opções de resultado com o plural ou o singular de uma palavra pesquisada; e
•
gerar relatórios com o número de hits e a relevância dos resultados.
A busca federada é outra característica avançada de alguns sistemas de busca. Entende-se por busca federada aquela em que cada aplicação possui sua ferramenta de busca própria, mas os usuários inserem suas consultas em um software de busca principal e este aciona as diversas ferramentas de busca dos aplicativos. Os resultados são agrupados e apresentados em uma lista única. Há desvantagens para essa abordagem, entre elas está a de que o desenvolvimento e a manutenção de ferramentas de busca embutidas em
7
Aspectos das Ferramentas de Busca Organizacional
aplicativos costumam consumir bastantes recursos humanos e computacionais [6].
2.2
Problemas chaves da área de busca organizacional A seguir, é colocada uma lista, que não pretende ser completa, de problemas chaves
a serem enfrentados pelos fabricantes de ferramentas de busca organizacional e pelos que pretendem implantar tais sistemas: I – Definição de uma coleção de testes apropriados às ferramentas de busca; II – Critérios de relevância dos resultados da busca; III – Construção de um portal de buscas corporativo; IV – Busca efetiva em conversações por correio eletrônico; V – Estimar a importância de documentos que não são parte da Intranet; VI – Utilização de contexto nas buscas; e VII – Buscas em mídias não textuais.
I – Definição de uma coleção de testes apropriados às ferramentas de busca. O desenvolvimento de uma coleção de testes para as ferramentas de busca serve como um benchmark para que os algoritmos possam ser ajustados e melhorados e para permitir a comparação entre diferentes produtos. Verificar os logs de consultas realizadas em sistemas de busca já existentes na organização pode não ser produtivo, porque as falhas nas buscas rapidamente desencorajam os usuários de tentar utilizar o sistema que não é capaz de atender suas necessidades. Para dar suporte à análise dos problemas II, IV e V, uma coleção de testes deve incluir uma combinação real de diferentes tipos de dados e de um número variado de empresas. A informação contida nos testes deve ser naturalmente inter-relacionada e deve ser possível obter informação real sobre os dados.
8
Aspectos das Ferramentas de Busca Organizacional
Para eliminar dificuldades como a necessidade de implementar adaptadores ou filtros para uma variedade de sistemas de gerenciamento de bancos de dados, processadores de texto, planilhas ou sistemas de gerenciamento de conteúdo, deve-se considerar a conversão dos formatos proprietários para documentos no formato XML, de modo que preserve a estrutura exata do documento e seus inter-relacionamentos.
II – Critérios de relevância dos resultados da busca. A forma mais apropriada de apresentar os resultados de uma busca é através de uma lista ordenada pelos documentos mais relevantes. Estabelecer os critérios de relevância para os diferentes tipos de documentos é o desafio a ser enfrentado. Os documentos geralmente diferem: no tipo de estrutura (por exemplo, os campos dos registros de um banco de dados), nos tamanhos (um banco de dados pode conter registros de tamanho constante, enquanto documentos de um processador de textos variam consideravelmente de tamanho), na presença de links que indicam o relacionamento entre um documento e outro (por exemplo, os sítios Web), na presença de conteúdos repetidos (como os elementos de navegação nos documentos Web), e no modo em que a linguagem é usada (as funções em uma planilha eletrônica usam certas palavras com um significado próprio). O uso de funções de cálculo de relevância projetadas para um tipo de documento provoca resultados tendenciosos para aquele tipo. Encontrar a função mais adequada para os dados que possui é um dos desafios das empresas que procuram por sistemas de busca.
III – Construção de um portal de buscas corporativo. A criação de um portal com um serviço de buscas que inclua todas as fontes de informação pode ser bastante útil para os serviços executados pelos funcionários das empresas. Essas fontes, na medida do possível, devem incluir arquivos privados do disco rígido local, documentos departamentais, informações corporativas e fontes externas. Um dos grandes benefícios de criar hiperlinks utilizando textos âncora (anchor text) é a conseqüente habilidade de recuperar documentos que não são internos à organização
9
Aspectos das Ferramentas de Busca Organizacional
sem indexá-los, usando apenas as descrições fornecidas pelos textos âncora.
IV – Busca efetiva em conversações por correio eletrônico. Um problema atual ainda não bem resolvido são as técnicas para recuperar de dentro de um repositório de mensagens eletrônicas, as linhas de conversação das mensagens trocadas entre os funcionários e entre eles e o ambiente externo. Uma única mensagem de e-mail pode não ser um bom resultado de busca, tornando difícil o entendimento do contexto sem a totalidade da conversação. A identificação de quais mensagens constituem uma conversação é complicada a partir do momento em que o campo Assunto evolui nas respostas e nos encaminhamentos podendo até ser alterado.
V – Estimar a importância de documentos que não são parte da Intranet. Os mecanismos de busca da Internet popularizaram um paradigma no qual a relevância dos resultados leva em conta, além do texto pesquisado, as evidências da busca no URL, nos hiperlinks e nos textos âncora. Este paradigma pode não ser tão efetivo nas buscas feitas dentro das organizações porque, em geral, tais evidências não estão explicitamente disponíveis em compartilhamentos de arquivos, em bancos de dados e em mensagens de correio eletrônico.
VI – Utilização de contexto nas buscas. Muitas consultas em sites de busca da Internet podem ter o resultado melhorado com a adição de uma pequena quantidade de informação sobre o contexto na qual a busca foi iniciada. Um grande número de fatores podem prover informação para que os resultados das buscas sejam melhor apresentados de acordo com sua relevância, como por exemplo: a localização geográfica, perfis do usuário (idade, língua, interesses), histórico de pesquisas recentes e a natureza da tarefa sendo executada. Uma questão chave relativa às buscas está
10
Aspectos das Ferramentas de Busca Organizacional
em extrair e representar os aspectos do contexto da consulta que trarão um diferencial qualitativo nos resultados, sem onerar o tempo de processamento da mesma.
VII – Buscas em mídias não textuais. Muitas organizações possuem repositórios de dados multimídia, como gravações de áudio e vídeo em formato digital. Já existem tecnologias que permitem criar hiperlinks para esse tipo de dado da mesma forma como ocorre hoje nas páginas estáticas da Web, o que permitirá que buscas possam ser realizadas também neste tipo de mídia.
2.3
Considerações para a aquisição de uma ferramenta O Instituto Forrester Research, especializado em pesquisa de tendências e de
mercados na área de tecnologia da informação, entende que as empresas podem escolher a ferramenta de busca organizacional mais adequada a partir de um estudo aprofundado dos usuários que irão utilizar a tecnologia e dos conteúdos a serem indexados [7]. Esse mesmo instituto classifica de forma bem didática os usuários de acordo com dois critérios: o grau de conhecimento que possuem sobre um determinado assunto e a habilidade em realizar buscas. Dessa forma, os usuários podem ser distribuídos em um gráfico conforme a Figura 2.1. Os usuários comuns da Figura 2.1, ao tratar de buscas, apresentam as seguintes características: fazem consultas de uma ou no máximo duas palavras; não estão acostumados com os jargões de busca; desconhecem a utilidade dos operadores booleanos; e para identificar conteúdos relevantes precisam de resultados detalhados. Os usuários especialistas em uma área de conhecimento costumam usar jargões próprios nas consultas, não gastam muito tempo aprendendo a linguagem do software de busca e podem identificar resultados relevantes mesmo que suas descrições sejam pobres.
11
Aspectos das Ferramentas de Busca Organizacional
Alto Especialistas por área do conhecimento
Consultores analíticos
Usuários comuns
Especialistas em pesquisa
Grau de conhecimento de um assunto
Baixo Baixo
Habilidade com buscas
Alto
Figura 2.1: Classificação dos usuários de ferramentas de busca [7]. Os especialistas em pesquisa da Figura 2.1 englobam, em sua maioria, bibliotecários e arquivistas acostumados com ferramentas de busca. Sabem como utilizar linguagens de busca complexas e precisam de resultados adequadamente ordenados e com descrições longas. Os consultores analíticos agregam aqueles que dominam tanto o jargão técnico dos especialistas por área quanto as linguagens de consulta dos programas. Estão em busca do conhecimento profundo e máximo de suas análises e para tanto precisam achar todos os resultados relevantes para uma pergunta. O Gartner, outro instituto também dedicado ao estudo do mercado de tecnologia, recomenda que as seguintes questões sejam levadas em conta quando um processo de escolha de uma ferramenta de busca organizacional está tendo início [8]: I – A organização deseja ou aceita um modelo de provedor de serviço de aplicação para o serviço de busca?
12
Aspectos das Ferramentas de Busca Organizacional
II – A organização deseja ou aceita um modelo de ferramenta de busca do tipo “appliance”, isto é, caixa fechada que inclui hardware e software com objetivo específico? III – O fornecedor atenderá um projeto piloto simples ou somente um projeto que englobe toda a organização? IV – Quais repositórios de dados serão pesquisados? A ferramenta de busca fará chamadas a aplicações ou simplesmente pesquisará um índice? V – Qual será o nível de segurança necessário, e quais serão os meios de autenticação que serão utilizados? VI – Qual será a interface utilizada para a seleção dos resultados? A organização deseja navegação por categorias? VII – Qual será a interface utilizada para as consultas? A organização precisará usar um formato de perguntas em linguagem natural, ou utilizará o formato familiar de palavrachave? Para Delgado et.al [6] os programas de busca organizacional já estão em sua terceira geração. Em uma primeira geração, tais programas estavam limitados em sua maioria a realizar buscas em uma única fonte de dados. A segunda geração de ferramentas de busca organizacional se propunha a realizar buscas universais, inclusive realizando consultas a bancos de dados e a sistemas ERP (enterprise resource planning), por exemplo. Além de resolver os problemas de busca tradicionais, as ferramentas de terceira geração devem, segundo os autores, ser utilizadas para integração de informações, gestão do conhecimento e colaboração, atendimento a obrigações legais e gestão de registros. Com relação ao mercado de fornecedores de ferramentas de busca organizacional, o Gartner em 2005 decidiu mudar o nome dessa categoria de sistemas de “enterprise search” para “information access technology” [9]. A razão para esta mudança de enfoque, segundo o Gartner, é que a maioria dos vendedores de soluções de busca inclui outras tecnologias como: a classificação, categorização e agrupamento de conteúdo; a extração de fato e entidade; a criação e o gerenciamento de taxonomia; a apresentação da informação diferenciada (por exemplo, a visualização para dar suporte à análise); e a busca pessoal
13
Aspectos das Ferramentas de Busca Organizacional
(desktop search) indicada para os repositórios controlados pelo usuário. Ainda afirma o Gartner: “Nós mudamos o nome porque os problemas solucionados pela tecnologia de acesso à informação se estendem muito além das soluções de busca por palavra-chave. Mais e mais, os usuários finais assumem que a experiência do Google.com pode ser traduzida dentro das organizações [...] A realidade é que achar a informação e agir sobre ela de forma inteligente demandam estratégias mais sofisticadas e inovadoras. [...] Como resultado, a mudança na terminologia veio dar suporte a esta realidade.” [9]. O Gartner não inclui neste mercado os fornecedores de aplicações de gerenciamento de informação, como gerenciadores de documentos, gerenciadores de conteúdo Web ou sistemas de gerenciamento de banco de dados (SGBD). O Gartner distribuiu os fornecedores de tecnologia de acesso à informação em quatro grupos, como mostrado na Figura 2.2, também conhecida como quadrante mágico: o dos líderes (leaders), o dos desafiadores (challengers), o dos visionários (visionaries) e o dos que atuam em nichos de mercado (niche players). Entre os líderes estão empresas que têm apresentado arquiteturas flexíveis. Seus produtos têm amplos meios de determinar a relevância dos resultados para os usuários e provêem os desenvolvedores da flexibilidade em ajustar as configurações de relevância. As empresas no quadrante dos desafiadores possuem recursos suficientes para, efetivamente, penetrar no mercado de tecnologia de acesso à informação. No quadrante dos visionários, estão as empresas que, apesar de possuírem abordagens inteligentes para a tecnologia, não possuem recursos para provar sua liderança e garantir força no futuro.
14
Aspectos das Ferramentas de Busca Organizacional
Figura 2.2: O Quadrante Mágico para a Tecnologia de Acesso à Informação, 2005 [9]. As empresas que atuam em nichos possuem atributos que satisfazem categorias de projetos particulares. O Gartner em 2005, não detectou nenhum projeto open source em andamento que pudesse servir como alternativa aos produtos dos fabricantes aqui abordados.
15
Capítulo 3 - Ferramentas Analisadas Dois critérios foram utilizados para a escolha de quais ferramentas seriam analisadas neste trabalho. Primeiro, dadas três categorias de fabricantes de sistemas de busca organizacional – appliances1 de busca, grandes plataformas de busca e software de busca de código aberto – procurou-se analisar pelo menos um produto de cada categoria. A seguir, procurou-se os produtos com a maior disponibilidade de informações, principalmente na Internet, sobre suas características técnicas e de usabilidade. A partir desses critérios chegou-se às três ferramentas analisadas neste trabalho: o Google Search Appliance da Google, o IDOL Server junto com seus módulos da Autonomy e o Apache Solr da The Apache Software Foundation. No Apêndice B, são listadas outras ferramentas de busca organizacional divididas em categorias e que não fizeram parte do escopo de análise deste trabalho.
3.1
Google Search Appliance Conforme anuncia o fabricante em sua página sobre o produto: ”O Google Search
Appliance é um produto de hardware e software projetado para oferecer às grandes empresas um aumento de produtividade com o poder do mecanismo de buscas Google”. Disponível em (http://www.google.com/enterprise/index.html). O Google Search Appliance é vendido como uma licença de dois anos, que inclui o hardware, o software, as atualizações do produto e o suporte. O valor da licença é calculado de acordo com o número de documentos indexados.
1
Appliances são equipamentos que integram hardware e software em uma única solução, não
permitindo o seu desmembramento. Este termo será utilizado em todo o trabalho.
Aspectos das Ferramentas de Busca Organizacional
Existem basicamente três modelos do produto: •
GB-1001 – um equipamento para montagem em rack e que ocupa um espaço de 2U, pode ser licenciado para pesquisar até 1,5 milhões de documentos e aceita até 300 consultas por minuto (Figura 3.1 obtida de http://www.google.com/enterprise/gsa/product_models.html).
Figura 3.1: Modelo GB-1001 do Google Search Appliance. •
GB-5005 – um cluster de cinco pequenos servidores que podem indexar até 5 milhões de documentos e também pode processar até 300 consultas por minuto (Figura 3.2 obtida de http://www.google.com/enterprise/gsa/product_models.html).
Figura 3.2: Modelo GB-5005 do Google Search Appliance. •
GB-8008 – é um conjunto de servidores de rack de 8U de tamanho, com sistema de segurança durante o processo de indexação e características adicionais de balanceamento de carga. Pode pesquisar até 15 milhões de documentos e aceita até
1000
consultas
por
minuto
(Figura
3.3
obtida
de
http://www.google.com/enterprise/gsa/product_models.html).
17
Aspectos das Ferramentas de Busca Organizacional
Figura 3.3: Modelo GB-8008 do Google Search Appliance. O software utilizado é uma versão criada a partir do mecanismo de busca da Internet Google.com, e roda sobre uma versão própria do sistema operacional Linux, ajustada para ser um servidor de buscas sem o overhead de outras aplicações. A administração do sistema é feita a partir de uma interface Web. O administrador é notificado por e-mail caso algum problema ocorra no sistema. É possível monitorá-lo, também, usando o padrão SNMP de gerenciamento. Podem ser criados vários perfis administrativos do sistema que monitoram especificamente, por exemplo, a indexação e o serviço de consulta, permitindo a administração do ambiente por várias pessoas. A Figura 3.4, obtida de http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um exemplo da página de configuração administrativa do Google Search Appliance. O índice de busca pode ser segmentado para mostrar resultados diferentes para diversos usuários, utilizando-se contextos como o nome de domínio, a localização geográfica ou a função gerencial do usuário. A configuração do sistema pode ainda levar em conta o uso de filtros que restringem as buscas a uma língua específica ou a certos tipos de arquivos. Os filtros podem agir também sobre sítios Web e metatags. É possível definir sinônimos para siglas específicas da organização ou terminologias que servirão como sugestões alternativas de consultas.
18
Aspectos das Ferramentas de Busca Organizacional
Figura 3.4: Exemplo da configuração administrativa do Google Search Appliance. Os administradores podem incrementar os resultados das buscas recomendando documentos que eles definam como mais apropriados para determinadas consultas. O Google chama isso de KeyMatch e provê uma interface para a entrada ou importação de listas de consultas, URL e nomes recomendados. O leiaute das páginas de resultado das consultas pode ser configurado utilizando folhas de estilo XSLT. Assim, é possível prover diferentes formatos em diferentes áreas do sítio
da
organização.
A
Figura
3.5,
obtida
de
http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um exemplo dessa configuração.
19
Aspectos das Ferramentas de Busca Organizacional
Figura 3.5: Exemplo da configuração do leiaute da página de resultados. O processo de rastreamento e indexação dos documentos chamado de crawling pode ser analisado para identificar problemas nos servidores e erros nas fontes dos conteúdos. O sistema operacional dá suporte à tecnologia RAID de tolerância a falhas de disco. É possível contratar o diagnóstico de manutenção feito pelo suporte remoto da Google. O Google Search Appliance pode trabalhar com vários tipos de sistema de segurança. Ele pode armazenar nomes de usuário e senhas fazendo uma autenticação básica ou pode trabalhar com certificados digitais de usuários, permitindo a busca segura de informações protegidas. Quando realizando buscas em material restrito, o produto
20
Aspectos das Ferramentas de Busca Organizacional
verifica se o usuário tem permissão para acessar os documentos. Isso significa que cada documento é verificado antes de ser apresentado, assim não há problema de sincronização do controle de acesso.
3.1.1 Como trabalha o Google Search Appliance Para localizar os arquivos para indexação, o Google Search Appliance usa um sistema robô da mesma forma como no sítio de buscas público. Ele inicia o rastreamento em uma página e segue cada link colocado na página para localizar outras páginas ou outros documentos. Com a interface de administração é possível informar quais URL e quais servidores Web o robô tem permissão para acessar. A Figura 3.6, obtida de http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um exemplo de parte da configuração do crawler do produto. Para que documentos em servidores de arquivos sejam indexados é preciso que neles esteja instalado o servidor Web Microsoft IIS e que se habilite a função directory browsing no servidor. Com a experiência obtida com o sítio de buscas público, o robô da Google faz um bom trabalho ao seguir links e recuperar documentos. É possível agendar os dias da semana, horário e o máximo de tempo permitido para indexar cada repositório. Para cada domínio ou servidor, pode-se configurar o número máximo de conexões concorrentes (evitando a sobrecarga dos servidores), bem como, servidores proxy utilizando cabeçalhos HTTP request e response configurados adequadamente. O sistema é otimizado para atingir o menor tempo de rastreamento possível, e dar prioridade às consultas dos usuários. A indexação tem algumas priorizações inteligentes, assim o robô rastreia as páginas com alta relevância, utilizando o cálculo de relevâncias denominado PageRank [2], e os links que elas apontam mais freqüentemente que outras páginas.
21
Aspectos das Ferramentas de Busca Organizacional
Figura 3.6: Exemplo da configuração do crawler do Google Search Appliance. O acesso do robô aos servidores HTTP pode ser identificado através das marca “gsa-crawler” presente no cabeçalho HTTP. O Google Search Appliance pode ler e indexar mais de 220 tipos de arquivos, incluindo HTML, Microsoft Office, PDF, PostScript e outros tipos curiosos como WordStar para DOS (http://www.google.com/enterprise/gsa/features.html). No processo de indexação ele converte todos os outros formatos de arquivos para HTML e o armazena para uso futuro. Ele irá indexar a partir das cópias em cache até que o arquivo original seja alterado, o que é mais rápido do que converter o arquivo toda vez que tiver que indexá-lo. Ele também indexa todos os campos de metadados dos arquivos
22
Aspectos das Ferramentas de Busca Organizacional
HTML, como author, description, keywords e generator. É possível acessar dados armazenados em bancos de dados relacionais rastreando o conteúdo diretamente da base de dados. Entre os SGBD que possibilitam esta integração estão IBM DB2, Microsoft SQLServer, MySQL, Oracle e Sybase. Através de uma API, pode-se trazer conteúdo não Web para o Google Search Appliance fazendo a conversão para XML. Durante e depois da indexação, ele provê um relatório interativo apresentando o que foi indexado e o que deu erro. É possível ver para um ou mais servidores, as URL, os erros e os sucessos, mostrando o que aconteceu quando da indexação do sítio. O Google não faz atualizações incrementais em um índice, assim não há como corrigir erros de indexação sem iniciar todo o processo novamente. Contudo, é possível remover URL do índice sem construí-lo novamente. É possível fazer a busca em duas coleções diferentes: uma coleção principal para documentos que não são alterados constantemente, e uma coleção incremental para a qual as atualizações são freqüentes, como as páginas de notícias. A coleção incremental pode ser indexada continuamente, enquanto o índice da coleção principal é atualizado diária ou semanalmente.
3.1.2 Características da busca O Google Search Appliance usa regras padrões do Google, tais como pesquisar por todas as palavras e não diferenciar letras maiúsculas de minúsculas. Ele reconhece o sinal de menos (-) para excluir palavras indesejadas, mas não permite o operador NOT. Os usuários podem utilizar aspas para pesquisar frases e o operador booleano OR para especificar um termo alternativo. A interface Advanced permite buscas no título da página ou URL e limitar a pesquisa a domínios específicos, ou a determinados tipos de arquivos. É possível ordenar por data, bem como pesquisar links para uma página específica. Os usuários mais experientes podem usar os recursos de pesquisa padrão do sítio de buscas Google como os operadores inurl:, intitle:, site: e link:.
23
Aspectos das Ferramentas de Busca Organizacional
O Google Search Appliance reconhece mais de 25 línguas, entre elas o Português. Inclusive, permite limitar a busca a uma determinada língua. A página de resultados da busca do Google Search Appliance é parecida com a do mecanismo de busca público, simples e limpa. No cabeçalho da página aparecem o campo de busca, os termos da busca, o número de documentos encontrados e sugestões alternativas para o termo procurado. Cada item do resultado tem o título, a URL, o tamanho e a data do documento, se disponível. Além disso, um pequeno trecho do documento mostra os termos encontrados no contexto. Documentos de um mesmo diretório ou pasta são agrupados para aumentar a variedade de resultados dentro da página. Documentos que sejam duplicados são indexados, mas somente um resultado é apresentado. Na Figura 3.7, obtida de http://www.searchtools.com/tools/google-app.html, tem-se um exemplo de uma página de resultados do Google Search Appliance.
Figura 3.7: Exemplo de uma página de resultados do Google Search Appliance.
24
Aspectos das Ferramentas de Busca Organizacional
Os resultados da busca são apresentados no formato XML. Assim, uma aplicação intermediária poderia formatá-los da forma mais adequada aderindo aos padrões de apresentação da empresa. O leiaute dos resultados é completamente configurável através da edição do código XLST e o servidor aplicará este leiaute às páginas que forem geradas pelas consultas. Para o administrador do sistema, é possível obter informações a respeito das consultas realizadas pelos usuários, como o número de consultas realizadas por dia, a média de consultas por hora e a lista das 100 palavras mais pesquisadas (Figura 3.8, obtida de http://www.stanford.edu/services/websearch/Google/TGIF/april.html).
25
Aspectos das Ferramentas de Busca Organizacional
Figura 3.8: Exemplo de relatórios administrativos: número de buscas por dia, média de consultas por hora e as 100 palavras mais pesquisadas.
26
Aspectos das Ferramentas de Busca Organizacional
3.1.3 Busca em estações de trabalho Apesar de não fazer parte da linha de produtos do Google Search Appliance, a Google possui um poderoso software de busca pessoal para instalação em estações de trabalho.
É
o
chamado
Google
Desktop
for
Enterprise,
disponível
em
http://desktop.google.com, e é isento de taxa de licenciamento, podendo ser utilizado por qualquer empresa interessada em prover busca pessoal para os funcionários. Ele pesquisa o computador do usuário procurando por arquivos locais ou de compartilhamentos remotos, mensagens de correio eletrônico, histórico do navegador Web, mensagens instantâneas, imagens, músicas e vídeos. O Google Desktop pode ser integrado ao sistema de buscas do Google Search Appliance, dando aos usuários corporativos um ponto único de pesquisa para todos os recursos. Ele é compatível com a política de grupos do Windows permitindo que os administradores de rede gerenciem a configuração de indexação do software, de modo a impedir que os usuários façam configurações que possam ocasionar sobrecargas na rede ou em servidores de arquivos. A interface do Google Desktop é semelhante ao do Google Search Appliance, acrescida de facilidades de usabilidade como o acesso instantâneo ao campo de busca com a simples digitação de CTRL CTRL (Figura 3.9).
Figura 3.9: Exemplo da interface de busca rápida do Google Desktop.
27
Aspectos das Ferramentas de Busca Organizacional
3.2
Autonomy A Autonomy é uma das empresas líderes no mercado de programas para busca
organizacional [9], [10]. Os seus aplicativos tentam identificar os padrões que ocorrem naturalmente em um texto, baseados no uso e na freqüência das palavras ou dos termos que correspondem a idéias ou conceitos específicos. Baseando-se na preponderância de um padrão sobre o outro em um apanhado de informações não-estruturadas, é possível utilizar os recursos computacionais com o objetivo de identificar a probabilidade que um documento tem de pertencer a um determinado assunto. Um dos fundamentos teóricos para essa abordagem é a aplicação da teoria estatística denominada inferência bayesiana [11]. Essa é um tipo de inferência estatística na qual as evidências e as observações são utilizadas para atualizar ou inferir nova probabilidade sobre a veracidade de uma hipótese. Como exemplo, na estatística tradicional, mesmo se uma moeda for lançada cem vezes e o resultado der cara, a chance de vir coroa no próximo lançamento permanece. Na abordagem bayesiana, os cem resultados consecutivos com cara evidenciam que ou a moeda é viciada ou talvez tenha cara dos dois lados. Outro fundamento utilizado pela Autonomy na construção de seus produtos, vem da Teoria da Informação de Claude Shannon que provê meios de extrair conceitos eliminando as redundâncias. Pela teoria, tanto a linguagem falada como a escrita contêm um alto grau de redundâncias e quanto menos freqüente uma unidade de comunicação (palavras ou frases) ocorre, mais informação ela conduz [11]. A Autonomy chama de IDOL (Intelligent Data Operating Layer) o software de infra-estrutura que implementa esses fundamentos teóricos. A Autonomy também licencia o IDOL para ser utilizado por outras fabricantes em seus aplicativos, como a BEA, a Sybase e a Computer Associates. O núcleo da plataforma de busca da Autonomy é o Servidor IDOL. A Figura 3.10 apresenta a arquitetura conceitual dessa plataforma.
28
Aspectos das Ferramentas de Busca Organizacional
Cliente
Interface web
DiSH
DAH
Servidor IDOL
DIH
Conectores
Repositório de dados
Figura 3.10: Arquitetura da plataforma de busca da Autonomy [12]. O Servidor IDOL provê as seguintes funcionalidades: •
Guia de busca automática – direciona os usuários para os resultados que eles requerem baseando-se em um entendimento conceitual e de contexto da consulta. Não utiliza cálculo de relevância para os documentos como o Google Search Appliance, mas sim, determina o contexto do usuário que faz a consulta e apresenta os resultados mais apropriados juntamente com outras sugestões;
•
Agrupamento (clustering) – o Servidor IDOL tem a capacidade de agrupar automaticamente as informações. Esse processo consiste em pegar um grande repositório de dados não-estruturados e dividi-los em grupos com informações semelhantes. Cada grupo representa uma área conceito dentro da base de conhecimento e contém um conjunto de itens com propriedades comuns;
•
Agrupamento dinâmico – os resultados de uma busca são agrupados em tempo de execução para evitar o excesso de informação e apresentar uma visão dos diferentes aspectos conceituais nos quais os resultados podem ser agrupados;
29
Aspectos das Ferramentas de Busca Organizacional
•
Hyperlinking – procedimento que permite que links sejam gerados para os documentos em tempo real. Os links são inseridos automaticamente no momento em que um documento é recuperado. Os links são criados para pedaços do conteúdo que na prática podem ser uma sentença, um parágrafo, uma página de texto, o conteúdo de uma mensagem de correio eletrônico ou uma informação de contexto derivada de uma gravação de áudio;
•
Criação de sumários de informação – o Servidor IDOL realiza três tipos de sumários: sumários conceituais, sumários de contexto e sumários rápidos que contém apenas algumas linhas dos documentos a serem apresentados aos usuários;
•
Geração de taxonomia – o IDOL permite criar automaticamente categorias hierárquicas das informações;
•
Classificação dos dados de acordo com as categorias – isso é usado para identificar quais categorias são mais apropriadas para classificar um determinado conteúdo;
•
Extração de conceitos – descobre os conceitos de um documento com o objetivo de adicionar tags (identificadores) que melhoram a qualidades dos resultados da busca;
•
Identificação de perfis de usuário – rastreia o conteúdo com que um usuário interage e identifica um perfil de interesses desse usuário. Esse perfil é utilizado para apontar informações relevantes, recomendar conteúdo e alertar os usuários da existência de novos dados;
•
Correção ortográfica das palavras e expressões utilizadas na busca;
•
Dicionário de sinônimos e de palavras relacionadas;
•
Detecção automática de língua;
•
Métodos de busca tradicionais, como: por palavra-chave; por operadores booleanos (AND, NOT, OR, XOR/EOR); por operadores de proximidade
30
Aspectos das Ferramentas de Busca Organizacional
(NEAR, DNEAR, WNEAR, BEFORE, AFTER); por frase exata, como em “banco central do brasil”; pela raiz das palavras, como na busca por “finanças” retornar documentos com as palavras “financiamento”, “financeiro” ou “financista”; busca fonética mesmo quando há erros de grafia nos termos, com na busca por “ceção” retornar documentos com as palavras “cessão”, “seção” e “sessão”; •
Métodos de busca conceitual – a partir de uma sentença, um parágrafo ou uma página de texto, ele é capaz de retornar documentos conceitualmente relacionados;
•
Possibilita a busca federada – permite que a consulta seja realizada em sistemas de busca de terceiros;
•
Reconhecimento automático de nomes próprios; e
•
Utilização do padrão XML – indexa nativamente documentos no formato XML; o formato padrão de apresentação dos resultados da busca ao usuário é o XML; dá suporte a múltiplos esquemas XML; e pode, automaticamente, criar tags XML nos conteúdos indexados.
Os Conectores apresentados na Figura 3.10 reúnem o conteúdo de vários repositórios e o indexam diretamente no Servidor IDOL ou no DIH, quando trabalhando em um ambiente distribuído. Os Conectores da Autonomy dão suporte a cerca de 200 formatos diferentes de arquivos de dados, entre eles do Microsoft Office, do Microsoft Project, do tipo Adobe PDF, arquivos gráficos como JPEG e GIF, além de arquivos de áudio e vídeo como MP3, Windows Media Audio, Apple QuickTime e Windows Media Video [13]. A indexação de arquivos multimídia, mais especificamente arquivos de áudio e vídeo, é possível com a utilização de um componente da solução da Autonomy denominado Autonomy VoiceSuite que faz a transcrição do conteúdo do áudio para texto a partir de uma tecnologia de reconhecimento da fala [14]. Até o momento não há suporte desse módulo à língua portuguesa.
31
Aspectos das Ferramentas de Busca Organizacional
Existem ainda Conectores específicos para indexação de dados de sistemas de gerenciamento de banco de dados, como IBM DB2 e Oracle, de servidores HTTP e FTP, de servidores de correio eletrônico, como Microsoft Exchange e Lotus Notes, dentre outros para produtos menos difundidos. Os módulos DAH (Distibuted Load Handler) e DIH (Distributed Index Handler), apresentados na Figura 3.10, permitem que o Autonomy funcione em um ambiente distribuído. O módulo DAH provê a recuperação do sistema de busca em caso de falha e o balanceamento de carga das requisições. Ele que distribui as buscas dos usuários para os diversos Servidores IDOL. O módulo DIH permite a distribuição dos índices de documentos utilizados por um ou mais Servidores IDOL também com o objetivo de compartilhar e balancear as demandas de busca e manter o sistema em produção no caso de falha em um dos elementos redundantes. O módulo denominado DiSH (Distributed Service Handler) da Figura 3.10 possibilita que os administradores do sistema configurem, façam manutenção e controlem diversos serviços da plataforma Autonomy a partir de uma mesma interface Web. O subsistema de segurança da plataforma Autonomy denominado IAS (Intellectual Asset Protection System) garante o acesso seguro e controlado dos usuários aos documentos através de autenticação e perfil de permissões. Quando um usuário acessa a interface de entrada do sistema de busca, por exemplo um portal corporativo, sua identificação é enviada ao Servidor IDOL e o mesmo retorna ao portal os detalhes de segurança do usuário, que guarda estas informações até o usuário encerrar a sessão. Toda vez que o usuário insere uma consulta no sistema de buscas, suas permissões de segurança são anexadas à consulta e enviadas ao Servidor IDOL. Este passa as credenciais do usuário para as bibliotecas de segurança dos repositórios de dados que contém documentos que atendem ao critério da busca. As bibliotecas verificam se o usuário possui permissão de leitura dos documentos e retorna como resultado os documentos autorizados [15].
32
Aspectos das Ferramentas de Busca Organizacional
As soluções de busca da Autonomy incluem ainda uma ferramenta de busca pessoal para as estações de trabalho da organização denominada IDOL Enterprise Desktop Search. Com ela é possível ao usuário realizar buscas em seus arquivos locais e em suas mensagens de correio pessoais. Uma das características relevantes desse software é a consulta implícita em que, baseada nas informações que o usuário manipula em sua estação de trabalho, são gerados automaticamente e de forma dinâmica atalhos para outras informações relevantes sem que o usuário as solicite. Outra funcionalidade chamada Active Folders cria pastas, dinamicamente e sem intervenção manual, com documentos classificados segundo seu contexto. Para isso, utiliza a mesma tecnologia de extração de conceitos empregada no Servidor IDOL [16]. A função de consulta implícita apresenta ser um recurso de baixa utilidade, uma vez que cada usuário sabe exatamente quando um trabalho que está sendo desenvolvido necessita de informações adicionais que precisam ser buscadas. Já as pastas com a função Active Folder permitem que os arquivos pessoais do usuário sejam melhor classificados em pastas de acordo com o seu conteúdo. Mas tal facilidade não pode consumir recursos computacionais da estação de forma a desestimular o seu uso. O IDOL Enterprise Desktop Search é também uma interface alternativa para a realização de buscas no Servidor IDOL corporativo, aumentando o escopo que uma consulta pode abranger.
3.3
Apache Lucene / Solr O Apache Lucene (http://lucene.apache.org) não representa efetivamente uma
ferramenta de busca organizacional, mas destaca-se entre os projetos open source dedicados à busca textual. O Apache Lucene é um apanhado de projetos de código aberto que atacam o desafio da busca. O principal projeto deste grupo é o Apache Lucene Java. Seus mantenedores o definem como uma biblioteca, escrita inteiramente em Java, de um mecanismo de busca textual de alto desempenho [17].
33
Aspectos das Ferramentas de Busca Organizacional
Essa é uma biblioteca de código aberto distribuída sob a licença Apache (http://www.apache.org/licenses/LICENSE-2.0.html) o que permite o seu uso tanto em produtos comerciais como em projetos open source. Dentre as suas características se sobressaem as seguintes: •
Busca os documentos mais relevantes;
•
Possui os tipos de consulta tradicionais como: consulta por frase, por caráter curinga, por proximidade das palavras e por grupo de valores;
•
Busca por campo do documento, como autor ou título;
•
Busca por período de datas;
•
Ordenação dos resultados por qualquer um dos campos;
•
Busca em múltiplos índices mesclando os resultados; e
•
Permite que as consultas sejam realizadas simultaneamente à atualização do índice.
O
Apache
Solr
(pronuncia-se
Solar),
disponível
no
endereço
http://incubator.apache.org/solr/, é outro subprojeto do Apache Lucene que pretende ser um servidor de busca organizacional de código aberto alternativo ao software comercial de alto custo. Até o momento, ele é considerado para a Apache Software Foundation, grupo mantenedor do projeto, um software “incubado”, isto é, foi introduzido recentemente na “incubadora” de projetos da Apache a partir de uma doação de código de alguma organização externa, mas ainda não faz parte da lista de projetos principais. Isso não significa que ele seja um software que não possa ser aplicado. Há vários exemplos de sítios na Internet que o utilizam em suas funções de busca, como: •
CNET News - http://news.com.com;
•
Shopper.com;
•
CNET Channel – http://www.cnetchannel.com;
34
Aspectos das Ferramentas de Busca Organizacional
•
CNET Review - http://reviews.cnet.com;
•
Search.com;
•
Booklooker.de; e
•
Nines.org.
Foi exatamente a CNET Networks Inc, empresa especializada em conteúdo para a Internet, que doou o código de buscas que utilizava em seus sítios para a Apache. O Solr é um servidor standalone de busca textual baseado nas bibliotecas do Lucene Java, e cuja arquitetura é representada pela Figura 3.11.
Figura 3.11: Arquitetura do Apache Solr [18]. O Solr trabalha como uma aplicação Web na qual para indexar os documentos é preciso entrar com os mesmos via HTTP, e as consultas são realizados com comandos GET do protocolo HTTP. Isso significa que o Solr não faz rastreamento (crawling) de repositórios de documentos. Os desenvolvedores que o adotarem em suas instalações precisam criar aplicações Web que informam para o sistema de busca quais documentos serão indexados e, também, devem criar a interface de consulta para os usuários. O formato tanto de entrada de documentos para o índice como dos resultados de saída é o XML. Dessa forma, documentos que não estão no formato XML precisam ser convertidos antes de serem submetidos à indexação.
35
Aspectos das Ferramentas de Busca Organizacional
O Solr possui uma interface simples de administração do sistema (Figura 3.12) que permite visualizar informações de configuração, realizar consultas no índice, obter estatísticas de uso e depurar o sistema.
Figura 3.12: Interface de administração do Solr [18]. Na definição do esquema do Solr são determinados quais são os campos dos documentos e de que tipo. Apesar disso, pode haver documentos que não tenham valores para todos os campos. Para configurar a relevância dos documentos, pode-se acrescentar lista de sinônimos e lista de stopwords (palavras comuns que não aumentam a relevância, como artigos, preposições e conjunções). O Solr se apresenta como uma ferramenta para desenvolvedores interessados em utilizar seus recursos para criar soluções de busca específicas, como as apresentadas nos sítios que o utilizam. Para os que pretendem efetivamente usá-lo como ferramenta de busca organizacional, é preciso aguardar novos avanços no seu desenvolvimento, que, no caso de software de construção colaborativa como o Solr, dependem de atrair adeptos ao projeto e de uma maior disseminação em empresas.
36
Aspectos das Ferramentas de Busca Organizacional
3.4
Considerações finais No Quadro 3.1 a seguir, é apresentada uma comparação de características, que
podem fazer parte de um sistema de busca, entre o Google Search Appliance, a plataforma da Autonomy e o projeto Apache Solr. Quadro 3.1: Comparação entre as características das ferramentas de busca organizacional. Google Search Appliance
Autonomy
Apache Solr
Operadores booleanos
Dá suporte.
Dá suporte.
Dá suporte.
Tipos de dados
Mais de 200 tipos incluindo HTML, MS Word, PDF e XML.
Cerca de 200 tipos incluindo PDF, MS Word, XML, JPEG e MP3.
Somente XML.
Sim.
Sim.
Sim.
Não.
Sim, com programas específicos da plataforma.
Não.
Possui.
Possui.
Não.
Permite.
Permite.
Windows, Linux e Unix.
Servidor de aplicações Java.
Navegador web.
Não possui. Necessita que uma aplicação passe as consultas e apresenta os resultados.
Sim.
Sim.
Não.
Não.
Sim.
Sim.
Sim.
Sim.
Não.
Não.
Sim.
Não.
Simplicidade e carregar a marca Google.
Abrangente e complexo.
Gratuito e código aberto.
Ordenação dos resultados por relevância Busca em conteúdo não textual Robô de rastreamento Busca por campo do documento Arquitetura do sistema operacional
Permite mas em campos predeterminados. Linux, mas por ser um appliance não é possível instalar o software em outro tipo de máquina.
Interface do usuário Navegador web. Busca em estação de trabalho. Dispõe de API Mecanismos de segurança Criação de taxonomia Características mais marcantes
37
Aspectos das Ferramentas de Busca Organizacional
O Servidor IDOL da Autonomy e seus módulos acessórios mostraram-se a solução mais robusta e completa entre as três analisadas. Todavia, sua complexidade pode gerar ansiedade demasiada nos patrocinadores do projeto dentro da empresa por resultados imediatos durante a sua implantação. Se esses anseios não se satisfizerem quando da colocação do sistema em produção, a solução pode cair em descrédito levando ao fracasso do projeto. Por outro lado, a simplicidade de instalação e de uso e a rapidez na implantação do Google Search Appliance trazem resultados imediatos para os usuários, podendo surpreendê-los pela agilidade, não muito comum na maioria das equipes de tecnologia da informação das empresas, em implantar novos sistemas. No que diz respeito à previsão de tempo para implantação de tais sistemas, o instituto de análise de tecnologias e de mercado CMS Works, em seu The Enterprise Search Report [4], calculou o tempo médio estimado necessário para realizar as cinco principais tarefas de implantação de uma ferramenta de busca organizacional em três diferentes tamanhos de instalação, conforme o Quadro 3.2. Quadro 3.2: Tempo médio estimado das cinco principais tarefas de implantação de um sistema de buscas [4]. Tarefa Instalação do software Indexação de 2 milhões de documentos Ajustes no robô de rastreamento para minimizar impactos na rede Testes e ajuste do índice Ajuste na interface do usuário
Pequena
Instalação Média
Grande
Menos de 1 dia
De 2 a 7 dias
De 2 a 6 semanas
Não se aplica
Não se aplica
De 7 a 28 dias
Menos de 1 dia
De 5 a 10 dias
De 7 a 28 dias
Menos de 1 dia
De 7 a 12 dias
De 10 a 60 dias
Não se aplica
De 1 a 2 dias
2 dias por interface
38
Aspectos das Ferramentas de Busca Organizacional
Foi considerado como instalação pequena aquela que tenha, de início, 100 mil documentos para indexar, no máximo 5 usuários simultâneos e uma única localidade. Para instalação média considerou entre 100 mil e 300 mil documentos a serem indexados, até 25 usuários simultâneos e duas localidades de usuários e uma para o sistema de busca. Para instalação grande foram considerados mais de 500 mil documentos, mais de 50 usuários simultâneos em diversas localidades, podendo o sistema de busca ser centralizado ou distribuído. Conforme alerta o autor dessa estimativa, a quantidade de tempo em cada etapa varia de acordo com o sistema de busca a ser utilizado e com as particularidades de cada empresa. O descontentamento que pode surgir no uso do Google Search Appliance pode ser gerado pela comparação inevitável que os usuários irão fazer entre os resultados obtidos internamente com esse produto e os resultados de buscas feitas no sítio Google.com. Como o segredo do sucesso do mecanismo de buscas na Internet reside no cálculo de relevância baseado no número de links que apontam uma determinada página, e a maioria das empresas não possui documentos que apontam uns aos outros, muito provavelmente, as relevâncias dos documentos pesquisados internamente podem não atender às necessidades da organização. Essa, inclusive, é uma das características mais criticadas do Google Search Appliance, uma vez que não há possibilidade de fazer ajustes no cálculo de relevância dos documentos, capacidade comum às ferramentas de busca organizacional tradicionais [19]. O Apache Solr coloca-se como uma alternativa aos produtos comerciais por ser um produto livre do pagamento de licenças. Mas, devido a sua implantação não ser simples como instalar um software para Windows e ele necessitar de configuração por equipe especializada em Java, o custo homem/hora envolvido não deve ser descartado. No levantamento sobre o custo das licenças das soluções de busca, o CMS Works dividiu os produtos em 4 categorias [4]:
39
Aspectos das Ferramentas de Busca Organizacional
1. Sistemas de código aberto – devem ser instalados e configurados pelo próprio usuário ou equipe interna de TI. Serviços de suporte são raros; 2. Sistemas de baixo custo – em geral, devem ser instalados por quem compra. Os serviços de suporte podem não estar disponíveis para contratação; 3. Sistemas de médio custo – oferecem várias funções avançadas como o agrupamento de resultados (clustering) e o processamento de linguagem natural. Serviços de suporte podem ser oferecidos pelo fabricante ou por um integrador; e 4. Sistemas de alto custo – provêem um grande número de funcionalidades e geralmente possuem unidades profissionais de suporte do próprio fabricante. Dentre as suas funcionalidades destacam-se: várias opções para implantar as funções básicas, workflow e opções avançadas de lingüística. O Quadro 3.3 apresenta a ordem de valores, em dólares americanos, das licenças de acordo com essas categorias. Quadro 3.3: Ordem de valores das licenças dos sistemas de busca por categoria [4]. Categoria Sistemas de código aberto Sistemas de baixo custo Sistemas de médio custo Sistemas de alto custo
Preços em dólares (US$) Sem taxa de licença De 2 mil a 50 mil De 51 mil a 250 mil De 250 mil a valores com sete dígitos
Por fim, a escolha de uma entre as várias opções de software de busca organizacional, como as abordadas neste capítulo, deve levar em consideração, além do custo do licenciamento e do serviço de suporte, a necessidade que os usuários possuem ao procurarem por informações em seus repositórios. Sistemas de busca altamente sofisticados como o Autonomy podem se tornar subutilizados se as necessidades dos usuários se resumem a encontrar documentos próprios que estavam esquecidos em servidores de arquivos.
40
Aspectos das Ferramentas de Busca Organizacional
Por outro lado, tentar utilizar sistemas mais simples de busca como se fossem ferramentas de gestão do conhecimento organizacional ou de mineração de dados textuais pode não trazer resultados para a empresa. Da mesma forma, investir em equipes internas para o desenvolvimento e implantação de um sistema como o Apache Solr pode tornar difícil a mensuração dos custos do projeto se não houver uma definição de escopo para a ferramenta.
41
Capítulo 4 - Busca Organizacional no Banco Central Para uma avaliação de como o Banco Central pode aproveitar os benefícios das ferramentas de busca organizacional, é preciso, primeiramente, apresentar a situação atual dos principais sistemas de informação utilizados pelo Banco. A partir deste levantamento, faz-se necessário definir quais as possíveis abordagens de implantação e utilização de um sistema de buscas. O objetivo deste capítulo é tratar estas questões, bem como, enumerar as possíveis dificuldades que podem ser encontradas na implementação de um sistema de busca no Banco Central.
4.1
Cenário atual dos sistemas de informação A estrutura de tecnologia da informação no Banco Central do Brasil é bem
abrangente, heterogênea e atinge todos os departamentos pertencentes à instituição. Os ativos tecnológicos mais importantes para o funcionamento do Banco são: I. Sistemas transacionais na plataforma Natural e Adabas; II. Sistemas transacionais desenvolvidos com a tecnologia Java e com suporte por servidores de aplicações IBM WebSphere; III. Sistema de datawarehouse em plataforma IBM DB2; IV. Sistema de correio eletrônico Microsoft Exchange; V. Sítio na Internet de divulgação institucional e relacionamento com a sociedade (http://www.bcb.gov.br); VI. Portal corporativo com os sítios departamentais de acesso interno; e VII. Servidores de arquivos sem ferramenta de gerenciamento de documentos.
Aspectos das Ferramentas de Busca Organizacional
Além desses citados anteriormente, o Banco possui vários sítios Web isolados construídos pelos departamentos ou por necessidade de alguma aplicação específica. Somam-se a isso aplicações que utilizam servidores de banco de dados Microsoft SQLServer e os vários trabalhos publicados de forma não ordenada em compartilhamentos de pastas nas estações de trabalho dos funcionários. Não há, até o momento, nenhuma ferramenta de busca organizacional que dê suporte a todos os ativos de informação existentes. Há algumas ferramentas de busca em sistemas isolados como no Portal Intranet, no sítio da Internet e em aplicações que gerenciam normas e legislações. O processo de busca de documentos em servidores de arquivos é realizado a partir do aplicativo de busca do próprio Windows das estações de trabalho, o que, na maioria das vezes, fica impraticável quando se está procurando em compartilhamentos com milhares de arquivos. Esses fatos tornam o processo de busca nos repositórios de informações penoso e praticamente impossível de ser realizado com satisfação e completude. O Portal Intranet hoje existente possui embutida uma ferramenta de busca da Verity, empresa adquirida pela Autonomy em 2005. Na Figura 4.1, tem-se uma imagem com a interface de busca do portal Intranet. Algumas limitações de projeto e de usabilidade são encontradas na página de buscas do portal. Dentre elas, destacam-se: •
Os repositórios de dados, chamados na Figura 4.1 por “Locais disponíveis”, nos quais se permite realizar buscas, são em número reduzido e não descrevem claramente o conteúdo desses repositórios;
•
Não é possível realizar buscas no Portal Internet do Banco agrupando o resultado com a busca interna;
•
Não há instruções de ajuda ao usuário de como realizar a busca e o que pode ser feito para refinar os resultados; e
43
Aspectos das Ferramentas de Busca Organizacional
Figura 4.1: Interface de busca do portal Intranet do Banco Central. •
Ao apresentar os resultados, não são fornecidas ao usuário facilidades de ordenação ou agrupamento de conteúdos semelhantes.
Apesar da ferramenta de busca da Verity ser considerada, à época da aquisição do portal, uma das melhores e mais poderosas do mercado [9], a eficiência das buscas realizadas no portal é baixa, mais provavelmente em função das limitações tecnológicas que o portal possui. Essas restrições geraram um círculo vicioso de desinteresse pelo uso da ferramenta, em que os editores de conteúdo se viam limitados a realizar novas publicações, os usuários não encontravam motivos em acessar o portal e a equipe de desenvolvimento e suporte havia esgotado as possibilidades de aperfeiçoamento da solução. Até o final de 2006, uma nova solução de portal para a Intranet será implantada com o objetivo de eliminar os problemas da plataforma atual. O produto já adquirido e em fase de implantação é o WebLogic Portal da BEA. Ele vem acompanhado com uma licença da plataforma de buscas da Autonomy, mas está limitado a indexar apenas 500 mil documentos [20]. Para incluir no índice de buscas do novo portal um número maior de
44
Aspectos das Ferramentas de Busca Organizacional
documentos, uma nova licença do Autonomy IDOL Server deverá ser adquirida.
4.2
Um sistema de busca organizacional para o Banco Central Em geral, os atuais 27 Departamentos do Banco Central ligados às oito Diretorias e
à Presidência são grandes produtores de documentos, relatórios e normas. A grande maioria deste conhecimento fica armazenada em servidores de arquivos da instituição, enquanto apenas uma pequena parcela é colocada ou apontada por links no Portal Intranet ou no sítio da Internet. O volume de arquivos armazenados em servidores corporativos somente na sede do Banco em Brasília ultrapassa os seis milhões de objetos e pouco mais de 1,0 TB de armazenamento.2 Como na maioria das organizações modernas, a ferramenta de correio eletrônico no Banco Central é considerada de extrema necessidade para o funcionamento da instituição e na realização dos trabalhos mais críticos. Em um levantamento realizado em agosto de 2006, em média 332 mil mensagens de correio eletrônico circulam por dia pelos servidores Exchange de Brasília.3 Analisando as atribuições dos diversos departamentos do Banco, determinadas no seu Regimento Interno [21], e utilizando-se da classificação de usuários apresentada no Capítulo 2, Figura 2.1, pode-se sugerir uma distribuição dos perfis dos seus funcionários com relação à necessidade de um sistema de buscas conforme a apresentada na Figura 4.2. Com esses dados, verifica-se que, para a situação atual do Banco, uma ferramenta de busca organizacional deve, além de varrer toda a Intranet e o sítio Internet, rastrear todos os discos departamentais localizados nos servidores de arquivos. Seria de grande
2
Estão incluídos nesses números os arquivos dos sistemas operacionais dos quatro servidores
analisados. Informações mais detalhadas ver Apêndice A. 3
Média obtida entre os dias 28 de agosto e 1° de setembro de 2006, dias úteis. Informações mais
detalhadas ver Apêndice A.
45
Aspectos das Ferramentas de Busca Organizacional
importância que tal ferramenta também fosse capaz de fazer buscas nas conversações de correio eletrônico, uma vez que inúmeras informações vitais ficam armazenadas apenas neste meio.
Alto Especialistas por área do conhecimento
Consultores analíticos
Usuários comuns
Especialistas em pesquisa
Grau de conhecimento de um assunto
Baixo Baixo
Habilidade com buscas
Alto
Figura 4.2: Classificação dos funcionários do Banco Central em relação aos usuários propostos por Sonderegger [7]. A partir dos dados apresentados até aqui, pode-se vislumbrar quatro cenários para a implantação de uma ferramenta de busca organizacional no Banco Central.
4.2.1 Cenário 1: Escopo departamental Neste cenário, a implantação de um sistema de buscas terá início em um departamento apenas. A escolha de qual será o departamento alvo deverá surgir de um levantamento interno de necessidades de busca entre os usuários. Dentre as vantagens dessa abordagem podem ser citadas:
46
Aspectos das Ferramentas de Busca Organizacional
•
Possibilidade de fazer um menor investimento para adquirir uma tecnologia ainda não utilizada. Limitando-se a um departamento, o número de documentos a serem indexados será reduzido permitindo a aquisição de um software ou de um appliance de menor capacidade. Os riscos financeiros, caso o sistema adquirido tenha uma baixa utilização, serão minimizados.
•
Necessidade de uma equipe reduzida de TI nas etapas de implantação;
•
É possível utilizar essa instalação como um projeto piloto para avaliação dos benefícios ou da viabilidade de um sistema de buscas para todo o Banco;
•
Menor tempo de implementação, obtendo resultados mais rapidamente e ampliando a solução baseando-se no desempenho observado na primeira etapa; e
•
Menor impacto na infra-estrutura tecnológica do Banco, como os dispositivos de rede e de armazenamento.
Como desvantagens para uma abordagem departamental, têm-se: •
Como se trata de um órgão da administração pública, o processo de ampliação de uma solução já instalada não é tão simples, pois enfrenta maiores barreiras legais para justificar a compra com dispensa de licitação. Em um processo de compra desses, poderão surgir fornecedores que atendam os antigos e os novos usuários com uma solução diferente, mas a um menor custo. A aparente vantagem financeira para a instituição não contabiliza a perda de cultura tecnológica e de adaptação de um produto anterior;
•
O feedback dos funcionários do departamento escolhido a respeito do sistema de buscas pode ser insuficiente para avaliar a viabilidade de ampliação para todo o Banco; e
47
Aspectos das Ferramentas de Busca Organizacional
•
Visibilidade limitada do sistema de buscas, tanto do fato de não indexar todos os documentos e repositórios da instituição, deixando de agregar valor às buscas, como de atender apenas a um pequeno grupo e não prover os benefícios de imediato a todos os funcionários.
4.2.2 Cenário 2: Escopo amplo Neste cenário, a implantação de uma solução de busca será realizada em toda a organização, envolvendo todos os departamentos e atendendo todos os funcionários. Uma plataforma como o da Autonomy, abordada no Capítulo 3, com seus módulos complementares seria a indicada para essa abordagem, devido à sua abrangência e robustez. Dentre as vantagens do escopo amplo, podem ser citadas: •
Completa visibilidade pelo sistema de buscas dos repositórios de dados, proporcionando aos usuários resultados mais abrangentes para suas consultas;
•
Capacidade do sistema em fornecer a todos os funcionários do Banco acesso desde o início à avançada tecnologia de buscas;
•
Quanto maior o número de usuários, maiores são as possibilidades de se obter informações para melhoria do processo; e
•
Devido ao tamanho da solução, um processo de licitação atrairá os fornecedores de grande porte com plataformas completas ao mesmo tempo em que afugenta as empresas “aventureiras” com produtos medíocres.
Como desvantagens para essa abordagem, destacam-se: •
Custo inicial elevado devido ao número de documentos a serem indexados. Como os fabricantes baseiam-se na quantidade de documentos para fixar os valores de suas licenças, provavelmente, o Banco necessitará de uma licença high-end que dê suporte a mais de um milhão de objetos. Acrescentam-se
48
Aspectos das Ferramentas de Busca Organizacional
também os valores dos módulos que indexam repositórios específicos, como bases de correio eletrônico e bancos de dados; •
Maximização do risco financeiro do projeto devido ao alto volume de investimentos;
•
Necessidade de grandes equipes de TI envolvidas na implantação do sistema;
•
Maior cronograma para implantação, aumentando os riscos de não atender no
tempo
previsto
inicialmente,
frustrando
as
expectativas
dos
patrocinadores da solução e dos usuários; •
Impacto considerável na infra-estrutura de TI do Banco, principalmente nos dispositivos de rede, nos servidores controladores dos repositórios e nos equipamentos de armazenamento;
•
A complexidade da solução pode afugentar usuários adeptos da simplicidade, levando-os a procurar programas como os de busca pessoal baseados em estação de trabalho; e
•
A falta de um projeto piloto pode levar ao mau dimensionamento da solução, acarretando desperdício de recursos ou limitação de desempenho.
Como o produto de portal que foi adquirido recentemente possui uma licença básica do Autonomy incorporada, pode-se utilizá-lo para avaliação das potencialidades da ferramenta e, a partir daí, fazer uma ampliação do escopo para atingir todos os repositórios de dados e não só o conteúdo do portal Intranet.
4.2.3 Cenário 3: Software de código aberto Neste cenário, deve-se procurar projetos de código aberto, estáveis e com grande difusão, especializados em buscas. O software escolhido pode ser utilizado para atender a uma aplicação específica ou para o desafio maior de ser uma solução de busca organizacional. Neste último caso pode-se, inicialmente, partir do escopo de um grupo de
49
Aspectos das Ferramentas de Busca Organizacional
usuários e com a sua evolução progressiva atingir toda a empresa. O Apache Solr, analisado no Capítulo 3, possui a característica interessante de ser desenvolvido completamente em Java, sendo que a base tecnológica de desenvolvimento de sistemas dentro do Banco é essa linguagem. Dentre as vantagens percebidas dessa abordagem, verifica-se: •
Isenção do custo de licenciamento de software;
•
Em função disso, o risco financeiro de investimento em produtos é praticamente nulo; e
•
As vantagens típicas de programas de código aberto, como desenvolvimento colaborativo, possibilidade de acompanhar o funcionamento do produto, ajustando-o quando necessário e evolução do produto independente de fornecedor e sua saúde financeira.
As desvantagens para a adoção de um sistema de buscas de código aberto são: •
Não há grandes projetos nessa área à disposição dos interessados, como há para as áreas de servidores Web, de banco de dados e de sistema operacional com os projetos Apache, MySql e Linux, respectivamente. Em virtude disso, os produtos disponíveis, como o Solr, não atingiram um nível de profissionalismo desejado por uma organização do porte do Banco Central;
•
Necessidade
de
uma
equipe
de
desenvolvimento
qualificada
e
comprometida com a evolução do produto inclusive contribuindo com a comunidade mantenedora do software; e •
Dificuldade em mensurar o custo associado ao desenvolvimento de um produto isento de licença, bem como do retorno em benefícios desse investimento.
50
Aspectos das Ferramentas de Busca Organizacional
4.2.4 Cenário 4: Software de busca pessoal Neste cenário, deve-se procurar soluções de busca pessoal a serem instaladas nas estações de trabalho dos funcionários com o intuito de prover funcionalidades de busca aos conteúdos controlados pelo usuário, como arquivos em discos locais, mensagens pessoais de correio eletrônico e arquivos em compartilhamentos de rede. Soluções gratuitas, mas eficientes e bastante difundidas, como o Google Desktop, o Windows
Desktop
Search
da
Microsoft
(http://www.microsoft.com/windows
/desktopsearch/default.mspx) ou o Yahoo Desktop Search (http://desktop.yahoo.com), devem ser consideradas antes de se decidir pela aquisição de um produto com custo de licenciamento. Dentre as vantagens para essa cenário, estão: •
Rapidez de implementação e obtenção de resultados imediatos;
•
Baixo ou nenhum custo de licenciamento de software;
•
No caso do Google Desktop, a interface familiar de buscas facilita a usabilidade já que se assemelha com a do sítio Google.com; e
•
Possibilidade, em alguns produtos, de criar políticas de grupo aplicáveis a todas as estações de trabalho e que permitem ao administrador da rede configurar opções de indexação e de segurança aplicáveis a todas as estações de trabalho, evitando que configurações desastrosas impactem no desempenho do ambiente computacional.
Entre as desvantagens dessa solução, destacam-se: •
Multiplicidade de índices para os mesmos documentos, já que cada usuário terá o seu próprio índice em sua estação. Esse processo de indexação de documentos compartilhados pode levar à degradação dos servidores de arquivos;
51
Aspectos das Ferramentas de Busca Organizacional
•
Falta de integração da busca com repositórios que não estão sob o domínio direto do usuário, como o acesso aos bancos de dados;
•
Baixa proteção a falhas, já que o sistema reside na estação de trabalho que não possui recursos de alta disponibilidade;
•
Possibilidade de degradação do ambiente da estação de trabalho, devido ao processo de indexação;
•
Inúmeras discussões sobre a segurança e privacidade dos dados contidos no índice, principalmente para estações compartilhadas por mais de um funcionário;
•
O desempenho do sistema de buscas está associado ao desempenho particular de cada estação; e
•
Os usuários podem não ter noção de todos os repositórios disponíveis na instituição.
4.3
Possíveis dificuldades Pode-se admitir a existência de algumas dificuldades na implantação e no sucesso
de um sistema de busca organizacional no Banco Central. Algumas práticas teriam de ser revistas pelos departamentos e pelos funcionários para que os resultados da implantação do sistema tenham pleno êxito. Alertado pelo apelo de Hawking et al. [22] em sua apresentação Enterprise Search What Works & What Doesn’t: “Publique tudo! Se não é publicado, não pode ser achado”, constata-se que não é cultura no Banco colocar as produções intelectuais dos funcionários no Portal Intranet. Normalmente, a maioria dos trabalhos fica adormecida nos servidores de arquivos, sem links apontando-a e desconhecida da maioria dos funcionários. Os mesmos autores sugerem que não se deve ser excessivamente preocupados com a segurança dos dados que são úteis para o trabalho de todos. Ele sugere a adoção de um dos três modelos de segurança simples: aberto; interno versus externo; ou secreto versus
52
Aspectos das Ferramentas de Busca Organizacional
interno versus externo. Se algo é confidencial deve estar em um repositório específico para tal. Como exemplo, o Portal Intranet do Banco é dividido por departamentos e, por definição de regra de negócio, um funcionário não pode acessar as páginas de um departamento a que não pertença. Outras práticas que poderiam melhorar a qualidade das buscas organizacionais são [22]: •
Usar caminhos de páginas que tenham significado. URL do tipo www.xyz.com/x.y?page=000As0098-AAA-33121OA0A111-7 devem ser evitadas, já que as ferramentas de busca não vão utilizá-la para cálculo de relevância;
•
Dar nomes legíveis aos títulos das páginas;
•
Criar links para as páginas usando textos âncora que descrevem o link;
•
Utilizar metadados sempre que possível;
•
Analisar o que os usuários do sistema de busca estão procurando, verificando as consultas mais comuns e o nível de acerto dos resultados;
•
Facilitar a busca de documentos multimídia, como arquivos de áudio e vídeo, utilizando para isso, registros de metadados, textos âncora e tags de imagem; e
•
Integrar o sistema de buscas com outras aplicações.
Situações de configuração do ambiente atual poderiam retardar ou frustar a implantação de um sistema de buscas. Por exemplo, o Google Search Appliance indexa documentos de sistemas de arquivos desde que se habilite a função directory browsing no servidor Web da Microsoft (IIS). Mas no caso do Banco, os servidores de arquivos não são servidores Web, e esta mudança de configuração implicaria em complicadas questões de segurança.
53
Capítulo 5 - Conclusão Segundo o Instituto Gartner [23], a mineração em dados não-estruturados (unstructured data mining) é uma das tendências emergentes em mineração de dados até 2010, e as ferramentas de busca organizacional são poderosas ferramentas que auxiliam na gestão do conhecimento corporativo. O mesmo Gartner, afirma que este é um mercado de grandes mudanças nos dois últimos anos, tanto de lançamento de novos produtos como de incorporação de empresas rivais, proporcionando um desafio às empresas que pretendem adquirir a solução mais adequada para o seu ambiente de tecnologia. O desenvolvimento deste trabalho revelou que há uma grande diversidade de funções entre ferramentas que se classificam como de busca organizacional. O Autonomy e toda sua complexidade e robustez proporcionando desde a busca pessoal até a extração de conceitos, a criação de taxonomias e a busca automática a partir da análise do contexto do usuário. A simplicidade de instalação e de configuração do Google Search Appliance aliada à sua interface já conhecida. E a alternativa de código aberto, o Apache Solr, permitindo a criação de um sistema interno adaptado aos sistemas Java já existentes ou em desenvolvimento. Revelou, também, a possibilidade de quatro cenários nos quais o Banco Central pode se guiar para implantar um sistema de buscas interno. Um cenário de escopo departamental e em função disso limitado, mas com a vantagem de servir como um projeto piloto balizador para uma aquisição futura de um sistema completo. Outro de escopo amplo para atender todos os usuários do Banco com uma tecnologia avançada de buscas. Um cenário guiado pelo desenvolvimento colaborativo de software de código aberto. E, por fim, uma abordagem individual de busca, com a introdução de programas de busca em estações de trabalho.
Aspectos das Ferramentas de Busca Organizacional
5.1
Contribuições deste trabalho A principal contribuição deste trabalho está na apresentação das características de
uma nova tecnologia que pode ser adotada em futuro próximo no Banco Central, servindo como um documento orientador para os futuros gerentes de um projeto de sistemas de busca. Permitirá, também, o início da discussão sobre a viabilidade de inclusão no portfolio de sistemas oferecidos pelo Departamento de Tecnologia da Informação ao Banco Central de uma solução de buscas integrada.
5.2
Sugestões para trabalhos futuros Como desdobramento deste trabalho, vários outros poderão surgir, principalmente
os relacionados à recuperação da informação e à mineração de dados não-estruturados. Como sugestões de temas para trabalhos futuros, tanto para consumo interno do Banco Central, como para desenvolvimento de trabalhos científicos, propõe-se os seguintes: •
Levantamento dos perfis de usuários e das necessidades específicas de ferramentas de busca no Banco Central com o intuito de melhor escolher qual cenário a ser seguido dentre os apresentados ou a criação de novos cenários mais adequados;
•
Quais as possibilidades de se utilizar a biblioteca de código aberto Apache Lucene para prover buscas eficientes nos sistemas desenvolvidos em Java pelo Departamento de Tecnologia da Informação;
•
Análise de outras ferramentas que não foram objeto de avaliação neste trabalho;
•
Investigação de como a busca organizacional auxilia no alcance dos objetivos pregados pela gestão do conhecimento e pela área de business intelligence;
55
Aspectos das Ferramentas de Busca Organizacional
•
Quais devem ser as orientações aos usuários para que criem documentos com recursos que facilitem aos sistemas de busca, como a criação de metadados; e
•
O que precisa ser feito para que o cenário 4 de implantação de software de busca pessoal possa ser realizado com o menor impacto na infra-estrutura do Banco garantindo a segurança das informações.
56
Referências Bibliográficas [1] MUKHERJEE, Rajat e MAO, Jianchang. Enterprise Search: Tough Stuff. Queue, v.2, n.2, p.36-46. ACM Press, April 2004. [2] BRIN, Sergey e PAGE, Lawrence. The Anatomy of a Large-Scale Hypertextual Web Search Engine,1998. [3] ABROL, Mani et al. Navigating large-scale semistructured data in business portals. In Proceedings of the 27th VLDB Conference, Roma, Italy, 2001. Disponível em:
. Acesso em: set. 2006. [4] ARNOLD, Steve. The Enterprise Search Report – Version 3 (sample version). CMS Works, Inc. May 2006. [5] ANDREWS, Whit e KNOX, Rita E. Ask for the Basic Functions When You Evaluate Information Access Engines. Gartner Research, October 2005. [6] DELGADO, Joaquin et al. The New Face of Enterprise Search: Bridging Structured and Unstructured Information. Information Management Journal. Vol. 39, lss. 6, p.40. December 2005. [7] SONDEREGGER, Paul. Grading Search Platform Hopefuls. Forrester Research, December 2002. [8] ANDREWS, Whit. Questions to Ask When Beginning a Search Project. Gartner Research, July 2003. [9] ANDREWS, Whit e KNOX, Rita E. Magic Quadrant for Information Access Technology, 2005 Gartner Research, October 2005. [10]
BROWN, Matthew. The Forrester Wave: Enterprise Search Platforms, Q2 2006.
Forrester Research, June 2006.
Aspectos das Ferramentas de Busca Organizacional
[11]
AUTONOMY Systems Ltd. Autonomy Technology White Paper. 2004. Disponível
em: . Acesso em: set. 2006. [12]
AUTONOMY Systems Ltd. Autonomy IDOL server 5 Technical Brief. 2005.
Disponível em: . Acesso em: set. 2006. [13]
AUTONOMY Systems Ltd. Connector Data Sheet. March 2006. Disponível em:
. Acesso em: set. 2006. [14]
AUTONOMY Systems Ltd. Autonomy Audio and Broadcast White Paper. October
2003. Disponível em: . Acesso em: set. 2006. [15]
AUTONOMY Systems Ltd. IDOL server Administrator’s Guide Version 5.x. 2005.
Disponível em: . Acesso em: set. 2006. [16]
AUTONOMY Systems Ltd. IDOL Enterprise Desktop Search White Paper. May
2006. [17]
APACHE Software Foundation, The. Apache Lucene – Overview. Disponível em:
. Acesso em: set. 2006. [18]
SEELEY, Yonik. Apache Solr. Apresentação no ApacheCon 2006, Dublin, Ireland.
June 2006. Disponível em: . Acesso em: set. 2006. [19]
NEW IDEA Engineering. Ask Doctor Search. Enterprise Search Newsletter.
Volume 3, n.2. March 2006. Disponível em: . Acesso em: set. 2006.
58
Aspectos das Ferramentas de Busca Organizacional
[20]
BEA Systems Inc. BEA WebLogic Portal Integrating Search. June 2006.
Disponível em: . Acesso em: set. 2006. [21]
BRASIL. Banco Central do Brasil. Regimento Interno do Banco Central do Brasil.
2006. [22]
HAWKING, David et al. Enterprise Search. What works & What doesn’t.
Proceedings of the Infonortics Search Engines Meeting, 2002. Disponível em: . Acesso em: ago. 2006. [23]
LINDEN, A. Emerging Trends in Data Mining Through 2010. Gartner Research,
September 2002.
59
Apêndices
APÊNDICE A DADOS COLETADOS
61
APÊNDICE B LISTA DE PRODUTOS DE BUSCA
63
Apêndice A - Dados coletados Número de mensagens de correio eletrônico que circularam pelos servidores Exchange somente em Brasília, no período de 27 de agosto a 2 de setembro de 2006. Dados coletados pela equipe do Deinf/Diseg. DIA
N° de mensagens
Dom 27.ago
12823
Seg 28.ago
275420
Ter 29.ago
322026
Qua 30.ago
300629
Qui 31 ago
466714
Sex 01.set
300058
Sab 02.set
73910
Números de arquivos e total de armazenamento nos servidores de arquivos de Brasília. Dados coletados pela equipe do Deinf/Disop. Servidor 1: Número médio de arquivos: 974.168 Total de GB: 175,80 GB Número de arquivos novos ou alterados por semana: 26.692 Servidor 2: Número médio de arquivos: 2.466.783 Total de GB: 339,70 GB
Aspectos das Ferramentas de Busca Organizacional
Número de arquivos novos ou alterados por semana: 97.631 Servidor 3: Número médio de arquivos: 1.162.131 Total de GB: 266,50 GB Número de arquivos novos ou alterados por semana: 47.680 Servidor 4: Número médio de arquivos: 1.480.228 Total de GB: 259,50 GB Número de arquivos novos ou alterados por semana: 33.820
Total de arquivos 6.083.310 Total de GB: 1041,5 GB
62
Apêndice B - Lista de produtos de busca Abaixo segue uma lista dos fabricantes e seus respectivos produtos, divididos em categorias, que fazem parte do mercado de busca organizacional segundo Arnold [4] em seu trabalho The Enterprise Search Report. FABRICANTE
PRODUTO
Superplataformas – são assim definidos os produtos que compõem algum framework de alta complexidade, e não funcionam como um produto separado de sua plataforma principal. IBM Oracle Microsoft SAP
WebSphere Information Integrator OmniFind Edition Secure Enterprise Search 10g SharePoint Search 2007 TREX
Principais fabricantes do mercardo de busca organizacional. Autonomy
IDOL Server
Autonomy
K2 Enterprise and Ultraseek
Autonomy
Ultraseek
Convera FAST Search & Transfer Hummingbird Open Text
RetrievalWare Enterprise Search Platform 5.0 Search Server Livelink
Aspectos das Ferramentas de Busca Organizacional
Produtos com foco na plataforma Microsoft. Coveo Solutions, Inc
Enterprise Search 4.0
dtSearch
dtSearch Version 7.2
Go Daddy Mondosoft A/S
ES.NET 2004 MondoSearch Enterprise 5.2
Produtos do tipo appliance. Google Thunderstone
Google Search Appliance Texis / Webinator / Search Appliance
Serviços de busca – empresas que vendem o serviço de busca, fazendo-o a partir de fora da organização, sem implementar nenhum software internamente. Blossom Software WebSideStory
Enterprise Search Search
Produtos de baixo custo orientados a Web P@NOPTIC
Enterprise Search
YourAmigo
Enterprise Search
Produtos especializados em um nicho de mercado. Endeca
Information Access Platform
Entopia
K-Bus
InQuira, Inc
InQuira
64
Aspectos das Ferramentas de Busca Organizacional
ISYS Search Software, Inc Recommind Siderean Software Inc
ISYS 7 Suite Categorization and Search Seamark Navigator
InQuirion and SAIC
TeraText
Vivisimo Corp
Velocity
65