Peñarrubiapfc.pdf

  • Uploaded by: Miguel Cote
  • 0
  • 0
  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Peñarrubiapfc.pdf as PDF for free.

More details

  • Words: 40,079
  • Pages: 164
BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO EN TAREAS MONO Y TRANSLINGÜES

Para optar a la titulación de Ingeniería Informática Presentado por José Luis Peñarrubia Carrión Dirigido/tutorizado por Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México

Agradecimientos

Agradezco al profesor Paolo Rosso, la ayuda prestada en todo momento durante la supervisión del presente trabajo, al igual que a Manuel Montes, ya que a partir de sus investigaciones y posteriores explicaciones pudimos empezar a avanzar en la consecución de este trabajo final de carrera.

También quiero agradecer a José Manuel Gómez (Investigador del Departamento de Sistemas Informáticos y de Computación de la UPV) por ayudarme con el sistema de recuperación de pasajes JIRS.

INDICE DE CONTENIDOS Introducción........................................................................................................ 4 Capítulo 1.Sistemas de recuperación de información ........................................ 8 1.1 Introducción................................................................................................. 8 1.2 La recuperación de información .................................................................. 9 1.2.1 Evolución de los sistemas RI................................................................... 11 1.2.2 Modelos para la recuperación de información......................................... 11 1.3 La extracción de información..................................................................... 13 1.4 La búsqueda de respuestas ...................................................................... 13 1.5 Motores de búsqueda................................................................................. 14 1.5.1 Funcionamiento de un motor de búsqueda ............................................. 15 1.5.2 Arquitectura de un motor de búsqueda ................................................... 16 1.5.3 Los índices de los motores...................................................................... 17 1.5.4 Tipos de robots........................................................................................ 19 1.5.5 Funcionamiento de los robots ................................................................. 19 1.5.6 Indización de las páginas ........................................................................ 20 1.5.7 Alineado de los documentos (ranking) .................................................... 21 1.6 Evaluación de los sistemas de recuperación de información ..................... 22 1.7 Foros de experimentación .......................................................................... 24 Capítulo 2. Sistemas de búsqueda de respuestas ........................................... 29 2.1 Introducción................................................................................................ 29 2.2 Componentes principales de un sistema de BR......................................... 37 2.3 Situación actual .......................................................................................... 39 2.4 Clasificación de los sistemas de BR........................................................... 40 2.4.1 Sistemas que no utilizan técnicas de PLN............................................... 40 2.4.2 Sistemas que usan información léxico-sintáctica .................................... 41 2.4.3 Sistemas que usan información semántica. ............................................ 44 2.4.4 Sistemas que usan información contextual ............................................. 45 2.5 Conceptos generales ................................................................................. 46 2.5.1 Palabras de parada y palabras clave ...................................................... 47 2.5.2 Pesos de términos................................................................................... 47 2.5.3 Obtención de raíces (stemming) ............................................................. 48 2.5.4 Expansión de preguntas.......................................................................... 48 2.5.5 Realimentación........................................................................................ 49 Capitulo 3. BR monolingüe: El sistema INAOE ................................................ 51 3.1 Introducción................................................................................................ 51 3.2 Arquitectura del sistema BR INAOE basado en la Web ............................. 52 3.2.1 Reformulaciones ..................................................................................... 56 3.2.1.1 Reformulación: “Bolsa de palabras” ..................................................... 57 3.2.1.2 Reformulación: “Manipulación del verbo” ............................................. 58 3.2.1.3 Reformulación: “Componentes”............................................................ 60 3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra”........... 61 3.2.1.5 Reformulación: “Componentes excluyendo las dos primeras palabras” ...................................................................................................................... 62 3.2.2 Recolección de Snippets ......................................................................... 62

1

3.2.3 Cálculo de la respuesta ........................................................................... 64 3.2.3.1 Método de frecuencias relativas........................................................... 66 3.2.3.2 Método de expresiones regulares ........................................................ 67 3.2.3.3 Método de frecuencia compensada con expresiones regulares........... 68 3.3 Adaptación del sistema INAOE BR a otros idiomas .................................. 69 Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción ...................................................................................................................... 72 4.1 Introducción................................................................................................ 73 4.2 RI multilingüe.............................................................................................. 77 4.2.1 Aspectos monolingües ............................................................................ 79 4.2.1.1 Stemming ............................................................................................. 79 4.2.1.2 Segmentación de compuestos ............................................................. 80 4.2.1.3 Segmentación de palabras................................................................... 81 4.2.2 Enfoques basados en la traducción de la consulta ................................. 82 4.2.2.1 Diccionarios.......................................................................................... 83 4.2.2.2 Programas de traducción automática ................................................... 87 4.2.2.3 Tesauros .............................................................................................. 87 4.2.3 Otros enfoques: Traducción bidireccional ............................................... 89 4.3 Arquitectura del sistema INAOE multilingüe............................................... 90 4.4 Tareas translingües .................................................................................... 91 Capitulo 5. Experimentos Multilingües ............................................................. 94 5.1 Introducción................................................................................................ 94 5.2 Corpus del CLEF 2003 ............................................................................... 95 5.2.1 Tarea monolingüe Castellano-Castellano................................................ 96 5.2.1.1 Discusión sobre los resultados............................................................. 96 5.2.2 Tarea translingüe Castellano-Valenciano................................................ 97 5.2.2.1 Discusión sobre los resultados............................................................. 98 5.2.3 Tarea monolingüe Valenciano-Valenciano .............................................. 98 5.2.3.1 Discusión sobre los resultados............................................................. 99 5.2.4 Tarea translingüe Valenciano-Castellano.............................................. 100 5.2.4.1 Discusión sobre los resultados........................................................... 100 5.3 Clasificación de resultados atendiendo a la tipología de la pregunta ....... 101 5.4 El corpus del CLEF 2005.......................................................................... 103 5.4.1 Comparativa con los resultados obtenidos del sistema UPV en CLEF 2005............................................................................................................ 104 Capítulo 6. El componente de búsqueda de pasajes ..................................... 107 6.1 Introducción.............................................................................................. 107 6.2 El sistema de búsqueda de pasajes JIRS ................................................ 108 6.2.1 Definición de JIRS ................................................................................. 108 6.2.2 Arquitectura del sistema JIRS ............................................................... 110 6.3 El sistema de búsqueda de respuestas QUASAR.................................... 115 6.3.1 Introducción........................................................................................... 116 6.3.2 Arquitectura del sistema ........................................................................ 116 6.4 Casos de estudio con el idioma valenciano.............................................. 117 6.4.1 Discusión sobre los resultados.............................................................. 121 Capítulo 7. Conclusiones ............................................................................... 124

2

Bibliografía ..................................................................................................... 126 Anexo I. Artículo "Cross-language Question Answering: The Key Role of Translation"................................................................................................. 135 Anexo II. Artículo "Arabic-English Question Answering" ................................ 140 Anexo III Preguntas CLEF 2003..................................................................... 144 Anexo IV Preguntas CLEF 2005 .................................................................... 150

3

INDICE DE FIGURAS 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos .................................................................................................. 17 1.2 Ejemplo de la estructura de un fichero inverso.......................................... 18 2.1 Niveles de usuarios según complejidad de la pregunta ............................. 34 2.2 Módulos de ejecución de la BR a partir de documentos y pasajes relevantes ...................................................................................................................... 38 3.1 Módulos del Sstema de Búsqueda de Respuestas .................................... 55 3.2 Ejemplo de sninpets devueltos por el Google ............................................ 64 4.1 Esquema de un sistema de BR translingüe................................................ 91 6.1 Arquitectura JIRS ..................................................................................... 111 6.2 Arquitectura del sistema QUASAR........................................................... 117

INDICE DE TABLAS 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich....................................................................................................... 12 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. ................................................................................................ 12 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda. ..................................................................................................... 18 1.4 Resumen de las características de la indización y motores que las implementan ................................................................................................. 21 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. ......................................................................................... 23 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información ................................................................................................... 23 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información ................ 24 3.1 Algoritmo Reformulación Bolsa de palabras............................................... 58 3.2 Algoritmo Reformulación Movimiento del verbo ......................................... 59 3.3 Algoritmo Reformulación componentes...................................................... 60 3.4 Algoritmo extracción frecuencias relativas ................................................. 66 3.5 Algoritmo extracción expresiones regulares............................................... 67 3.6 Agoritmo de extracción frecuencia compensada con expresiones regulares ...................................................................................................................... 68 4.1 Evolución de la utilización de idiomas en Internet ...................................... 74 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004...... 75

5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF 2003 ...................................................................... 96 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF 2003 ...................................................................... 97 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF 2003 ...................................................................... 99 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF 2003 ........................................................................... 100 5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003........ 102 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF 2005............................................................................................................ 103 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta ......... 104 5.8 Comparación con los resultados de la UPV con la 1ª respuesta.............. 104 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005 ........ 105

Introducción Hoy en día, la Web se ha convertido en nuestro principal repositorio de información.

Toda

clase

de

formatos

(librerías

digitales,

periódicos,

presentaciones, foros, etc…) en más de 1500 idiomas distintos están disponibles en formato electrónico en la Web. Estos documentos quizás satisfagan las necesidades del usuario, o quizás no. Por lo tanto, son necesarias herramientas que ayuden al usuario a gestionar esta ingente cantidad de información que sin las herramientas adecuadas no es útil. En los sistemas de Recuperación de Información (RI) el usuario está interesado en encontrar los documentos más relevantes que se ajusten parcialmente a la consultan realizada. Por lo tanto, los sistemas de RI resuelven el problema asociado con la recuperación de documentos desde una colección en respuesta a una consulta de usuario, siendo

su objetivo buscar en una

colección (por ejemplo la Web) para devolver un subconjunto de documentos ordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda para la Web, por ejemplo Google1,Yahoo2 y MSN3. Recientemente, la combinación del crecimiento y la explosión de la demanda de mejor acceso a la información han motivado el interés en los sistemas de Búsqueda de Respuestas (BR) basados en Web.

El propósito de un sistema de búsqueda de respuestas es obtener respuestas precisas a preguntas realizadas por usuarios sin experiencia, permitiendo lanzar consultas en lenguaje natural y obteniendo una respuesta concisa. Por ejemplo, a la pregunta “¿Quién descubrió América?”, el sistema debe encontrar la respuesta “Colón”. Dada la dificultad de la tarea, los últimos desarrollos de sistemas de BR están enfocados principalmente a contestar preguntas sobre hechos, lugares

o

personas.

1

http://www.google.com http://www.yahoo.com 3 http://www.msn.com 2

4

En este Proyecto Final de Carrera, se pretenden realizar pruebas para la búsqueda de respuestas utilizando el motor de búsqueda Google como recurso de información. Se probarán las distintas adaptaciones resaltando el aspecto translingüe de las consultas. Como punto de partida nos basaremos en el trabajo realizado por el INAOE (Instituto Nacional de Astrofísica, Óptica y Electrónica), (Puebla, México)4.

Se proponen hacer pruebas en los idiomas valenciano, castellano

e

inglés (también hemos participado en unos experimentos translingües arabeinglés). Veremos como afecta la redundancia existente en la Web a la respuesta obtenida, y compararemos los resultados entre idiomas en función de su presencia en la Web. Se evaluarán la calidad de las respuestas obtenidas, y se compararán con los resultados obtenidos en el forum anual Cross Language Evaluation Forum (CLEF)5.

La estructura del documento queda de la siguiente manera:

El Capítulo 1 está dedicado a introducir conceptos básicos de los sistemas de recuperación de información, evolución, modelos para la recuperación de información y cómo evaluar la calidad de estos sistemas. Se presta especial atención a los motores de búsqueda como herramientas de recuperación de información.

El Capítulo 2 se centra en definir los sistemas de búsqueda de respuestas como una especialización de los sistemas de recuperación de información. Se detalla la clasificación de estos sistemas y algunos conceptos generales.

En el Capítulo 3 abordaremos de lleno la utilización de un sistema de búsqueda de respuestas, el implementado por el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de Puebla (México). 4 5

http://www.inaoep.mx http://www.clef-campaign.org

5

El Capítulo 4 presenta el problema de la traducción en la recuperación de información. Además se estudia la recuperación multilingüe mediante la traducción de la consulta y otros enfoques como por ejemplo el uso de la traducción bidireccional.

El Capítulo 5 está dedicado exclusivamente a la descripción de los experimentos realizados con los diferentes sistemas (considerando como distintos sistemas las adaptaciones del sistema original al idioma de búsqueda utilizado en cada caso) y el análisis de los resultados obtenidos, que se incluyen en el Anexo III. Estos experimentos se realizaron con las preguntas de prueba del CLEF 2003 y 2005.

El Capítulo 6 trata sobre la búsqueda de pasajes.

Se describe el

componente y se hace hincapié en la importancia de este módulo en la tarea de búsqueda de respuestas. Se presenta el sistema JIRS6 (Java Information Retrieval System), sistema de búsqueda de respuestas basado en la recuperación de pasajes. Además, se explican las características principales del sistema de búsqueda de respuestas Quasar (desarrollado en el laboratorio de Ingeniería del Lenguaje Natural de la UPV) que extrae la respuesta desde los pasajes devueltos por JIRS.

6

http://jirs.dsic.upv.es

6

7

Capítulo 1.Sistemas de recuperación de información

En este capítulo se define el contexto histórico de la recuperación de información, la recuperación de información en si, la evolución y las técnicas utilizadas.

1.1 Introducción Durante los últimos años

hemos asistido al enorme aumento de

información en formato digital disponible. Sumado a esto, también se han producido grandes avances en materia de redes de ordenadores y comunicaciones. Esto ha hecho que la información en formato digital que antes mencionábamos, esté disponible para un mayor número de usuarios. La cantidad de información disponible, principalmente de carácter textual, unido al creciente número de usuarios finales que disponen de acceso directo a dicha información a través de ordenadores personales, impulsó la investigación en sistemas de información que facilitasen la localización, acceso y descarga de toda esta enorme cantidad de datos. Generalmente, cuando un usuario emplea un ordenador para buscar una información determinada, lo que realmente está intentando es encontrar respuesta a sus necesidades de información. Para facilitar esta tarea, se necesitará disponer de sistemas que idealmente sean capaces de localizar la información, procesarla, integrarla y generar una respuesta acorde a los requerimientos expresados por el usuario en sus preguntas. Además, estos sistemas deberán ser capaces de comprender preguntas y documentos escritos en lenguaje natural en dominios no restringidos permitiendo

una cómoda interacción y adecuada a aquellos

usuarios inexpertos en el manejo de computadores. Sin embargo, y aunque las investigaciones avanzan en buena dirección, todavía no existe hoy ningún sistema operacional que cumpla por completo con todos estos requisitos.

8

De todas formas, ante la creciente necesidad de aplicaciones que facilitaran al menos en parte el acceso y tratamiento de toda esta información, la comunidad científica concentró sus esfuerzos en la resolución de problemas más especializados y por ello, más fácilmente abordables. Esta circunstancia propició el desarrollo de campos de investigación que afrontaron el problema desde diferentes

puntos de vista: la recuperación de información (RI), la

extracción de información (EI) y, posteriormente, la búsqueda de respuestas (BR). A continuación, destacaremos aquellos aspectos más relevantes de cada una de estas líneas de investigación.

1.2 La recuperación de información Los sistemas de RI realizan las tareas de seleccionar y recuperar aquellos documentos que son relevantes a necesidades de información arbitrarias formuladas por los usuarios. Como resultado, estos sistemas devuelven una lista de documentos que suele presentarse ordenada en función de valores que intentan reflejar en qué medida cada documento contiene información que responde a las necesidades expresadas por el usuario.

Los sistemas de RI más conocidos son aquellos que permiten con mayor o menor éxito localizar información a través de Internet. Como ejemplo algunos de los motores de búsqueda más utilizados actualmente como Google, o Yahoo.

Una de las características más importantes de estos sistemas reside en la necesidad de procesar grandes cantidades de texto en un tiempo muy corto (del orden de milisegundos para búsquedas en Internet). Esta limitación impone una severa restricción en cuanto a la complejidad de los modelos y técnicas de análisis y tratamiento de documentos que pueden emplearse. Dentro del ámbito de la RI podemos destacar la aparición de dos líneas de investigación orientadas a mejorar el rendimiento de estos sistemas: la

9

Recuperación de Pasajes (RP) y la aplicación de técnicas de Procesamiento del Lenguaje Natural (PLN) al proceso de RI. La RP nace como alternativa a los modelos clásicos de RI. Estos sistemas miden la relevancia de un documento con respecto a una pregunta en función de la relevancia de los fragmentos contiguos de texto (pasajes) que lo conforman. Esta aproximación facilita la detección, dentro de documentos grandes, de aquellos extractos que pueden ser muy relevantes para el usuario y que, debido a estar inmersos en un documento mayor, pueden pasar desapercibidos cuando el sistema considera el documento completo como una unidad de información. Como demuestran diversos estudios, aunque estos sistemas resultan computacionalmente más costosos que los de RI, las mejoras de rendimiento alcanzadas justifican, en la mayoría de los casos, la adopción de este tipo de aproximaciones.

En el Capítulo 6 se analiza el sistema de recuperación de pasajes JIRS, desarrollado en la Universidad Politécnica de Valencia. A partir de este sistema, realizaremos búsquedas sobre documentos en idioma valenciano.

En cuanto a la aplicación de técnicas de PLN, la comunidad científica consideró a priori que su utilización reportará considerables beneficios a la tarea de RI. Muchos y diversos intentos llevaron a cabo utilizando diversas técnicas y herramientas. Sin embargo, el esfuerzo empleado no fue suficiente para obtener mejoras de rendimiento sustanciales. Uno de los principales foros de investigación en sistemas de RI lo constituye la serie anual de conferencias Text REtrieval Conference (TREC)7. En estas conferencias se diseñan una serie de tareas con la finalidad de evaluar y comparar el rendimiento de los diferentes sistemas de RI. A través de las actas de estas conferencias se puede observar con detalle la evolución de las investigaciones desarrolladas en este campo.

7

http://trec.nist.gov

10

1.2.1 Evolución de los sistemas RI En la evolución de los sistemas de RI se encuentran tres fases fundamentales [Baeza,1999]: 1. Desarrollos iniciales. El autor refleja que ya existían métodos de recuperación de información con las antiguas colecciones de papiros. Otro ejemplo típico sería la tabla de contenidos de un libro, sustituida por otras estructuras algo más complejas a medida que ha crecido el volumen de información a gestionar. 2. Recuperación de información en las bibliotecas. Estas instituciones fueron de las primeras en adoptar estos sistemas. Originalmente desarrollados por las propias bibliotecas y posteriormente se ha creado un mercado de aplicaciones informáticas altamente especializadas en este sector 3. La World Wide Web. La evolución lógica de los sistemas de RI ha ido encaminándose hacia recursos de la Web, donde han encontrado gran aplicación práctica y un aumento del número de usuarios, especialmente en el campo de los directorios y motores de búsqueda.

1.2.2 Modelos para la recuperación de información El diseño de un sistema de RI se realiza bajo un modelo, donde ha de quedar definido “como se obtienen las representaciones de los documentos y de la consulta, la estrategia para evaluar la relevancia de un documento respecto a una consulta, los métodos para establecer la importancia de los documentos de salida y los mecanismos que permiten una realimentación por parte del usuario para mejorar la consulta” [Villena, 1999]. Existen varia propuestas de clasificación de los modelos de recuperación, una de las más completas la realiza Dominich, quien establece cinco grupos, tal y como se describen en la siguiente tabla [Dominich, 2000]:

11

Modelo Modelos clásicos Modelos alternativos

Descripción Incluye los tres más comúnmente citados: booleano, espacio vectorial y probabilística. Basados en la lógica difusa.

Modelos lógicos

Basados en la lógica formal. La recuperación de información se entiende como un proceso inferencial a través del cual se puede estimar la probabilidad de que una necesidad de información de un usuario, expresada como una o más consultas, sea satisfecha ofreciendo un documento como “prueba” [VIL, 1997].

Modelos basados en la interactividad

Incluyen posibilidades de expansión del alcance de la búsqueda y hacen uso de retroalimentación por la relevancia de los documentos recuperados [SAL, 1989]. Bases de conocimiento, redes neuronales, algoritmos genéticos y procesamiento del lenguaje natural.

Modelos basados en la inteligencia artificial

Tabla 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. “A unified mathematical definition of classical information retrieval”. Journal of the American Society for Information Science, 51[7],2000. p.614-624.

Baeza-Yates [Baeza,1999] nos proporciona otra clasificación de estos modelos de recuperación de información, realizada en función de la modalidad de consulta y de la vista lógica de los documentos:

Modalidad

Vista lógica de documentos

Recuperación

Navegación

Términos índice

Texto completo

Texto completo + estructura

Clásicos Conjuntos teóricos Algebraicos Probabilísticos

Clásicos Conjuntos teóricos Algebraicos Probabilísticos

Estructurados

Estructura plana

Estructura plana Hipertexto

Estructura guiada Hipertexto

Tabla 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. and Ribeiro-Neto, B. “Modern information retrieval. New Cork: ACM Press. 1999 XX. p.513.

12

1.3 La extracción de información Los sistemas de EI realizan la tarea de buscar información muy concreta en colecciones de documentos. Su finalidad consiste en detectar, extraer y presentar dicha información en un formato que sea susceptible de ser tratado posteriormente de forma automática. Estos sistemas se diseñan e implementan específicamente para la realización de una tarea determinada, por lo tanto, se dispondrá de un sistema diferente en función del tipo de información a extraer en cada caso particular. Un ejemplo podría ser un sistema orientado a la extracción del nombre, DNI y las direcciones de las personas contratantes que aparecen en documentos notariales. Este sistema operaría de forma que cada vez que apareciese uno de estos datos, lo extraerá y lo incorporará en el campo correspondiente de una base de datos creada a tal efecto. Como puede deducirse, estos sistemas necesitan aplicar técnicas complejas de PLN debido la gran precisión que se requiere en los procesos de detección y extracción del tipo de información que les es relevante. La investigación en este campo ha sido muy intensa. En particular, la serie de conferencias Message Understanding Conference (MUC) han constituido uno de sus principales foros de promoción. Estas conferencias han permitido la evaluación y comparación de diversos sistemas, realizando la misma función que las conferencias TREC para la recuperación de información.

1.4 La búsqueda de respuestas La investigación en sistemas de RI y EI facilitó el tratamiento de grandes cantidades de información, sin embargo, las características que definieron estas líneas de investigación presentaban serios inconvenientes a la hora de facilitar la obtención de respuestas concretas a preguntas muy precisas formuladas de forma arbitraria por los usuarios. Por una parte, los sistemas de RI se vieron incapaces por si solos de afrontar tareas de este tipo. De hecho, una vez que el usuario recibirá la lista de

13

documentos relevantes a su pregunta, todavía le quedaba pendiente una ardua tarea. Necesitaba revisar cada uno de estos documentos para comprobar en primer lugar, si esos documentos estaban realmente relacionados con la información solicitada y en segundo lugar, debía leer cada uno de estos documentos para localizar en su interior la información puntual deseada. Por otra parte, y aunque los sistemas de EI eran mucho más precisos en la tarea de encontrar información concreta en documentos, estos sistemas no permitían el tratamiento de preguntas arbitrarias sino que el tipo de información requerida necesitaba ser definida de forma previa a la implementación del sistema. Todos estos inconvenientes y principalmente, un creciente interés en sistemas que afrontarán con éxito la tarea de localizar respuestas concretas en grandes volúmenes de información, dejaron la puerta abierta a la aparición de un nuevo campo de investigación conocido como Búsqueda de Respuestas (BR) o Question Answering (QA). En el Capítulo 2 profundizaremos en los sistemas de BR. En el Capítulo 3 se presenta un sistema de BR implementado, el cual modificaremos y pondremos en funcionamiento para determinados casos de estudio.

1.5 Motores de búsqueda Los motores de búsqueda son sistemas de evolución paralela al crecimiento de la web y al aumento de usuarios. Constituyen uno de los desarrollos más consolidados de las técnicas de indización automática y, al mismo tiempo,

son los sistemas más sensibles a una amplia serie de

situaciones peculiares que se pueden presentar en la red: “spamming”, inaccesibilidad de páginas, etc… Independientemente de su método de rastreo y de los posteriores criterios y algoritmos empleados para el alineamiento de los documentos, todos los motores de búsqueda parten de una situación inicial parecida: una lista de direcciones que sirve de punto de partida para el robot (o los robots). Esta similitud de condiciones iniciales propicia, una posterior comparación del

14

resultado final, es decir, de la porción de web indexada y de la calidad de esta indexación. Existe cierto ocultismo en cuanto a los métodos seguidos por cada motor en la realización de sus tareas. De cualquier manera, mediante la comparación del resultado obtenido se podrá apreciar cuál de esos sistemas es de uso más recomendable. Se asume que su calidad de un motor de búsqueda depende de lo completa, representativa y actualizada que sea la colección. En cambio, en un directorio, la misma reside en la capacidad de los gestores en la realización de las descripciones y en el número de esos gestores, ambos motivos más relacionados

con

capacidades

presupuestarias

que

con

prestaciones

tecnológicas,

Los motores representan un claro ejemplo de la aplicación de las técnicas de recuperación de información a la resolución de un reto, tan ambiguo como moderno, en el campo de la información y la documentación: disponer en un índice de las referencias a la mayor cantidad de documentos existentes.

1.5.1 Funcionamiento de un motor de búsqueda El funcionamiento de un motor debe estudiarse desde dos perspectivas complementarias: la recopilación y la recuperación de información. Un motor compila de forma automática las direcciones de las páginas que van a formar parte de su índice tras realizar sobre su contenido un proceso de indización. Una vez se encuentren estos registros debidamente depositados en la base de datos del motor, los usuarios buscarán en su índice por medio de un una interfaz de consulta, que puede ser más o menos avanzada en función del grado de desarrollo del sistema. Al módulo encargado de la recopilación de las páginas se le conoce comúnmente como robot (“es un programa que rastrea la estructura hipertexto de la web, recogiendo información sobre las páginas que encuentra. Esa información se indexa y se introduce en una base de datos que

15

será

explorada

posteriormente

utilizando

un

motor

de

búsqueda

[Delgado,2001]”) Estos robots pueden recopilar varios millones de páginas por día, y actualizar la información recogida en los índices en periodos de tiempo extremadamente pequeños. Por regla general, se parte de una lista inicial de direcciones de sitios web, que son visitados por el robot, y a partir de ahí cada robot rastrea a su manera la web, de ahí que la información almacenada en cada base de datos de cada motor sea distinta. Baeza-Yates distingue en un robot las funciones de análisis y rastreo (“crawling”) de las de indización o indexación (“indexing”), con lo cual él habla de dos módulos independientes, el “crawler” o robot y el indexador [Baeza,1999].

1.5.2 Arquitectura de un motor de búsqueda La mayoría de los motores de búsqueda emplean una arquitectura de tipo robot-indexador centralizada, que se muestra en la Figura 1.1. A pesar de lo que puede inducir su nombre y de una amplia serie de definiciones incorrectas, el robot no se mueve por la red, ni se ejecuta sobre las máquinas que visita, ya que realmente el robot funciona sobre el sistema local del motor de búsqueda y envía un serie de peticiones a los servidores web remotos (donde se alojan las páginas). El índice también se gestiona localmente. Esta arquitectura clásica es la que implementa, entre otros, el motor Altavista8.

8

www.altavista.es

16

Figura 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos. Fuente:Baeza-Yates,R. and Ribeiro-Nieto,B. Modern Information retrieval. New Cork:ACM Press:Harlow[etc,]:Addisson-Wesley,1999 XX,513p.

Este modelo presenta algunos problemas para gestionar adecuadamente en el entorno local la ingente cantidad de datos: ! La actualización de los índices es complicada y lenta. ! No sigue el ritmo de crecimiento de la web, indexando nuevos documentos en un nivel menor. ! El trasiego de páginas por la red consume un gran ancho de banda y produce una sobrecarga de tráfico [Delgado, 2001]. ! Suelen ignorarse los contenidos dinámicos de la red, creación de páginas de consulta, ficheros en otros formatos, etc.

1.5.3 Los índices de los motores El índice “es el corazón de un motor de búsqueda” [Chang, 2001]. Generalmente consiste en una lista de palabras con valor de discriminación asociadas a sus correspondientes documentos, que en este caso son las descripciones

de los URL recopiladas. La mayor parte de los motores de

búsqueda emplean como estructura de datos un fichero inverso [Chang, 2001; Delgado,2001] basado en una idea general que se muestra en la ilustración siguiente:

17

Document 1 2 3

Text Pice porrigde hot, pice porridge cold Pice porridge in the past Nine days old

Number 1 2 3 4

Term cold days hot in

Text 1,4 3,5 1,4 2,5

(b)File for text of (a)

4

Some like it, some like it cold Some like it in the past Nine days old

5 6

(a) Example text;each line in one document Figura 1.2 Ejemplo de la estructura de un fichero inverso (tabla de la derecha). Fuente:Rijsbergen, C.J. Information Retrieval

En la práctica el fichero inverso se convierte en una estructura de datos con serios problemas de gestión. Los distintos motores de búsqueda se sirven de distintos esquemas para definir estas estructuras de datos. El índice emplea un conjunto de punteros que apuntan a una tabla donde se recogen todas las URL en las que aparece una palabra clave. La manera en la que se ordenan estos punteros depende de un mecanismo interno de ordenación basado, generalmente, en criterios de frecuencias o pesos en el documento. El enorme tamaño de la colección de URL recopiladas por los motores obliga a buscar formas de simplificar al máximo el tamaño de estos índices. La siguiente tabla muestra algunos métodos para la reducción del tamaño de los índices: Conversión de texto o minúsculas Stemming

Supresión de las palabras vacías Comprensión de textos

Se convierten todas las palabras a caracteres en minúscula, reduciendo así el número de entradas para un mismo término. Aislamiento de la base de la palabra(por ejemplo, compresión y comprensivo e reducirán a “compren”), reduciendo así el número de entradas en el índice Se suprimen del índice todas aquellas palabras por las que no tiene sentido recuperar información (artículos, preposiciones, adjetivos o interjecciones, por ejemplo) Técnicas de compactación del tamaño del fichero.

Tabla 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda.

18

1.5.4 Tipos de robots Junto a los robots de carácter general, existen otras modalidades de estos sistemas [Delgado ,2001]: ! “Knowbots: Programados para localizar referencias hipertexto dirigidas hacia un documento, servidor, etc., en particular. Permiten evaluar el impacto de las distintas aportaciones que aportan las distintas áreas de conocimiento presentes en la red. ! Wanderes (vagabundos): Encargados de realizar estadísticas, como por ejemplo de crecimiento de la red, número de servidores conectados, etc. ! Worms(gusanos): Encargados de la duplicación

de directorios FTP,

para incrementar su utilidad a un número mayor de usuarios. ! WebAnts(hormigas): Conjunto de robots físicamente alejados que cooperan para la consecución de distintos objetivos, como por ejemplo para llevar a cabo una indización distribuida.

1.5.5 Funcionamiento de los robots Se ha comentado anteriormente que el robot inicia el rastreo a partir de un conjunto de URL muy populares o enviadas por los administradores de sitios web, y se siguen los enlaces de esa relación inicial de paginas evitando repeticiones. El recorrido puede ser de dos modos: ! Breadth-first (cobertura amplia pero no profunda) ! Depth-first (cobertura vertical profunda) [Baeza, 1999]

La extensión de la web genera problemas par la actualización de la índices de los motores, ya que entre dos análisis transcurre un cierto periodo de tiempo, que varía según el motor. Baeza-Yates estima que entorno al 9% de los

19

enlaces almacenados son inválidos. Este criterio será uno de los más significativos para evaluar la calidad de un motor de búsqueda frente a otro.

1.5.6 Indización de las páginas A medida que los robots recopilan páginas, la información de estas debe ser indexada. Existen dos estrategias para realizar este proceso: usar información que provee el creador del documento o extraerla directamente del mismo. En la práctica los principales motores emplean ambas estrategias para disponer de una completa descripción del contenido de la página analizada. Algunos de los criterios utilizados para esta descripción pueden ser: el título del documento, el número de veces que se repite una palabra en el documento,.. Cada motor utiliza sus propios algoritmos y criterios. Un ejemplo representativo del comportamiento de un motor clásico a la hora de indexar las páginas web es el motor Altavista: ! Da prioridad alta a las palabras del título y a las palabras que están localizadas en el comienzo de la página. ! Asigna mayor peso a una palabra en un documento según su frecuencia absoluta. ! El mejor tamaño para una página está entre 4 y 8k. Considera las páginas largas como valiosas en contenido, cuando no están afectadas de “spamming”. ! Indexa las palabras claves y la descripción de los metadatos. Si no se tienen metadato, indexa las primeras 30 ó 40 palabras dela página y las toma como descripción. ! Confiere una mayor prioridad a palabras ubicadas en los metadatos o a las palabras con las cuales se registran las páginas, pero no son tan relevantes como el título y el contenido. ! Es sensible a las palabras claves mayúsculas y minúsculas. ! Puede indexar un sitio que contiene marcos. Pero se debe asegurar que todas las páginas enlacen a la página principal.

20

La siguiente tabla resume algunas de las principales características de la indización y los motores que las implementan.

Características de la indización Texto completo

NO

SI Todos

Supresión palabras vacías

FAST, Light

Meta Descripción

Google, Northen El resto Light

Meta palabras clave

Excite, FAST,Google, Northen Ligh Excite, FAST, Northen Light

Texto alternativo

Northen Altavista,Excite,Goog le

El resto

Altavista, Google

Tabla 1.4 Resumen de las características de la indización y motores que las implementan

1.5.7 Alineado de los documentos (ranking) El alineado, es uno de los procesos críticos a la hora de valorar la efectividad de un motor de búsqueda, ya que se trata del orden en el que el motor presenta los resultados a los usuarios, y como es de suponer el usuario espera encontrar los documentos más relevantes con respecto a sus necesidades en las primeras posiciones de la lista devuelta. El motor debe ordenar el conjunto de documentos en función de la relevancia de estos documentos con el tema de la pregunta realizada. Cuanto mejor sea el alineamiento de los documentos, menor será el tiempo de búsqueda empleado por el usuario en examinar el conjunto de documentos devuelto. Esta será otra característica de gran importancia para valorar la calidad del buscador.

21

1.6

Evaluación de los sistemas de recuperación de información Según Baeza-Yates “un sistema de RI puede ser evaluado por diversos

criterios, incluyendo entre los mismos: la eficacia en la ejecución, el efectivo almacenamiento de los datos, la efectividad en la recuperación de la información y la serie de características que ofrece el sistema al usuario” [Baeza, 1999]. Estos criterios no deben confundirse, la eficacia en la ejecución es la medida del tiempo que se toma un sistema de RI para realizar una operación. Este parámetro ha sido siempre la preocupación principal del gestor de un sistema de RI, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema. La eficiencia del almacenamiento es medida por el espacio que se precisa para almacenar los datos. Una medida común de medir esta eficiencia es cuantificar el ratio del tamaño del fichero índice junto con el tamaño de los documentos. Aquí debemos subrayar la importancia de la efectividad de la recuperación, en cuanto a la relevancia de los documentos recuperados.

Según algunos autores existen dos tipos de evaluaciones a efectuar, el tiempo de respuesta y el espacio requerido. Baeza-Yates afirma “cuando se analiza el tiempo de respuesta y el espacio requerido para la gestión se estudia el rendimiento de las estructuras de datos empleadas en la indexación de los documentos, la interacción con el sistema, los retrasos de las redes de comunicaciones y cualquier otro retardo adicionalmente introducido por el software del sistema. Esta evaluación podría

denominarse evaluación del

funcionamiento del sistema “[Baeza,1999]. En un sistema de RI, los documentos recuperados no van a ser respuestas exactas a esta petición. Los documentos recuperados se clasifican de acuerdo a su relevancia con la pregunta. Los sistemas de RI requieren evaluar cómo de relacionado está el documento recuperado con la query o pregunta pasada al sistema. A esta evaluación se la conoce como evaluación del funcionamiento de la recuperación [Baeza,1999].

22

Medidas tradicionalmente empleadas Dentro de las medidas empleadas, hay unas orientadas a analizar el aspecto físico de los datos y otras que intentan analizar si el contenido es pertinente o no. Meadow sintetiza las medidas empleadas en tres grupos: medidas basadas en la relevancia, medidas del proceso y medidas del resultado [Meadow, 1992]. A continuación se presentan las medidas empleadas y en que tipo de evaluación se basan. Precisión Exhaustividad Promedio de la efectividad E-P

MEDIDAS BASADAS EN LA RELEVANCIA Documentos relevantes recuperados divididos entre el total de documentos recuperados Documentos relevantes recuperados dividido entre el total de documentos relevantes Promedios de la efectividad en pares de valores de exhaustividad y precisión

Tabla 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. Text information retrieval systems. San Diego: Academic Press.1993.

Selección

Contenido

MEDIDAS BASADAS EN EL PROCESO Mide cuántos documentos hay en la base de datos, el grado de solapamiento con otros relacionados que se espera de la base de datos antes de las búsquedas Tipo de documentos de la base de datos, temática de los documentos, frecuencia de actualización

Traducción de una Se verifica si el usuario puede plantear la consulta directamente o consulta precisa de intermediación Errores en Media de errores sintácticos en la escritura de la búsqueda que establecimiento de la propician la recuperación de conjuntos vacíos y erróneos consulta Tiempo medio de Tiempo medio de realización de una estrategia de búsqueda realización de la búsqueda Dificultad en la A la ratio anterior habrá que añadir los problemas que usuarios realización de la inexpertos se pueden encontrar búsqueda Número de comandos Promedio de instrucciones necesarias para realizar una búsqueda precisos para una búsqueda Coste de1.6la búsqueda Costes directos e indirectos en su realización Nº Docs recuperados Extensión del resultado de una búsqueda Nº de Docs revisados Promedio de los documentos que los usuarios están dispuestos a por el usuario revisar Tabla 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems, San Diego: Academic Press.1993.

23

Precisión

MEDIDAS DE RESULTADO --ya definida anteriormente--

Exhaustividad

--ya definida anteriormente--

Promedio efectividad E-P

--ya definida anteriormente--

Medidas1.7 promedio de la satisfacción del usuario

Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda

Tabla 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems. San Diego: Academic Press, 1993.

De cualquier manera, las medidas más comúnmente empleadas son la precisión y la exhaustividad.

1.7

Foros de experimentación

CLEF Cada año, el Cross-Language Evaluation Forum organiza una serie de pruebas de evaluación que prueban distintos aspectos de los sistemas de recuperación de información. Desde el principio, la intención ha sido experimentar con toda clase de lenguajes y acceso a información, para el desarrollo de sistemas monolingües de recuperación de información para muchos lenguajes y de sistemas multilingües de acceso a información. En la página oficial del CLEF9, el apartado descripciones de los experimentos

Working Notes contiene

llevados a cabo dentro del CLEF. Los

resultados de cada CLEF son presentados y discutidos en los Wokshops programados en cada campaña. Al final, se publican los resultados obtenidos después de la puesta en común con los grupos que se han presentado a la campaña anual del CLEF.

9

http://www.clef-campaign.org

24



Recuperación de documentos textual mono-, bi- y multilingüe sobre nuevas colecciones (Ad Hoc)



Información mono- y cross-language sobre datos en lenguaje científico (Domain-Specific)



Interactivo cross-language retrieval (iCLEF)



Multiples lenguajes de question answering (QA@CLEF)



Recuperación

cross-language

en

colecciones

de

imagenes

(ImageCLEF) •

Recuperación de documentos hablados cross-language (CL-SR)



Recuperación multilingüe documentos Web (WebCLEF)



Recuperación geográfica cross-language (GeoCLEF)

TREC La Conferencia de REcuperación de Texto, co-patrocinado por el Instituto Nacional de Normas y la Tecnología (NIST) y el Departamento de defensa estadounidense, comienza su andadura en 1992. Su objetivo es apoyar la investigación en la comunidad de recuperación de documentos proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de texto. Sus objetivos son: •

Fomentar la investigación en recuperación de documentos basada en grandes colecciones.



Aumentar la comunicación entre industria, academia, y gobierno creando un foro abierto para el intercambio de ideas de investigación.



Dinamizar la transferencia de tecnología de laboratorios de investigación en productos comerciales demostrando mejoras sustanciales de metodologías de recuperación.



Aumentar la disponibilidad de técnicas de evaluación apropiadas para empleo por parte de la industria y academia, incluyendo desarrollo de técnicas de evaluación nuevas aplicables a sistemas corrientes.

Estas conferencias han aportado la evaluación de variadas modalidades de recuperación de información (desde el clásico modelo booleano a la búsqueda

25

por cadenas de texto o las búsquedas basadas en diccionarios), y han demostrado hasta qué punto pueden alcanzarse resultados significativos de investigación a través de la cooperación entre investigadores en el ámbito mundial. De hecho, en palabras de Sparck Jones, “la comunidad investigadora debe estar muy agradecida a las conferencias TREC, en tanto que han revitalizado la investigación en recuperación de información y también ha demostrado la importancia de este campo de investigación en áreas afines, tales como el procesamiento del lenguaje natural y la inteligencia artificial [Chowdhury, 1999].

Pistas o talleres TREC Un taller TREC consiste en un juego que rastrea áreas de interés para las que se definen tareas de recuperación. Las pistas sirven a varios objetivos. Primero, rastrea áreas de investigación nuevas: la primera fase de una pista a menudo define lo que el problema realmente es, y una pista crea la infraestructura

necesaria

(colecciones

de

prueba,

la

metodología

de

evaluación, etc.) para apoyar la investigación. Las pistas también demuestran la robustez de tecnología de recuperación principal. Las mismas técnicas son con frecuencia apropiadas para una variedad de tareas. Finalmente, las pistas hacen TREC atractivo a una amplia comunidad investigadora proporcionando tareas que emparejan los intereses de investigación de varios grupos. Para cada pista se implementa una lista de direcciones. El objetivo inicial de esta lista de direcciones es hablar de los detalles de las tareas a realizar en la pista TREC. Sin embargo, una pista de la lista de direcciones también sirve como foro para tratar cuestiones generales metodológicas relacionadas con las tareas de recuperación de la pista. Más allá, algunas pistas enlazan con páginas web específicas que proporcionan la historia y el material de estudio relativo al tema central. Así, estas listas de páginas enlazan a su vez con la información que el TREC rastrea, si realmente la pista es programada para ser controlada en la corriente TREC. El juego de las pistas que serán controladas en un año dado por TREC, es determinado por el comité de programa TREC. Las pistas, o temas de estudio, TREC del año 2005 han sido las siguientes:

26

1. Pista de la empresa 2. Pista sobre el genoma 3. Recuperación de exactitud alta de documentos 4. Pista de recuperación robusta 5. Pista de SPAM 6. Pista terabyte Las pistas sobre las que se trabaja actualmente son: 1. Pista sobre recuperación en varias lenguas 2. Pista sobre la necesidad estable de información de un usuario 3. Pista sobre interacción de usuario con sistemas de recuperación de texto 4. Pista de vídeo 5. Pista de web

27

28

Capítulo 2. Sistemas de búsqueda de respuestas

El objetivo de los sistemas tradicionales de recuperación de información ha sido devolver una lista ordenada de documentos en función de su relevancia con la pregunta efectuada. Desde aquí, era tarea del usuario abrir los documentos devueltos y buscar en ellos la respuesta. Como principal medio de búsqueda de información, hoy en día se utiliza Internet. Dado el crecimiento en cuanto a número de páginas (documentos), sería muy útil un sistema capaz de resolver de forma más precisa nuestras necesidades de información. Este problema es esencialmente lo que intentan resolver los sistemas de BR. La finalidad de los sistemas de BR es devolver la respuesta en si, sin necesidad por parte del usuario de perder el tiempo en examinar los documentos devueltos por el sistema de recuperación de información tradicional.

El contenido del presente capítulo ha sido extraído principalmente de la publicación “Recuperación de Información de Alta Precisión: Los Sistemas de Búsqueda de Repuestas” de José Luis Vicedo González [Vicedo, 2002].

2.1 Introducción Podemos definir la BR como la tarea automática realizada por ordenadores que tiene como finalidad la de encontrar respuestas concretas a necesidades precisas de información formuladas por usuarios eventuales. La principal utilidad de los sistemas de BR en aquellos casos en los que el usuario final desea conocer alguna información muy concreta y se necesita conocer inmediatamente. A modo de ejemplo, algunas aplicaciones prácticas podrían ser las siguientes: •

Sistemas de ayuda en línea de software.



Sistemas de consulta de procedimientos y datos en grandes organizaciones.

29



Interfaces de consulta de manuales técnicos.



Sistemas búsqueda de respuestas generales de acceso público sobre Internet.



etc.

La primera discusión acerca de las características de un sistema de BR y la primera aproximación a un sistema funcional (QUALM) fueron introducidos por Wendy Lehnert a finales de los 70 [Lehnert, 1977, 1980]. En estos trabajos se definieron las características ideales de un sistema de BR. Estos sistemas deberían entender la pregunta del usuario, buscar la respuesta en una base de datos de conocimiento y posteriormente componer la respuesta para presentarla al usuario. En consecuencia, estos sistemas deberán integrar técnicas relacionadas con el Entendimiento del Lenguaje Natural, la Búsqueda de Conocimiento (incluyendo posiblemente técnicas de inferencia) y la Generación de Lenguaje Natural. La investigación en sistemas de BR tuvo sus inicios en la comunidad científica relacionada

con

la

inteligencia

artificial.

Desde

esta

perspectiva,

la

investigación desarrollada consideró requisito indispensable que los sistemas de BR tendrán que satisfacer todas y cada una de las características ideales anteriormente citadas. Sin embargo, hasta la fecha únicamente se han podido obtener algunos resultados a costa de restringir mucho los dominios sobre los que se realizan las consultas. Recientemente, la investigación en sistemas de BR también se ha afrontado desde el punto de vista de la comunidad especializada en sistemas de RI. Sin embargo, desde esta perspectiva, el poder desarrollar la tarea sobre dominios no restringidos constituye el requisito básico e innegociable a cumplir. Partiendo de este requerimiento inicial, las investigaciones se han orientado hacia el desarrollo de sistemas que van incorporando progresivamente herramientas más complejas que permiten la evolución de estos sistemas hacia la consecución de las características ideales propuestas por Lehner. Teniendo en cuenta estas orientaciones, se puede realizar una primera clasificación de los sistemas de BR en dos tipos: sistemas de BR en dominios restringidos y sistemas de BR en dominios no restringidos.

30

Dominios restringidos El interés en sistemas de BR no es nuevo desde la perspectiva de la IA. Sin embargo, hasta hace unos años la investigación se centró en el desarrollo de sistemas que respondieran a preguntas realizadas sobre una base de conocimiento estructurado. En este trabajo se investigó principalmente la aplicación de herramientas de PLN en combinación con técnicas de IA tales como demostración de teoremas para la extracción de respuestas de la base de conocimientos. El trabajo de Levine muestra con detalle este tipo de aproximaciones [Levine y Fedder, 1989]. Recientemente, las investigaciones han derivado hacia el tratamiento de bases de conocimiento no estructuradas, si bien, sólo se han obtenido resultados más o menos satisfactorios en el caso particular del tratamiento de documentos de dominios muy restringidos.

Dominios no restringidos La investigación en sistemas de BR en dominios no restringidos vive actualmente momentos de gran auge. Gran parte del interés en estos sistemas ha sido propiciado por la inclusión de una tarea específica para la evaluación de sistemas de BR dentro de la serie de conferencias TREC patrocinadas por NIST10, DARPA11 y ARDA12. Estas conferencias han dado un gran empuje a esta línea de investigación no sólo como plataforma de evaluación, comparación y difusión de los sistemas existentes (las actas y resultados de las evaluaciones son públicas) sino, principalmente, por su apuesta decidida en relación al fomento de la introducción de mejoras en los sistemas a través de la continua introducción de nuevos retos a afrontar. Por ello, en sólo tres años, estas conferencias se han convertido en el principal foro de discusión y promoción de los sistemas de BR en todo el mundo y prueba de ello reside en el crecimiento continuo del número de participantes convocatoria tras convocatoria.

10

National Institute of Standars and Technology Technology Office of the Defense Advanced Research Projects Agency 12 Advanced Research and Development Activity 11

31

Las conferencias TREC y los sistemas de BR En 1999, en el seno de la conferencia (TREC, 1999), se presentó la primera convocatoria de esta serie: “The first Question Answering track". Esta convocatoria nació con el propósito de fomentar la investigación, evaluación y comparación de las posibles aproximaciones existentes orientadas a la construcción de sistemas automáticos que pudiesen proporcionar respuestas a preguntas concretas a partir de una gran colección de documentos no estructurados. En esta primera convocatoria, se evaluó el rendimiento de los sistemas participantes sobre 200 preguntas de test elaboradas por la organización con la seguridad de que la respuesta se encontraba en algún documento de la colección. Para cada pregunta, los sistemas deberían devolver una lista ordenada con un máximo de 5 respuestas posibles. Cada respuesta consistiría en un fragmento de texto extraído de la base documental en el que debería aparecer la respuesta a la pregunta. Se diseñaron dos categorías en función del tamaño máximo permitido del fragmento de texto respuesta (250 y 50 caracteres). Una descripción detallada de la tarea propuesta y del proceso de evaluación puede encontrarse en [Voorhees, 1999] y [Voorhees y Tice, 1999]. Con la finalidad de fomentar la investigación en este campo y potenciar la mejora de los sistemas existentes, en las siguientes convocatorias (TREC9, 2000)

y

(TREC10,

2001)

se

introdujeron

progresivamente

nuevos

requerimientos basados, sobre todo, en el incremento del tamaño de la base documental y en la cantidad y complejidad de las preguntas de test realizadas. En particular, el congreso TREC9 fue especialmente fructífero puesto que abordó el análisis del problema de la BR desde una perspectiva a largo plazo. Se definieron los objetivos a conseguir en el futuro y además, se diseñó un plan a cinco años que permitió orientar las investigaciones futuras hacia la consecución de dichos objetivos. La descripción de las tareas a realizar propuestas en la convocatoria TREC10 reflejaron ya las primeras consecuencias de dicho plan. En primer lugar, el tamaño máximo de texto permitido como respuesta se limitó a 50 caracteres exclusivamente. En segundo lugar, no se garantizó la existencia de respuesta a las preguntas en la base de datos documental, fomentando así la investigación

32

en herramientas que permitiesen validar la existencia o no de una respuesta correcta en la base de datos. Además, se incrementó la complejidad de las preguntas de test. Se incluyeron preguntas en las que se especificaba un número de instancias a recuperar como respuesta y también se propusieron series de preguntas formuladas sobre un mismo contexto. Estas series estaban formadas por preguntas relacionadas entre sí de forma que la interpretación de cada pregunta dependiera tanto del significado de las preguntas realizadas previamente como de sus respectivas contestaciones.

En cuanto al tipo de usuarios de estos sistemas, podemos encontrar un amplio espectro de usuarios que requieren diferentes capacidades del sistema para satisfacer sus necesidades de información. Estas necesidades pueden variar entre las solicitadas por un usuario casual, que interroga al sistema para la obtención de datos puntuales, y las que puede necesitar un analista profesional. Estos tipos representan los extremos de esa amplio espectro de usuarios potenciales de un sistema de BR. De acuerdo a “The Q&A Roadmap Committee” [Burguer et al., 2003] podemos clasificar los diferentes usuarios de un sistema de BR en cuatro tipos generales en función de la complejidad de sus requerimientos.

1. El usuario casual. Este tipo de usuario necesita información precisa acerca de hechos concretos. (Realiza preguntas cuya respuesta puede encontrarse en un documento expresada, generalmente, de forma simple). Este usuario realizaría preguntas de este estilo: “¿Dónde está Gandía?" ,“¿En qué año nació el expresidente Aznar?" o “¿Cuántos habitantes tiene Castellón?". La Figura 2.1 muestra gráficamente la relación entre dicha taxonomía de usuarios y los diferentes niveles de complejidad de sus requerimientos.

33

Figura 2.1 Niveles de usuarios según complejidad de las preguntas

2. El recopilador de información. A diferencia del anterior, este usuario realiza preguntas cuya respuesta necesita de un proceso de recopilación de varias fuentes de información indicadas en la pregunta. Veamos algunos ejemplos de preguntas de este tipo: “¿Qué países tienen frontera con España?”, “¿Qué países visitó el Papa en 1998?", “¿Qué jugadores de fútbol han anotado mas de 4 goles en un partido oficial de fútbol en México?". Como puede observarse, este tipo de preguntas requiere de varias fuentes de Información (probablemente en diferentes documentos) y su posterior combinación como respuesta final.

34

3. El periodista. Es el tipo de usuario al que se le encarga la redacción de un artículo relacionado con un evento determinado, por ejemplo un huracán que golpea la costa del Golfo de México. Para ello, el reportero necesitará recabar datos concretos del suceso (intensidad del huracán, lugar del desastre, daños materiales,...), el sistema de BR necesitaría tener en cuenta el contexto de la serie de preguntas que el usuario interpondrá al sistema. Este contexto permitiría al sistema determinar la amplitud de la búsqueda y la necesidad de profundizar en determinados aspectos relacionados.

4. El analista profesional. El perfil de este usuario corresponde con el de un profesional de la información experto en temas concretos. Por ejemplo, analistas financieros, personal de agencias estatales de inteligencia especializadas en política internacional, política económica, o en la investigación de determinados delitos como el terrorismo, tráfico de drogas, etc. Un ejemplo del tipo de preguntas que el sistema de BR debería de responder sería el siguiente. Un analista de la policía intuye que puede haber cierta conexión entre las actividades de un grupo de secuestradores y un grupo de policías e intenta investigar la existencia de dicha conexión. Para ello, el analista podría realizar al sistema las siguientes preguntas: “¿Hay alguna evidencia de conexión, comunicación o contacto entre estos dos grupos?", “¿Hay alguna evidencia de que estos grupos estén planeando alguna acción conjunta?". Un sistema de BR que trabaje a este nivel debe poder aceptar preguntas muy complejas cuyas respuestas pueden basarse en conclusiones y decisiones realizadas por el propio sistema. Estas respuestas necesitarán de la recopilación y síntesis de información obtenida en diferentes fuentes y deberá ser presentada al usuario de una forma adecuada a su forma de trabajo. Como puede deducirse, los niveles de sofisticación de estos diferentes tipos de usuarios estarán íntimamente relacionados con el nivel de complejidad de las preguntas y respuestas que el sistema ha de ser capaz de procesar satisfactoriamente. 35

En consecuencia, el análisis del problema de la BR va a depender fundamentalmente del correcto estudio de las dos partes principales del problema: las preguntas y las respuestas. Desde el punto de vista de la problemática de las preguntas, pueden destacarse tres factores principales de los que depende el correcto funcionamiento de un sistema de BR:

I. El contexto en el que se realizan las preguntas. Este contexto determinará cómo debe interpretar el sistema la información requerida en cada momento. Por ejemplo, sin un correcto análisis contextual, la pregunta “¿Dónde está el Cesar Palace?" puede tener varias respuestas que serán correctas o incorrectas en función de dicho contexto: (1) “Las Vegas, Nevada", “Paris, Francia"" (donde está el casino Cesar Palace) o incluso “Ciudad Madero, Tamaulipas" (donde se encuentra un hotel con dicho nombre). II. La intención de la pregunta. El análisis de la intención que refleja una pregunta debe conducir el proceso de búsqueda de forma que los elementos de juicio, motivos e intenciones reflejadas en ella puedan ser correctamente abordados y resueltos en el proceso generación de la respuesta. Por ejemplo, el análisis de la pregunta “¿Por qué las relaciones diplomáticas entre México y Cuba se han visto deterioradas?" debe detectar que el usuario requiere una respuesta que justifique las razones de la afirmación expresada en la pregunta. III. El alcance de la pregunta. El proceso de interpretación de la pregunta debe poder determinar en cuál de las fuentes de información disponibles se ha de realizar la búsqueda y también, el nivel de profundidad requerido para generar la respuesta. De forma similar, desde el punto de vista de la complejidad de las respuestas, un sistema de BR necesitaría contemplar los siguientes aspectos: a) Diversidad de las fuentes de datos. Un sistema de BR avanzado ha de permitir la búsqueda de información en un amplio espectro de fuentes de datos diferentes. b) La integración de datos individuales. Se requiere que el sistema sea capaz de integrar, combinar y resumir datos individuales 36

extraídos de cualquier fuente de información para generar aquellas estructuras de información compuestas que son relevantes a la pregunta. c) La interpretación de la información. Estos sistemas deben facilitar una interpretación de la información relevante recuperada que se ajuste a la interpretación de la pregunta original. Este proceso permitiría que los motivos, intenciones y elementos de juicio expresados en la pregunta se reflejaran en los procesos de selección de información relevante y de generación de las respuestas.

Queda claro que el abordar la detección y análisis de los factores principales que afectan al problema de la BR no resulta una tarea trivial. Sin embargo, este proceso ha permitido definir el problema desde una perspectiva general facilitando así, el acotar el ámbito del problema, aproximar sus objetivos, definir una base que permite situar el estado actual de las investigaciones en este campo y sobre todo, centrar el interés en aquellos aspectos hacia los que se deben orientar las investigaciones futuras.

2.2 Componentes principales de un sistema de BR Tras analizar algunas de las publicaciones actuales más relevantes, tales como [Prager et al. , 2000 ; Hovy et al. , 2001; Vicedo et al., 2003 ; PerezCoutiño et al., 2004; de Pablo et al., 2004], se puede establecer una división de componentes de un sistema de BR tal y como sigue:

1. Análisis de la pregunta. 2. Recuperación de documentos. 3. Selección de pasajes relevantes. 4. Extracción de respuestas.

37

La Figura 2.2 muestra gráficamente la secuencia de ejecución de estos procesos y cómo se relacionan entre sí.

Figura 2.2 Módulos de ejecución en la BR a partir de documentos y sus pasajes relevantes

Los componentes mencionados están relacionados entre si procesando información textual disponible en los distintos niveles hasta terminar el proceso de BR mediante la devolución de un resultado. En la primera parte del proceso, las cuestiones formuladas al sistema son procesadas por el módulo “Análisis de la pregunta”. Este proceso es de vital importancia puesto que de la cantidad y calidad de la información extraída en este análisis dependerá en gran medida el rendimiento de los restantes módulos y por consiguiente, el resultado final del sistema. Una parte de la información resultado del análisis de la pregunta es utilizado por el módulo “Recuperación de documentos” para realizar una primera selección de textos. Dado el gran volumen de documentos a tratar por estos sistemas y las limitaciones de tiempo de respuesta con las que trabajan, esta tarea se realiza utilizando sistemas de RI o RP.

38

Los sistemas de Recuperación de Pasajes (RP) utilizan los mismos modelos tradicionales de RI pero sustituyendo al documento por el pasaje. Un pasaje se define como una secuencia contigua de texto dentro de un documento. El resultado obtenido es un subconjunto muy reducido de la base de datos documental sobre los que se aplicarán los procesos posteriores. A continuación, el módulo

“Selección de pasajes” relevantes se encarga de

realizar un análisis más detallado del subconjunto de textos relevantes con el objetivo de detectar aquellos fragmentos reducidos de texto que son susceptibles de contener la respuesta buscada. Finalmente, el módulo “Extracción de respuestas” procesa el pequeño conjunto de fragmentos de texto resultado del proceso anterior con la finalidad de localizar y extraer la respuesta buscada.

2.3 Situación actual Los sistemas de BR actualmente en operación, afrontan la tarea de BR desde la perspectiva del usuario casual. Un usuario que realiza preguntas simples que requieren un hecho, situación o dato concreto como respuesta. Estos sistemas utilizan un único tipo de fuente de información en la que se realiza la búsqueda de respuestas: una base de datos textual compuesta por documentos escritos en un único lenguaje (actualmente el idioma inglés es el más utilizado). En algunos casos se ha avanzado un poco mas mediante el uso de bases de datos léxico-semánticas (principalmente WordNet) y la integración de algún tipo particular de ontología como SENSUS [Hovy et al. , 2000]. Desde esta perspectiva, los sistemas existentes pueden contestar a preguntas simples cuya respuesta aparece en un único documento y además, los conceptos expresados en la pregunta están localizados en zonas del texto cercanas a dicha respuesta.

39

2.4 Clasificación de los sistemas de BR La realización de una clasificación de los sistemas existentes resulta una tarea bastante complicada. Ésta dificultad radica principalmente en la selección de la perspectiva desde la que se desea realizar dicha clasificación. Vicedo propone una clasificación detallada que muestra los diferentes niveles de procesamiento del lenguaje natural que estos sistemas emplean [Vicedo, 2002].

2.4.1 Sistemas que no utilizan técnicas de PLN. Estos sistemas tratan de aplicar únicamente técnicas de RI adaptadas a la tarea de BR. La forma general de actuación de estos sistemas se basa en la recuperación de extractos de texto relativamente pequeños con la suposición de que dichos extractos contendrán la respuesta esperada. Generalmente estos sistemas utilizan varias formas de seleccionar aquellos términos de la pregunta que deben aparecer cerca de la respuesta. Normalmente, se eliminan las palabras vacías y se seleccionan aquellos términos con mayor “valor discriminatorio". Estos términos se utilizan para recuperar directamente fragmentos relevantes de texto que se presentan directamente como respuestas [Cormack et al., 1999] o bien, para recuperar documentos que posteriormente serán analizados. Este análisis consiste en dividir el texto relevante en ventanas de un tamaño inferior o igual a la longitud máxima permitida como cadena respuesta. Cada una de estas ventanas se valora en función de determinadas heurísticas para finalmente presentar como respuestas aquellas ventanas que consiguen la mejor puntuación. Esta valoración suele tener en cuenta aspectos como el valor de discriminación de las palabras clave contenidas en la ventana, el orden de aparición de dichas palabras en comparación con el orden establecido en la pregunta, la distancia a la ventana de aquellas palabras clave que no se aparecen en la ventana, etc.

40

Además del sistema de la universidad de Waterloo, citado previamente, se puede incluir en este grupo el sistema utilizado por la universidad de Massachusetts [Allan et al., 2001]. El rendimiento alcanzado por este tipo de sistemas es relativamente bueno cuando la longitud permitida como respuesta es grande (del orden de 250 caracteres), sin embargo, decrece mucho cuando se requiere una respuesta concreta a la pregunta (unos 50 caracteres de longitud máxima). Un caso especial lo constituye el sistema diseñado por InsigthSoft [Soubbotin and Soubbotin, 2001]. Este sistema es uno de los que mejor rendimiento presenta aunque no utiliza ninguna herramienta de PLN. Se diferencia respecto a las anteriores aproximaciones en el uso de patrones indicativos (combinación determinada de caracteres, signos de puntuación, espacios, dígitos o palabras) en el proceso de extracción final de la respuesta.

2.4.2 Sistemas que usan información léxico-sintáctica En esta clase se pueden catalogar la mayoría de las aproximaciones existentes. Al igual que los sistemas anteriores, estos sistemas utilizan técnicas de RI para seleccionar aquellos documentos o pasajes de la colección documental que son más relevantes a la pregunta. Las diferencias más significativas estriban en el uso de técnicas de PLN para analizar las preguntas y facilitar el proceso de identificación y extracción final de las respuestas. Estos sistemas se caracterizan, en primer lugar, por la realización de un análisis detallado de la pregunta que permite conocer o aproximar el tipo de entidad que cada pregunta espera como respuesta. Estas entidades están organizadas en conjuntos de clases semánticas como por ejemplo, “persona", “organización", “tiempo', “lugar", etc. La identificación del tipo de respuesta esperada se suele hacer mediante el análisis de los términos interrogativos de la pregunta. Para realizar el análisis de la pregunta se suelen utilizar etiquetadores léxicos y analizadores sintácticos inclusive métodos de aprendizaje automático [Solorio and López, 2004].

41

Por otra parte, el proceso de extracción de la respuesta combina el uso de técnicas de RI para la valoración de extractos reducidos de texto, como las utilizadas en los sistemas de la clase anterior, con el uso de clasificadores de entidades [Neumann et al., 2004]. Estas herramientas permiten localizar aquellas entidades cuya clase semántica corresponde con aquella que la pregunta espera como respuesta. De esta forma, el sistema sólo tiene en cuenta aquellos extractos de texto que contienen alguna entidad del tipo requerido como respuesta. La gran mayoría de los sistemas actuales utilizan esta aproximación [Kwok et al.2001; Negri et al. 2003 ; Osenova et al., 2004]. De entre los sistemas que adoptan esta estrategia general, cabe destacar algunas variantes interesantes. El sistema utilizado por IBM [Prager et al., 2000] y el del INAOE, [PerezCoutiño et al., 2004] basan su aproximación en el concepto de anotación predictiva. Este sistema utiliza un etiquetador de entidades para anotar en todos los documentos de la colección, la clase semántica de aquellas entidades que detecta. Dicha clase semántica se indexa junto con el resto de términos de los documentos. Este proceso facilita la recuperación preliminar de los extractos de documentos que contienen entidades cuya clase semántica coincide con la esperada como respuesta. Otras aproximaciones incluidas en este grupo realizan un uso más intensivo de la información sintáctica. Algunos sistemas tienen en cuenta la similitud entre las estructuras sintácticas de las preguntas y posibles respuestas como factor importante en el proceso de extracción de la respuesta final [Buchholz 2001; Lee et al., 2001]. Finalmente, cabe destacar algunas aproximaciones que pueden considerarse próximas a la propuesta aquí presentada. De hecho este trabajo final de carrera toma el enfoque desarrollado por Brill pero con ciertas diferencias que mencionaremos mas adelante. Los sistemas de la Universidad de Waterloo [Clarke et al., 2001] y Microsoft [Brill et al., 2001] y más recientemente Linguateca [Costa et al., 2004] se caracterizan principalmente por el uso de Internet (documentos Web) como fuente de información añadida en el proceso de BR. En el caso de la Universidad de Waterloo [Clarke et al., 2001], el sistema realiza el proceso de búsqueda a través de la Web y recopila determinada 42

información, como respuestas posibles encontradas y frecuencia de las mismas. Posteriormente, el sistema realiza el mismo proceso sobre la base documental sobre la que ha de extraerse la respuesta pero utilizando la información obtenida a través de Internet para mejorar el proceso de identificación y extracción de la respuesta correcta en la base documental. Los experimentos realizados por este sistema demuestran que el uso de la información extraída a través de la Web resulta de una importancia notable, mejorando en gran medida el rendimiento final del sistema. Por otra parte, Microsoft [Brill et al., 2001] no utiliza Internet como mero apoyo al sistema, sino que su aproximación se fundamenta en el uso de la información obtenida a través de la red. En resumen, este sistema trata de aprovechar la gran densidad de información existente en la Web para encontrar una respuesta que esté expresada mediante una combinación de los términos de la pregunta. Por ejemplo, una posible respuesta a la pregunta “¿Cuándo fué inventado el papel?", podría expresarse de esta forma: “El papel fue inventado el ". Este sistema, a partir de los términos de la pregunta, construye de forma semi-exhaustiva todas las posibles combinaciones que incluyen los términos de la pregunta y el tipo de respuesta esperado incluyendo también, aquellas que son incorrectas “El papel se inventó el ". Para realizar lo anterior se identifica cuál es el verbo en la oración y se hace uso de conocimiento externo para completar o modificar las preguntas (para el ejemplo de arriba se usan sinónimos como crear, descubrir). A continuación, todas las formulaciones generadas se lanzan a través de Internet. Este sistema basa su funcionamiento en dos suposiciones: (1) Que las formulaciones incorrectas es poco probable que vayan a encontrarse. (2) Que la gran densidad de información accesible a través de la red hace muy probable que se pueda encontrar una respuesta expresada de la misma forma que alguna de las reformulaciones correctas.

Posteriormente, los resultados de estas búsquedas se filtran para detectar todas aquellas posibles respuestas que coinciden con el tipo esperado. Estas

43

respuestas se valoran principalmente, en función de su frecuencia de aparición en los resultados de la búsqueda en Internet y se ordenan según dicho valor. En este punto, el sistema ha generado una lista de las mejores respuestas a la pregunta encontradas a través de la Web. El último paso consiste en buscar dichas respuestas en la base documental para determinar cuáles de ellas se encuentran en alguno de sus documentos. Finalmente, el sistema devuelve aquellas respuestas mejor clasificadas y que aparecen en esta colección. En el tercer caso, el sistema Esfinge de Linguateca [Costa et al., 2004] para la tarea monolingüe en Portugués tiene un enfoque bastante parecido al de Microsoft pero usando tres diferentes estrategias: En la primera, el sistema investiga las respuestas en la colección de documentos del CLEF, en la segunda, el sistema investiga las respuestas en la Web y usa la colección de documentos del CLEF para confirmar estas respuestas. Y finalmente, en la tercera estrategia el sistema solo investiga las respuestas en la Web. Es importante hacer notar que Esfinge utiliza diversos recursos lingüísticos, por ejemplo un analizador morfológico, para mejorar su rendimiento. Estas tres últimas aproximaciones están incluidas en el grupo de sistemas de BR que utilizan el enfoque de usar la Web como un complemento para el mejor rendimiento de sus sistemas, de hecho es el paradigma mas usado por la gran mayoría de los sistemas actuales [Negri et al., 2003 ; Echihabi et al., 2003 ; Jijkoun et al., 2003; Vicedo et al. 2003 ; Bourdil et al. 2004 ; de Pablo et al. 2004 ; Pérez- Coutiño et al., 2004].

2.4.3 Sistemas que usan información semántica. El uso de técnicas de análisis semántico en tareas de BR es escaso debido fundamentalmente a las dificultades intrínsecas de la representación del conocimiento. De hecho, sólo un grupo reducido de sistemas aplica herramientas que realizan este tipo de análisis. Estas técnicas se utilizan en los procesos de análisis de la pregunta y de extracción final de la respuesta. De forma general, estos sistemas obtienen la

44

representación semántica de la pregunta y de aquellas sentencias que son relevantes a dicha pregunta. A partir de lo anterior la extracción de la respuesta se realiza mediante procesos de comparación y unificación entre las representaciones de la pregunta y las frases relevantes. El sistema de la Universidad de California del Sur [Hovy et al. 2000, 2001; Echihabi et al., 2003] utiliza el concepto de tripletas semánticas (una entidad del discurso, el rol semántico que dicha entidad desempeña y el término con el que dicha entidad mantiene la relación) para representar dicha información. Como ejemplo de uso eficaz de las técnicas de análisis semántico cabe destacar los sistemas de la universidad Metodista [Harabagiu et al., 2000], LCC [Harabagiu et al., 2001], el grupo de QA de tecnología de lenguaje de DFKI [Neumann et al., 2004] y la Universidad de Ámsterdam [Jijkoun et al., 2003]. Estos sistemas utilizan el análisis semántico en el proceso de extracción final de la respuesta. Para ello, tanto las preguntas como las frases que contiene las posibles respuestas son representadas mediante fórmulas lógicas a las que se aplica un proceso de unificación para localizarlas posibles respuestas. Estas respuestas sirven de entrada a un módulo posterior de análisis contextual que permite verificar si son correctas dichas respuestas, descartando aquellas que resultan incorrectas.

2.4.4 Sistemas que usan información contextual La aplicación de técnicas de análisis contextual en sistemas de BR se restringe a la incorporación de conocimiento general del mundo asociado a mecanismos inferenciales que facilitan el proceso de extracción de respuestas y a la aplicación de procesos de resolución de correferencias. Cabe destacar que los sistemas de la universidad Metodista del Sur [Harabagiu et al., 2000], LCC [Harabagiu et al., 2001] y la universidad de Ámsterdam [Jijkoun et al., 2003] son los que mejor rendimiento obtienen de la aplicación de técnicas de este nivel de análisis del lenguaje natural.

45

Estos sistemas parten de las respuestas posibles obtenidas como resultado del proceso de unificación realizado a nivel de análisis semántico. A estas respuestas, se añaden un conjunto de axiomas que representan el conocimiento general del mundo (obtenidos de WordNet) junto con otros derivados de la aplicación de técnicas de resolución de correferencias a través de las respuestas posibles.

La resolución de correferencias constituye el conjunto de técnicas de análisis contextual más utilizada en procesos de BR. Son varios los sistemas que aplican alguna técnica de resolución de correferencias en el proceso de BR [Hovy et al., 2001], [Harabagiu et al., 2001] y [Vicedo et al., 2002]. Generalmente, las técnicas de resolución de la anáfora se aplican en dos etapas diferentes del proceso de BR: en la extracción de las respuestas y en el análisis de las preguntas. En el primer caso, la resolución de correferencias se realiza sobre aquellos documentos que son relevantes a la pregunta con la finalidad de facilitar la localización y extracción de entidades relacionadas con la pregunta y la respuesta. En el segundo caso, los sistemas utilizan estas técnicas para seguir la pista de aquellas entidades del discurso referidas de forma anafórica a través de series de preguntas individuales que interrogan al sistema acerca de diferentes aspectos relacionados todos en un mismo contexto.

2.5 Conceptos generales Esta sección introduce algunos conceptos de RI muy utilizados y cuyo conocimiento resulta recomendable para la correcta comprensión de capítulos sucesivos.

46

2.5.1 Palabras de parada y palabras clave La representación de un documento depende del conjunto de palabras que lo componen. Sin embargo, existe un conjunto de palabras, de uso muy frecuente, que carecen de poder de discriminación puesto que aparecen en la mayoría de los documentos. Este conjunto de palabras se denomina lista de palabras de parada (stopword list). Estas palabras se suelen eliminar en el proceso de indexación con la intención de reducir espacio de almacenamiento y aumentar el rendimiento de los sistemas. Los siguientes términos en castellano

constituyen

algunos

ejemplos

de

este

tipo

de

palabras:

“el",”lo",”para" y “con". Existen varias de estas listas que se han obtenido en estudios específicos a tal efecto [Fox, 1992; Rijsbergen, 1979]. En contraposición, aquellas palabras que no aparecen en la lista de palabras de parada, se consideran lo suficientemente discriminantes como para representar el contenido de un documento y por tanto, son indexables. Estos términos reciben la denominación de palabras clave (keywords).

2.5.2 Pesos de términos Una de las consideraciones básicas de los sistemas de RI es que todas las palabras clave no tienen el mismo valor discriminatorio. Son varias las técnicas que se han desarrollado para calcular y asignar pesos a las palabras clave en función de su “poder discriminatorio" intrínseco. La técnica de asignación de pesos más utilizada es la desarrollada en [SparckJones, 1972] donde a cada término se le asigna un peso calculado en función del valor inverso de su frecuencia de aparición en el conjunto de documentos de la colección (inverse document frequency). Este valor se computa según la siguiente expresión:

idf

t

=

log

 N   df

t

  

Donde N es el número total de documentos de la colección y dft es el número de documentos en los que aparece el término t. 47

2.5.3 Obtención de raíces (stemming) El proceso de obtención de raíces es una técnica que utilizan los sistemas de RI para aumentar su efectividad y reducir el tamaño de los archivos de indexación. Este proceso consigue obtener un único término a partir de palabras con el mismo significado pero que difieren esencialmente en su morfología. Este proceso obtiene una misma forma canónica para las diferentes variantes morfológicas de un término que no tiene porqué ser necesariamente, su raíz lingüística. Existen diferentes tipos de algoritmos que realizan este proceso.

2.5.4 Expansión de preguntas La mayoría de los modelos de RI detectan aquellos documentos relevantes a una pregunta mediante la evaluación del nivel de co-ocurrencia de términos entre la pregunta y los documentos de la colección. Puesto que esta comparación se hace a nivel de términos, es fácil encontrar casos en los que el sistema descarta documentos muy relevantes que utilizan para expresar su contenido términos diferentes a los empleados en la pregunta. Bajo la expresión expansión de preguntas (question expansion) se enmarcan aquellos procesos automáticos que tratan de mejorar las preguntas iniciales generadas por los usuarios, y cuyo objetivo es minimizar el número de documentos relevantes descartados a propósito del uso de modelos de recuperación basados en la co-ocurrencia de términos. El proceso de expansión consiste en añadir, al conjunto de términos originales de la pregunta, aquellos otros términos relacionados que pueden utilizarse para expresar las mismas ideas o conceptos. Existen diferentes métodos de selección de los términos a incorporar a la pregunta. Desde la selección de variantes morfológicas de los términos originales, pasando por la búsqueda de términos semánticamente relacionados (sinónimos, hipónimos, hiperónimos, . . . ) en bases de datos léxico-semánticas

48

como WordNet, hasta el uso de técnicas estadísticas para la determinación de los términos a incluir (ejemplo: vecinos más frecuentes). El uso de este tipo de técnicas ha sido muy beneficioso en términos de rendimiento del sistema. Los trabajos desarrollados por Donna Harman [Harman, 1988, 1992] suponen un buen estudio comparativo de las diferentes técnicas de expansión existentes.

2.5.5 Realimentación El concepto de realimentación (relevance feedback) ha sido aplicado en entornos de RI como técnica diseñada para mejorar la eficacia de estos sistemas. Esta técnica consiste en enriquecer la pregunta inicial realizada por el usuario del sistema mediante la utilización de la información de aquellos documentos que se han recuperado utilizando exclusivamente dicha pregunta inicial. La información relevante incluida en estos documentos, se añade a la pregunta complementando así, la información que ésta contiene y facilitando la detección nuevos documentos relevantes en búsquedas posteriores. Este proceso puede ser manual o automático. En el primer caso, el usuario dirige el proceso de realimentación por ejemplo, seleccionando aquellos documentos que le son relevantes de entre los recuperados con la pregunta inicial. Este proceso puede realizarse también de forma automática mediante la selección de los primeros n documentos recuperados. Las técnicas de realimentación han demostrado ser muy eficaces en tareas de RI. En [Harman,1992] se puede encontrar un estudio de las principales aproximaciones existentes.

49

50

Capitulo 3. BR monolingüe: El sistema INAOE

Como ya se ha dicho en los capítulos anteriores, un sistema de búsqueda de respuestas es aquel sistema capaz de devolver respuestas concisas a preguntas sobre hechos concretos. En este capítulo se verá un ejemplo de este tipo de sistemas, el sistema del INAOE de búsqueda de respuestas mediante tratamiento a nivel léxico y aprovechando la redundancia existente en la web. El sistema originalmente se implementó para su utilización en castellano. Veremos como adaptarlo a otros idiomas, y como afecta la redundancia a los resultados obtenidos.

El presente capítulo ha sido extraído en gran parte del trabajo efectuado por Alejandro Del Castillo Escobedo y reflejado en la tesis titulada “Búsqueda de Respuestas mediante Redundancia en la Web” [Del Castillo, 2005].

3.1 Introducción En el INAOE inician los trabajos sobre sistemas de BR en agosto de 2003. Se trabaja sobre dos ideas en paralelo:

1) Búsqueda de respuestas mediante anotación predictiva, con las siguientes premisas iniciales de trabajo: ! Se efectúa un análisis léxico sintáctico. ! Se reconocen entidades. ! Se utilizan metadatos para expresar contenido relevante (posibles respuestas) de los documentos. ! Las preguntas factuales se responden con entidades nombradas (nombres de personas, lugares, fechas...) ! La hipótesis de trabajo sobre la que se basan es que si se extraen todas las entidades nombradas en un documento, y se representan

51

adecuadamente

su

contexto

de

ocurrencia,

entonces

podemos

responder a preguntas sin necesidad de recurrir al documento como tal.

2) Búsqueda de respuestas basadas en la web, a partir de las siguientes premisas: ! Se realiza un tratamiento a nivel léxico de las preguntas y documentos. ! Se basa en la redundancia existente en la web: la misma información está repetida en multitud de documentos. ! Sistema estadístico de BR capaz de responder preguntas factuales en español a partir de la web. ! La idea central en la que se basa el sistema es que “las preguntas y las respuestas de estas se expresan comúnmente usando las mismas palabras”. ! Por los tanto, las respuestas se pueden encontrar mediante un simple apareamiento de patrones léxicos, sin necesidad de aplicar recursos lingüísticos sofisticados. ! La probabilidad de encontrar un ajuste de este tipo debería incrementar con la redundancia de la colección destino, en nuestro caso la web.

Sobre la segunda línea de investigación, es sobre la que se ha trabajado en este PFC. Por lo tanto, en este y sucesivos capítulos cuando hablemos de sistema INAOE estaremos refiriéndonos a esta línea de investigación.

3.2 Arquitectura del sistema BR INAOE basado en la Web El trabajo está basado en el enfoque desarrollado por Brill [Brill et al. 2001]. Esta metodología no depende de costosas herramientas con las que tratar las entidades lingüísticas. La idea principal es que las preguntas y respuestas se expresan comúnmente usando las mismas palabras. Por ejemplo, en la pregunta “¿Quién es el autor de “El Quijote”?”, podríamos encontrar como respuesta “El autor de “El Quijote es ..”.” como parte de la respuesta. Por tanto, habrá que dotar al sistema de un módulo capaz de

52

generar distintas combinaciones de palabras a partir de la pregunta. A partir de ahí se realizarán las peticiones sobre la Web a través del buscador web Google. Este módulo será el módulo llamado “Reformulaciones”. Dada una pregunta, el sistema genera una serie de reformulaciones con los términos usados en la pregunta, estas reformulaciones son simples manipulaciones de palabras. O dicho de otra forma, definimos reformulación como la expresión que, probablemente, fue usada para escribir la respuesta deseada, dicha expresión se construye a partir de la manipulación de las palabras de la pregunta original. A partir de las reformulaciones, y tras haber enviado cada reformulación al Google, este nos devuelve cadenas de palabras en las cuales se encuentra parte de la petición formulada. Estos extractos son los llamados snippets. Se define snippet, como aquellos extractos de texto que son devueltos por los buscadores web, y que contienen las palabras introducidas en la búsqueda.

De los extractos devueltos, se obtendrá la respuesta clasificando por extractos más frecuentes y asignado distintos pesos según los casos. Se verá con más detalle la manera de extraer respuestas en los puntos siguientes.

Como ejemplo de reformulaciones generadas por el sistema, para la pregunta “¿Cuál es la capital de España?”, se generarían: -

Es la capital de España

-

“La capital” “de España”

-

“De España” “la capital”

-

“la capital de España es”

La respuesta se podría encontrar en un texto que podría ser “la capital de España es”, siendo esta una de las reformulaciones generadas, solamente combinando palabras o partes de la oración tratada. Se verán ejemplos de otros tipos de reformulaciones en el punto dedicado exclusivamente a este respecto. Para una oración con 3 partículas preposicionales o conjunciones, y para el caso de la reformulación “Constituyentes”, se obtendrían un total de 6

53

reformulaciones que lanzaría el sistema como queries en el conjunto de documentos de referencia, en nuestro caso el Google.

En algunos los casos, las reformulaciones obtenidas no producen resultados, o lo que se obtiene no resulta útil para nuestros propósitos. Por ejemplo: “…es capital para España…”, “…España jugará en la capital de…”. Por esto, será necesario que para determinar la respuesta habrá que establecer criterios (a nivel léxico) tanto para la manipulación de las palabras de la pregunta como para seleccionar los mejores fragmentos a partir de los cuales se calculará la respuesta. Por supuesto, mientras más grande sea la colección que se tiene una mayor probabilidad de encontrar la respuesta correcta, mientras más fragmentos tengamos más confiable será la respuesta calculada, ya que este cálculo está en función de la palabra o palabras más frecuentemente observados en estos fragmentos. De ahí la importancia de la redundancia (múltiples ocurrencias de cierta información) existente en la web, y de por qué es el escenario perfecto para este tipo experimental de sistemas que estamos introduciendo. Es aquí donde se usa la explosión de información existente en Internet, haciendo muy probable que haya varios fragmentos con la respuesta. Cabe mencionar que esta idea también ha sido explorada por otros sistemas de BR [Buchholz et al. 2001 ; Kwok et al. 2001] con pequeñas variantes y siempre para el idioma inglés. El presente trabajo final de carrera se basa en el enfoque de Brill, pero con una salvedad, las reformulaciones de la pregunta. En el enfoque de Brill se usa un lexicón para determinar las partes de la oración y las variantes morfológicas de palabras claves. En el sistema INAOE, las reformulaciones no dependen de un lexicón y se basan solamente en la manipulación de las palabras de la pregunta, sin tener casi ningún conocimiento previo acerca de dichas palabras. A diferencia del trabajo de Brill, no se hace uso de ningún conjunto de patrones léxicos por tipo de pregunta, para extender las reformulaciones con palabras no contenidas en la pregunta original. En nuestro sistema no se hace uso de conocimiento externo, específico del idioma, sino que se manipulan directamente las palabras de la pregunta, aplicando un método puramente estadístico para la selección de las respuestas.

54

Para adaptar el sistema a otros idiomas será necesario realizar algunos cambios, que se comentarán brevemente en el punto 3.3 (Adaptación del sistema INAOE a otros idiomas).

Dada la cantidad de información que está disponible en la Web, no debe sorprender que sea una fuente ideal de respuestas a una amplia gama de preguntas. En esto consiste la redundancia que hemos mencionado. Un suceso, acontecimiento o noticia aparece descrito en la Web en diferentes formas y estilos.

Los párrafos siguientes describen cada uno de los módulos del sistema de BR propuesto (Figura 3.1). Nuestro enfoque incluye los siguientes módulos: Análisis o tratamiento de la pregunta, la recuperación de los documentos y el módulo de extracción de respuestas.

Figura 3.1

55

3.2.1 Reformulaciones Este módulo genera el conjunto de reformulaciones a partir de una pregunta dada. Se introducen 5 tipos de reformulaciones, que son el resultado de muchas pruebas en torno a definir qué combinaciones entre palabras de una pregunta generarían mejores resultados.

Por tanto, podríamos definir reformulación como la expresión que, es construida a partir de las

palabras

de la pregunta, y que con cierta

probabilidad es usada para escribir la respuesta buscada. La expresión obtenida, es producto de la combinación de las palabras de la expresión en la pregunta original, exceptuando la partícula interrogativa que es eliminada antes del proceso de reformulación. Se definen 5 tipos de combinaciones, correspondiendo cada una de ellas a un tipo de reformulación. Así, para la pregunta: “¿Quién descubrió la penicilina?”, las siguientes podrían ser algunas reformulaciones de la pregunta:

“descubrió la penicilina” “la penicilina descubrió” “la descubrió penicilina”

En los puntos siguientes veremos a través de un ejemplo los tipos de reformulaciones empleadas y como se obtienen a partir de la pregunta.

Durante una primera etapa de experimentación en el equipo de experimentación del INAOE probaron con todas las posibles reformulaciones de las preguntas, es decir, todas las combinaciones de sus palabras. Estos experimentos demostraron dos cosas: (i)

que el esquema no es funcional para analizar preguntas con más de 5 palabras;

(ii)

que la gran mayoría de las reformulaciones construidas son inadecuadas.

56

A partir de estos resultados iniciales se seleccionó un conjunto de reformulaciones, aquellas con mejores resultados. Las mejores reformulaciones correspondieron a aquellas que presentaban una estructura sintáctica correcta.

En los siguientes puntos se presentan ejemplos de reformulaciones. En todos ellos se muestran resultados a partir de la pregunta:

“¿Quién ganó el campeonato de fútbol español en 2004?”

En los algoritmos que se describen mas adelante, usamos la siguiente notación: Se representa la pregunta Q como un conjunto de palabras:

Q = { W0, W1 , .., Wn-1}, donde W0 representa la palabra del tipo Cuándo, Dónde, Quién, etc. y n representa el número de palabras en la pregunta. Para cada pregunta se representan las reformulaciones de ésta, R, como una cadena (string). Esta cadena está formada por palabras, espacios y dobles comillas (“”), y además satisface el formato de consulta de los motores de búsqueda tradicionales. Así, la reformulación R = W1 W2 corresponde a la consulta W1 AND W2 y la reformulación R = “W1 W2 ” corresponde a la consulta “W1 W2” .

3.2.1.1 Reformulación: “Bolsa de palabras” Básicamente con esta reformulación obtenemos los mismos resultados que con un sistema de RI, así la búsqueda de extractos usa todas las palabras de la pregunta excluyendo las palabras vacías: (“ganó”, “campeonato”, “fútbol”, “España”, “2004”).

57

Las palabras vacías son el conjunto de palabras de uso muy frecuentes y que carecen de poder de discriminación para determinar el contenido de un documento ya que aparecen en la mayoría de los documentos, ejemplos de dichas palabras son: a, el, de. El algoritmo de esta reformulación (Tabla 3.1) considera todas las palabras de la pregunta, sin incluir palabras vacías (preposiciones, conjunciones, artículos). 1. PARA CADA Wi Є Q | i ≥1 2.

SI Wi no es palabra vacía ENTONCES R0 ← R0 U Wi

3. 4. 5.

FIN SI FIN PARA

6. GUARDAR R0 Tabla 3.1 Algoritmo Reformulación Bolsa de palabras

3.2.1.2 Reformulación: “Manipulación del verbo” Entre las primeras observaciones al examinar una lista de preguntas factuales, el equipo investigador del INAOE se percató de que, con frecuencia, inmediatamente después del pronombre o adverbio interrogativo se encuentra el núcleo verbal. Al colocar el verbo en posición final (o eliminarlo) es posible transformar la frase interrogativa a su forma declarativa. Es de suponer que dicha forma declarativa será abundante en los documentos analizados. Dado que no se desea utilizar ningún recurso lingüístico para determinar el verbo, se generan una serie de reformulaciones manipulando la primera palabra de la pregunta (después de eliminar la partícula interrogativa) La Tabla 3.2 muestra el algoritmo utilizado.

58

1. W1=”” 2. R0=”W1 W2….Wn” 3. GUARDAR R0 4. PARA i desde 1 a 2 5.

RtE=”Wi+1 Wi+2.......Wn-1”

6.

GUARDAR

7.

RtM=”Wi+1 Wi+2...Wn-1 Wi-1 Wi”

8.

GUARDAR RtM

9. FIN PARA Notación Rn representa todas las palabras de la pregunta (sin la partícula interrogativa) RtE como R0 pero eliminando la primera palabra(i-1) o, eliminando la primera palabra (i-2) RtM como R0 pero moviendo a primera palabra (i-1) o, moviendo la primera y segunda palabra (i-2) Tabla 3.2 Algoritmo Reformulación Movimiento del verbo

Para la pregunta ejemplo y con esta reformulación obtendríamos las siguientes reformulaciones:

“ganó el campeonato de fútbol español en 2004” “el campeonato de fútbol español en 2004”” “el campeonato de fútbol español en 2004 ganó” “campeonato de fútbol español en 2004” “campeonato de fútbol español en 2004 ganó el”

Y como en ciertas ocasiones es posible encontrar verbos auxiliares también se generarán reformulaciones manipulando la segunda palabra.

59

3.2.1.3 Reformulación: “Componentes” En este caso, la pregunta es segmentada en componentes. Un componente es interpretado aquí como una expresión delimitada por preposiciones. A partir de combinaciones de estos componentes se construirán nuevas reformulaciones. Es evidente que en algunos casos la reformulación no tiene sentido ("en 2004 español campeonato ") y no habrá extractos resultantes, sin embargo en otros casos ("en 2004 ganó el campeonato de fútbol español"), la reformulación probablemente producirá la recolección de extractos relevantes.

1.

Determinar conjunto de componentes C de Q

2.

RQ= “C1” “C2”....”Cn-1”

3.

GUARDAR

4.

PARA cada permutación C’ de C

5.

RQ=”C’1 C’2 ...C’n-1”

6.

GUARDAR

7.

FIN PARA Tabla 3.3 Algoritmo Reformulación componentes

Una pregunta que tiene m preposiciones se representa por un conjunto de componentes C = { C1 , C2 . . . Cm+1 }. Cada componente Ci es una subcadena de la consulta original. A continuación se muestra las reformulaciones producidas por el tipo componentes:

“ganó el campeonato” “de fútbol español” “en 2004” “ganó el campeonato de fútbol español en 2004” “ganó el campeonato en 2004 de fútbol español” “de fútbol español ganó el campeonato en 2004” “de fútbol español en 2004 ganó el campeonato” “en 2004 ganó el campeonato de fútbol español” “en 2004 de fútbol español ganó el campeonato”

60

donde las 3 componentes de partida son: 1) ganó el campeonato español 2) de fútbol 3) en 2004

3.2.1.4 Reformulación: “Componentes excluyendo la primera palabra” Este tipo de reformulación es una combinación de las dos anteriores. Como vimos en la segunda reformulación, generalmente la primera palabra es un verbo. En este caso repetimos la tercera reformulación pero eliminando la primera palabra. Las reformulaciones por componentes excluyendo la 1ª palabra resultantes con el ejemplo son:

“el campeonato” “de fútbol español” “en 2004” “el campeonato de fútbol español en 2004” “ el campeonato en 2004 de fútbol español” “de fútbol español el campeonato en 2004” “de fútbol español en 2004 el campeonato” “en 2004 el campeonato de fútbol español” “en 2004 de fútbol español el campeonato”

donde las 3 componentes de partida son: 1) el campeonato español 2) de fútbol 3) en 2004

61

3.2.1.5 Reformulación: “componentes excluyendo las dos primeras palabras” En este caso, se supone la presencia de un verbo auxiliar, por esa razón se eliminan las dos primeras palabras. Como puede observarse, las reformulaciones son sencillas manipulaciones de los términos de la pregunta, que finalmente tratan de aprovechar cierta estructura sintáctica presente en las preguntas factuales. Por supuesto, estas reformulaciones son ciegas y se aplican de manera indiscriminada. Esto provoca que muchas reformulaciones no tengan sentido, en cuyo caso es poco probable la recopilación de extractos de interés. Sin embargo, en otros casos la reformulación coincidirá con alguno o varios documentos con la consecuente recopilación de extractos apropiados.

Las reformulaciones por componentes excluyendo la 1ª y 2ª palabra:

“campeonato” “de fútbol español” “en 2004” “campeonato de fútbol español en 2004” “campeonato en 2004 de fútbol español” “de fútbol español campeonato en 2004” “de fútbol español en 2004 campeonato” “en 2004 campeonato de fútbol español” “en 2004 de fútbol español campeonato”

donde las 3 componentes de partida son: 1) campeonato español 2) de fútbol 3) en 2004

3.2.2 Recolección de Snippets Este módulo toma las reformulaciones anteriores y lanza las búsquedas sobre la Web apoyándose en algún motor de búsqueda ya existente. En

62

nuestro caso, está recopilación de extractos se realiza mediante un programa que hace uso de las especificaciones de las API (Application Programming Interface) de Google©10. Para nuestros experimentos se ha escogido Google como motor de búsqueda porque tiene una gran de cantidad de documentos indexados, es muy rápido, soporta expresiones booleanas y permite la extracción de snippets con coocurrencias. El sistema almacena un conjunto de snippets, los primeros devueltos por Google. Google fue fundado en 1997 por Serge Brin y Larry Page en la Universidad de Stanford. Su arquitectura está optimizada para un rendimiento de alta velocidad y una búsqueda a gran escala [Brin et al., 1998]. Una de las características más importantes de Google es su algoritmo de ordenamiento de páginas Web llamado PageRank© [Brin et al., 1998] el cual hace uso intensivo de la estructura de grafo hipertexto de la Web. PageRank© clasifica las páginas de acuerdo al número y a la autoridad de los links que hacen referencia a ellas. La estructura hipertexto también es explotada considerando el texto de los links. Cuando un documento de texto es indexado, el texto de los links en otras páginas que apuntan a ese documento también son considerados como parte del documento mismo. Cuando el algoritmo investiga por documentos relevantes en una consulta, toma en cuenta la frecuencia y la posición de los términos de la consulta, así como su fuente y su capitalización. Además, las páginas donde los términos de la consulta aparecen más cercanos son consideradas más relevantes. Google prefiere extraer snippets donde la co-ocurrencia toma lugar ignorando pasajes donde solo una palabra clave (keyword) aparece.

Veamos un ejemplo ilustrativo de cómo Google devuelve una respuesta correcta ante una petición en forma de un ejemplo de reformulación mediante la interfaz Web habitual del Google. Ante la pregunta “¿Quién descubrió la penicilina?”, una de las reformulaciones sería “descubrió la penicilina” que obtendría el siguiente resultado:

63

Figura 3.2 Ejemplo de sninpets devueltos por el Google

Como podemos observar en el resultado experimental, en los primeros snnipets devueltos se repiten varias palabras: “descubrió”, “penicilina”, palabras vacias como artículos, preposiciones y adverbios y Fleming. Sin entrar en consideraciones estadísticas (que se abordarán en el punto 3.2.3) de cómo se calcula la respuesta, el sistema desecharía como posibles respuestas las palabras vacías y las que formen parte de la pregunta. En este caso nos quedaría como candidata perfecta Fleming, que casualmente correspondería con la respuesta correcta.

3.2.3 Cálculo de la respuesta Después de obtener, para el conjunto de las cinco

reformulaciones

presentadas anteriormente, un conjunto de extractos, se calculan las frecuencias de los términos contenidos en cada uno de ellos. Para ello se

64

calculan los primeros 5 n-gramas considerando los signos de puntuación como límites de frase y eliminando las palabras vacías. Posteriormente se obtiene una lista con cinco respuestas candidatas ordenadas en función de su frecuencia, es decir, el término o términos con mayor presencia será el primero en considerarse como la respuesta correcta. Por supuesto, es necesario aplicar una serie de criterios para determinar con mayor precisión la respuesta correcta. Con este fin se han desarrollado tres métodos diferentes: frecuencia relativa, expresiones regulares, y frecuencia compensada con expresiones regulares. Antes de explicar los diferentes métodos de extracción de la respuesta se muestra la notación utilizada para los algoritmos de dichos métodos:

x(i) representa al i-grma x x*j(k) representa al j-esimo k-grama contenido en x Gi representa al conjunto de todos los i-gramas en la colección Fx(i) representa la frecuencia del i-grama x Fxj(k) representa la frecuencia del j-esimo k-grama contenido en x Px(n) representa la frecuencia relativa del n-grama x Para clarificar el concepto de n-grama, sirva de muestra el siguiente ejemplo:

65

3.2.3.1 Método de frecuencias relativas El método de frecuencias relativas consiste en extraer los veinte unigramas más frecuentes obtenidos de la colección de snippets, y a partir de ellos se obtienen los penta-gramas, cuatri-gramas, tri-gramas y bi-gramas que los contengan. La razón principal para considerar sólo veinte uni-gramas es que al analizar, las respuestas de las preguntas, en los experimentos preliminares, se encontró que, de existir la respuesta correcta, las palabras que conformaban dicha respuesta siempre se encontraban dentro de ese rango. Este conjunto de ngramas se ordena de acuerdo a su frecuencia relativa. Para observar el comportamiento del método mostramos los cinco mejores n-gramas para nuestra pregunta ejemplo. 1. Extraer los veinte unigramas más frecuentes 2. Calcular la frecuencia relativa de cada unigrama x(1)G1

Px(1)=



fx(1) y (1)∈G (1)

fy (1)

3. Determinar todos los n-gramas, desde los bigramas hasta los pentagramas , que contengan exclusivamente los unigramas más frecuentes 4. Ordenar los n-gramas en forma decreciente basados en su frecuencia relativa. Calcular la frecuencia relativa de cada n-grama x(n), donde n>1, así: ∞ 1 N Px(n) = ∑ x(1) i n i =1

5. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.4 Algoritmo extracción frecuencias relativas

Este método favorece las expresiones cortas. Lo anterior provoca algunos problemas cuando se trata de obtener como respuesta n-gramas más largos; por ejemplo, al momento de obtener la respuesta a la pregunta “¿Cuándo fue lanzado el Apolo 11?”, las mejores

66

respuestas son “luna”, “espacio” y “hombre”. Ocupando la cuarta y quinta posición aparecen las respuestas “julio” y “1969”. Lo anterior motivó a desarrollar otro tipo de método de extracción que al filtrar (mediante ciertos criterios tipográficos) los n-gramas más frecuentes resolviera la problemática mencionada.

3.2.3.2 Método de expresiones regulares Este método también filtra los 20 uni-gramas más frecuentes pero bajo criterios tipográficos (mes del año, palabras con mayúscula inicial, números, etc.). A partir de estos uni-gramas se obtienen todos los posibles n-gramas. Los n-gramas son ordenados por número de palabras en orden descendente obteniéndose de aquí las respuestas. La Tabla 3.10 muestra el algoritmo usado en este método:

1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que inician con mayúscula, números y nombres de meses) 2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas, que contengan, exclusivamente los unigramas más frecuentes 3. Se ordenan los n-gramas en forma decreciente basados en su número de palabras 4. Se muestran al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.5 Algoritmo extracción expresiones regulares

El método favorece las expresiones largas ya que después de extraer los unigramas más frecuentes se buscarán los pentagramas que contengan dichos unigramas, posteriormente los cuatrigramas y así sucesivamente.

67

3.2.3.3 Método de frecuencia compensada con expresiones regulares El método de frecuencia compensada utiliza las ideas de expresiones regulares y de frecuencia relativa. Este será el método utilizado en los experimentos del Capítulo 5 dedicado a mostrar los resultados experimentales del sistema y sus adaptaciones a los idiomas valenciano e inglés. Este método extiende el cálculo de la frecuencia relativa a los bi, tri y tetragramas de los cuales se compone una expresión. De esta manera, a una expresión de cinco términos que claramente por su longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias relativas de los bi, tri y tetra-gramas que la conforman. Este método es el que mejores resultados proporcionó en los diferentes experimentos realizados. El método de frecuencia compensada con expresiones regulares filtra los 20 unigramas más frecuentes bajo criterios tipográficos (mes del año, palabras con mayúscula inicial, números, etc.) usando expresiones regulares. A partir de estos uni-gramas se obtienen todos los n-gramas, con n={2..5}, compuestos de estos unigramas. Posteriormente las frecuencias de los n-gramas se suman. 1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que empiezan por mayúscula, números y nombres de meses) 2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas que contengan exclusivamente los unigramas más frecuentes 3. Se ordenan los n-gramas en forma decreciente basados en su frecuencia relativa compensada. Calcular la frecuencia relativa compensada de cada ngrama x(n), donde n>1, así: * 1 n n −i +1 f x ( i ) j Px ( n ) = ∑ ∑ n i =1 j =1 ∑ f ( y ) i ∀y∈Gi

4. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.6 Algoritmo de extracción frecuencia compensada con expresiones regulares

68

Un peso alto significa que se tiene una mayor presencia de dicha secuencia de palabras, así como las subsecuencias de palabras contenidas. De esta manera, una expresión de cinco términos que claramente por su longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias relativas de los 2, 3 y 4-gramas que la conforman.

3.3 Adaptación del sistema INAOE BR a otros idiomas El sistema de BR INAOE, originalmente, estaba configurado para la búsqueda de respuestas en castellano en la web utilizando como recolector de información el buscador Web Google. En la fase de adaptación a otros idiomas (en nuestros experimentos utilizaremos inglés y valenciano) se debe considerar lo siguiente: •

En plena ejecución de la aplicación, no cambiaremos el modo en que el Google busca en la web, es decir, las búsquedas se realizarán en toda la web. Esto es relevante, porque como veremos en los experimentos, hay ocasiones en las que la información devuelta por le Google quizá esté en otro idioma distinto al de la búsqueda lanzada. Esto se debe a que hay palabras que coinciden en distintos idiomas. Como ejemplo mencionar que durante la fase de experimentación se obtuvieron snippets en castellano de queries lanzadas en valenciano. Veremos con más detalle esta cuestión en el punto de experimentación.



Se deben cambiar las palabras de paro dependiendo del idioma que estemos utilizando.



Es necesario sustituir las palabras empleadas por los módulos en java para realizar las distintas reformulaciones. Estas palabras serán preposiciones, conjunciones y artículos.



Sustituir las partículas interrogativas por la traducción al idioma empleado en los experimentos.

69

Por tanto, en la fase de adaptación del sistema original, se obtendrán dos sistemas derivados adaptados al valenciano y al inglés, que realizarán las mismas acciones que el sistema INAOE de partida.

70

71

Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción

Los experimentos realizados han demostrado que la recuperación translingüe es perfectamente realizable y con un nivel de eficiencia cercano a una búsqueda monolingüe. La tarea de obtener una lista de documentos en un mismo idioma ordenada según la relevancia que tengan para una consulta escrita en un idioma diferente, ya ha sido ampliamente resuelta, aunque la eficiencia de los sistemas depende de la pareja de idiomas que se considere. Sin embargo esto sólo es un componente de la tecnología completa, aún quedan diversos problemas que no han sido completamente resueltos. Algunos de ellos se mencionaron en el Workshop “CLIR: a research roadmap" en el ámbito del SIGIR13 2002: ! Dominio: la mayoría de las técnicas empleadas han sido probadas sólo sobre noticias de periódicos (en las colecciones TREC, CLEF y NTCIR) y no se sabe si serían efectivas fuera de él. ! Eficiencia: el coste computacional que supone una traducción adecuada de las consultas puede resultar excesivo para un entorno real de búsqueda, aparte que la calidad de las traducciones aún no es óptima. ! Unificación: actualmente los sistemas de recuperación translingüe de información presentan dos claras separaciones: o Traducción y búsqueda: los procesos de traducción y búsqueda se realizan, normalmente, por separado. De esta forma la incertidumbre de las traducciones no influye en el proceso de búsqueda. o Diferentes idiomas: cuando se realiza una búsqueda multilingüe, el problema de fusionar los resultados de cada una de las búsquedas monolingües en una única lista ordenada aún no ha sido resuelto. Algunos autores proponen la integración de estas diferencias en un único modelo de manera que se pueda abordar 13

Special Interest Group on Information Retrieval

72

la recuperación multilingüe de información de una manera similar a la recuperación monolingüe. ! Interacción: los usuarios reales de los sistemas de búsqueda están interesados en la información contenida en los documentos, no en la lista ordenada que proporcionan los sistemas. La presentación de la información contenida en documentos que están en un idioma que no es el del usuario es algo sobre lo que apenas se ha investigado, y es una posible razón para la escasa existencia de motores de búsqueda translingües en la red. De igual manera, tampoco se han estudiado los procesos interactivos de formulación y refinamiento de las consultas en un entorno multilingüe.

4.1 Introducción El auge de Internet en la llamada Sociedad de la Información, supone la disponibilidad de cantidades prácticamente ilimitadas de información accesible, principalmente, a través de la World Wide Web. Para que toda esa información sea realmente accesible y útil, los motores de búsqueda o sistemas de recuperación de información juegan un papel fundamental. Tradicionalmente, la recuperación de información se ha entendido como el proceso, totalmente automático, en el que, dada una consulta (expresando las necesidades de información del usuario) y una colección de documentos, se devuelve una lista ordenada de documentos supuestamente relevantes para la consulta. Un motor de búsqueda ideal recuperará todos los documentos relevantes (lo que implica una cobertura completa) y sólo aquellos documentos que son relevantes (precisión perfecta). Este modelo tradicional lleva consigo muchas restricciones implícitas; entre ellas, la suposición de que la consulta y el documento están escritos en el mismo idioma. Algunos motores de búsqueda incorporan sistemas de traducción automática, que sólo resultan útiles cuando los documentos ya han sido localizados, pero

73

no facilitan un medio efectivo para salvar la barrera del idioma en el proceso de búsqueda.

Por este motivo, la información a la que facilitan el acceso estos motores de búsqueda queda limitada a la escrita en idiomas en los que el usuario sea capaz de expresar sus consultas. Esto puede suponer un problema más o menos grave según el idioma del que se trate, en general, cualquier usuario de Internet que no pueda formular consultas en inglés con fluidez tendrá dificultades a menudo para realizar sus búsquedas. Incluso para hablantes nativos de inglés, el volumen de datos inaccesible por causa de las barreras idiomáticas crece cada año, si no porcentualmente, si en términos absolutos. En la siguientes tablas se muestra la evolución de la utilización de idiomas en Internet :

Utilización de Internet según el idioma 1999

2001

2003

108.282.662

124.265.453 147.545.824

51%

46%

Usuarios de habla no 79.094.449

104.480.528

143.733.527 198.008.511

inglesa

46%

49%

54%

171. 168.600

212.889.190

268.150.180 345.735.835

Usuarios

de

habla 91.969.151

inglesa

54%

2005

43%

(porcentaje)

57%

(porcentaje) Total en el mundo

Fuente: Computer Economics

Tabla 4.1 Evolución de la utilización de idiomas en Internet

Por los datos reflejados en la Tabla 4.1 se observa el gran crecimiento de usuarios en términos globales que utilizan Internet y por otro lado que en los últimos años el crecimiento de usuarios de habla distinta a la inglesa es mayor que el de usuarios de habla inglesa.

74

En la Tabla 4.2 se muestran la clasificación de los 10 lenguajes más utilizados en la Web: TOP TEN LANGUAGES IN THE INTERNET Internet Penetration Users, by (% Language Population)

Language Estimate for as % of Language Total World Internet Population Users

Inglés

296,439,411

26.8 %

1,107,807,851

31.6 %

Chino

124,014,713

9.3 %

1,329,801,131

13.2 %

Japonés

78,050,000

60.9 %

128,137,485

8.3 %

Español

60,471,125

15.5 %

389,587,559

6.4 %

Alemán

55,129,733

57.3 %

96,141,368

5.9 %

Francés

38,295,745

10.2 %

374,555,140

4.1 %

Coreano

31,600,000

43.3 %

73,044,495

3.4 %

Italiano

28,610,000

48.8 %

58,608,565

3.0 %

Portugués

28,575,400

12.6 %

227,628,673

3.0 %

Holandés

14,655,328

60.5 %

24,224,721

1.6 %

TOP TEN LANGUAGES

755,841,455

19.8 %

3,809,536,987

80.5 %

182,869,474

7.0 %

2,610,565,735

19.5 %

938,710,929

14.6 %

6,420,102,722

100.0 %

Rest

of

Languages WORLD TOTAL

the

Fuente: Computer Economics Tabla 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004

El término acceso multilingüe a la información hace referencia a un concepto más amplio, aunque más adaptado a la realidad de Internet, que el concepto clásico de recuperación de información: ayudar al usuario a buscar información (no ya documentos) procedente de fuentes heterogéneas

75

(textuales o de contenido multimedia) por encima de las barreras idiomáticas. Diversas líneas de investigación abordan los distintos aspectos que se engloban en este concepto incluso dentro del mismo marco del procesamiento del lenguaje natural: recuperación multilingüe de información, recuperación de información multimedia (ya sea sobre video, audio o imágenes digitales), recuperación interactiva de información, sistemas de pregunta y respuesta... etc. En este documento se plantean las dificultades que se plantean para el acceso a información escrita en idiomas desconocidos para el usuario. La recuperación multilingüe de información engloba, a su vez, varios escenarios diferentes: ! Recuperación translingüe de información (también llamada Bilingüe), que estudia la recuperación de documentos escritos en un único idioma diferente del utilizado para expresar la consulta. Un turista buscando información local, por ejemplo, realizará una búsqueda translingüe de su idioma nativo al del país que visita. ! Recuperación multilingüe de información, que estudia la recuperación de documentos escritos en varios idiomas a partir de una consulta expresada en un idioma determinado. Por ejemplo, el caso de un periodista que quiere conocer el enfoque de un cierto tema en variaos idiomas pertenece a este escenario.

En este sentido existen dos problemas que apenas han sido estudiados desde la perspectiva de la recuperación multilingüe: 1. ¿Cómo reconocer la información realmente relevante para nuestra necesidad de información de entre toda la información ofrecida por un motor de búsqueda? 2. ¿Cómo podemos refinar nuestra consulta teniendo en cuenta los resultados obtenidos? La razón de que no se hayan estudiado a fondo es la presunción implícita de que: 1. Los sistemas comerciales de traducción automática pueden ser utilizados para traducir los documentos al idioma nativo del usuario. 76

2. Las tareas de selección documental translingüe y de refinamiento de la consulta pueden ser realizadas empleando estas traducciones.

Sin

embargo,

estas

suposiciones

están

lejos

de

ser

verificadas

experimentalmente, y de hecho hay razones para cuestionarlas. Por un lado, las traducciones automáticas distan mucho de ser perfectas, como se mostrará en los distintos experimentos de BR translingüe del Capítulo 5. Se incluyen como anexos (Anexo I y Anexo II) dos artículos que muestran experimentos de búsqueda de respuestas en modo translingüe.

4.2 RI multilingüe En 1969 Salton planteó por primera vez el problema de encontrar documentos escritos en un idioma diferente al de la consulta y propuso una aproximación consistente en la utilización de un tesauro bilingüe (creado manualmente) entre alemán e inglés [Salton, 1970]. Los resultados obtenidos fueron prácticamente iguales a los realizados con una búsqueda monolingüe, debido a que el tesauro utilizado era manual y la correspondencia entre los términos de indexación entre ambos idiomas era perfecta. Pero no fue hasta 1996 cuando, con la creación de las primeras campañas de evaluación comparada sistemática de este tipo de sistemas, se inicia como un área

de

investigación

propia.

Este

año

se

organizó

un

workshop

específicamente dedicado a la recuperación translingüe de información en el SIGIR. A partir de este evento se organizan con carácter regular las siguientes actividades internacionales: ! Desde 1997 se creó un “track" especial en el marco del TREC para la evaluación de este tipo de sistemas. Inicialmente la evaluación se limitó a un sistema bilingüe (involucrando dos idiomas de entre inglés, francés o italiano) para, posteriormente ser extendida a una evaluación en un entorno totalmente multilingüe. El resultado de los tracks de recuperación de información translingüe del

77

TREC es la primera gran colección para la evaluación de sistemas de recuperación translingüe de información. ! En 1998 se crea el workshop NTCIR14, donde se evalúan sistemas translingües entre el inglés y el chino, japonés o coreano, adoptando muchas de las ideas en las que el TREC fue pionero. ! En el año 2000 el track de recuperación translingüe se separó del TREC creándose el CLEF, donde se realiza el estudio de sistemas translingües de recuperación de información que utilicen idiomas europeos, mientras que en el TREC se mantuvo un pequeño track de recuperación de información translingüe específicamente dedicado a idiomas asiáticos.

En este capítulo vamos a analizar las diversas técnicas que han venido utilizándose para contrarrestar la dificultad del idioma en una búsqueda translingüe de información. Comenzaremos viendo diversas técnicas que son utilizadas para mejorar la recuperación de información monolingüe en idiomas que no presentan las características del inglés.

En el siguiente punto se verán los diferentes enfoques que se han utilizado para traducir las consultas introducidas por el usuario a los diferentes idiomas en los que están escritos los documentos (esta es la aproximación más utilizada, ya que traducir la consulta es mucho más eficiente que traducir los documentos). Estos enfoques dependen, sobre todo, de los recursos que se utilicen (aisladamente o en combinación): diccionarios bilingües, corpora, programas de traducción automática, tesauros... A continuación, veremos los principales enfoques alternativos a la traducción de la consulta: traducción de los documentos, traducción bidireccional e indexación conceptual.

14

Text Collection for IR Systems

78

4.2.1 Aspectos monolingües A lo largo de la investigación en recuperación de información se han aplicado con éxito diversos modelos (como el modelo de espacio vectorial, la Realimentación mediante Pseudo-Relevancia o la Indexación mediante semántica latente) a búsquedas realizadas sobre consultas y documentos escritos en inglés. Al enfrentarnos a idiomas que presentan características distintas al inglés (idiomas más flexivos, idiomas aglutinativos o incluso idiomas que no marcan una separación explícita entre las palabras) es necesario mejorar la búsqueda monolingüe sobre esos idiomas para poder realizar una búsqueda translingüe efectiva. Veamos diferentes técnicas que son utilizadas en el momento de la indexación de los documentos para mejorar las búsquedas:

4.2.1.1 Stemming Una de las técnicas que ha demostrado ser de gran ayuda en la recuperación de información monolingüe es el stemming. Consiste en la obtención de la raíz de las palabras, de forma que el proceso de indexación se lleve a cabo sobre ellas en lugar de sobre las palabras originales. Asumiendo que dos palabras que tengan la misma raíz representan el mismo concepto, esta técnica permite a un sistema de recuperación de información relacionar términos presentes en la consulta y en los documentos que pueden aparecer bajo diferentes variantes morfológicas. Existen diversos stemmers para inglés basados en la eliminación de sufijos derivacionales. También existen stemmers para otros idiomas. Estos algoritmos no llevan a cabo ningún análisis morfológico, sino que se basan en un conjunto sencillo de reglas que truncan las palabras hasta obtener su raíz. Una alternativa es el aprendizaje de las reglas de truncamiento a partir de grandes corpora. Un ejemplo en este sentido es [Bacchin et al., 2002] donde se

79

evalúa SPLIT: un algoritmo de stemming independiente del idioma basado en métodos estadísticos. Analizando un conjunto de palabras, que forman parte del idioma, SPLIT detecta los sufijos y prefijos que las forman y selecciona como raíz de cada palabra el prefijo más probable. Para realizar la evaluación del algoritmo, se aplicó a un conjunto de documentos en italiano y se comparó la precisión de la búsqueda utilizando SPLIT y un stemmer específicamente diseñado para este idioma disponible en la página web de Snowball [Porter,2001]. Los resultados mostraron que la eficiencia de SPLIT era comparable a la del stemmer de italiano.

4.2.1.2 Segmentación de compuestos En los idiomas aglutinativos, como alemán y holandés, se unen palabras para

formar

otras

más

largas.

“wereldbevolkingsconferentie"

está

Por

ejemplo

compuesta

la por

palabra “wereld"

holandesa (mundo),

“bevolking" (población) y “conferentie" (conferencia), y se traduce como “Conferencia sobre la población mundial". Diversos estudios muestran que la descomposición de estas palabras produce un significativo aumento de la eficiencia de las búsquedas en este tipo de idiomas. Una alternativa a la descomposición empleando métodos lingüísticos (que exigen disponer de herramientas adecuadas en precisión, cobertura y eficiencia) es el uso de métodos estadísticos. En [McNamee and Mayeld, 2001] se presenta una aproximación a la recuperación multilingüe de información utilizando recursos independientes del idioma. Los documentos de cada uno de los idiomas son indexados utilizando 6-gramas. Las consultas son traducidas al idioma de los documentos y se realizan dos búsquedas, una empleando los 6-gramas y otra con palabras (sin ningún tipo de procesamiento adicional), cuyos resultados se combinan para ofrecer una única lista de documentos. Los resultados obtenidos fueron los mejores sobre idiomas aglutinativos en el

80

CLEF2000, quedando incluso por delante de otros sistemas que utilizaban algoritmos específicos para descomponer las palabras. Esta estrategia que mezcla ambas indexaciones también ha sido probada con otros idiomas como el árabe [Mayeld et al., 2001], llegando a alcanzar una eficiencia superior al 90% de la búsqueda monolingüe equivalente utilizando 4gramas.

4.2.1.3 Segmentación de palabras En los idiomas asiáticos, como japonés, coreano y chino, los límites de las palabras no se marcan de manera explícita en el texto escrito. Por ello es necesario identificar las palabras individuales para mejorar el proceso de búsqueda. A la hora de indexar los textos escritos en estos idiomas existen dos aproximaciones principales: ! Indexación basada en texto segmentado: que incluye la indexación de palabras y/o de sintagmas. ! Indexación de caracteres: basada en n-gramas. Fundamentalmente se utilizan bigramas, ya que en japonés, chino y coreano, la longitud media de las palabras es de, aproximadamente, dos caracteres al ser, fundamentalmente, idiomas silábicos. Algunos estudios han mostrado que las búsquedas textuales en chino y coreano basadas en la indexación mediante bigramas obtienen resultados comparables (y, en ocasiones, incluso mejores) a las basadas en indexación mediante. En [Ozawa et al., 1999] se argumenta que los bigramas son insuficientes cuando se indexan documentos conteniendo lenguaje técnico, donde la longitud de las palabras es superior a la media. Se comprueba que un método adaptativo de segmentación que produce n-gramas de varias longitudes, supone una mejora substancial con respecto a la utilización de bigramas. A pesar de los resultados anteriores no parece existir un claro consenso acerca de cual de las dos aproximaciones (n-gramas o palabras) es mejor para la

81

indexación de textos en este tipo de idiomas. En muchas ocasiones la combinación de ambas demuestra una clara mejora sobre ambas.

4.2.2 Enfoques basados en la traducción de la consulta A la hora de realizar una búsqueda translingüe de información, nos enfrentamos a la siguiente situación: la consulta y los documentos no están escritos en el mismo idioma. Es, por tanto, necesario realizar una traducción para poder realizar una búsqueda en la que tanto consulta como documentos se encuentren en el mismo idioma. La traducción de la consulta es la opción más frecuente. Por ejemplo los 9 participantes que realizaron experimentos en recuperación translingüe en el TREC-10 emplearon esta técnica [Gey and Oard, 2001]. Esto es debido, principalmente, a que la consulta es sensiblemente más pequeña que los documentos y, por ello, el coste computacional de su traducción es mucho menor [Hull and Grefenstette, 1996]. Los tres problemas principales a los que se enfrenta un sistema de búsqueda translingüe de información al traducir la consulta:

1. Saber cómo un término escrito en un idioma puede ser expresado en otro idioma. 2. Decidir cuales de las posibles traducciones de cada término son las adecuadas en ese contexto. 3. Saber cómo pesar la importancia de las diferentes traducciones que son consideradas adecuadas.

Los dos primeros retos son compartidos por los sistemas de traducción automática. Sin embargo, un sistema de traducción automática debe dar una única traducción para cada término, mientras que un sistema de recuperación translingüe de información puede asignar varios y asignarles distintos pesos.

82

En esta sección veremos diferentes recursos que se utilizan a la hora de traducir las consultas. Estos recursos no son utilizados por separado, cada uno puede aportar información complementaria al problema de la traducción.

4.2.2.1 Diccionarios La utilización de versiones electrónicas de diccionarios bilingües como recurso de traducción palabra por palabra, ha sido ampliamente estudiada en la literatura. Sin embargo su uso directo no resuelve por completo el problema de encontrar las traducciones de los términos, debido a las siguientes razones: ! La cobertura del diccionario puede no ser completa, por lo que algunos términos no son traducidos. Esto sucede frecuentemente con los términos técnicos que no son de uso común. La terminología específica de

un

determinado

dominio

del

conocimiento

no

suele

estar

contemplado en los diccionarios de uso común. ! No contemplan todas las posibles variantes morfológicas de una palabra. Por ejemplo un diccionario puede contener el término “asintótico" pero quizá no contenga “asintóticamente". Este problema puede ser mitigado empleando la técnica de stemming comentada en la sección anterior. ! En ocasiones es necesario traducir los nombres propios de personas (el nombre “Yeltsin" se escribe “Eltsine" en francés) o localizaciones (“Letonia" se escribe “Latvia" en inglés) y estas traducciones pueden no estar contempladas en el diccionario. Este problema se conoce con el nombre de “reconocimiento de entidades". ! Para cada contexto, sólo algunas traducciones son apropiadas. Por ejemplo la palabra inglesa “spring" tiene diversas traducciones en castellano con significados muy distintos entre sí: “muelle", “primavera", “manantial"... La polisemia de las palabras dificulta la traducción y no se cuenta con métodos automáticos que puedan resolverla. ! La traducción errónea de los términos es particularmente perjudicial en los conceptos representados por expresiones multipalabra. Por ejemplo

83

la palabra castellana “banco" se traduce frecuentemente por “bank" en inglés. Sin embargo la expresión ”banco de peces" ha de traducirse por “school of fish". Por todas estas razones la utilización de un diccionario como único recurso de traducción reduce drásticamente la efectividad de las búsquedas translingües. Diversos estudios comprueban que substituyendo cada término por todas las traducciones ofrecidas por el diccionario se reduce la efectividad entre un 40 y un 60% respecto de la misma búsqueda realizada en un contexto monolingüe. Con respecto a la polisemia [Davis, 1997] propone utilizar la categoría gramatical de las palabras de la consulta para elegir entre las posibles traducciones de los términos: por ejemplo la palabra inglesa “object" puede actuar como nombre y ser traducida al castellano como “objeto", “objetivo" o “complemento", mientras que si actúa como verbo puede traducirse por “objetar" u “oponerse". Utilizando un diccionario bilingüe con información sobre la categoría gramatical para traducir las consultas, Davis comprobó que esta estrategia incrementaba en un 37% la precisión con respecto a la estrategia de sustituir cada término por todas las traducciones ofrecidas por el diccionario. [Pirkola, 1998] estudia los efectos de diferentes factores: ! Tipo de consulta: comparó consultas en lenguaje natural con consultas formadas únicamente por las palabras y sintagmas más relevantes de la consulta. La precisión de las búsquedas fue mayor con las consultas expresadas en lenguaje natural. ! Proceso de traducción: utilizó dos diccionarios bilingües para realizar la traducción: uno de propósito general y otro con información específica sobre el dominio de la medicina y la salud. Probó varias formas de combinar estos diccionarios, comprobando que la que mejores resultados daba era la de utilizar las suma de todas las traducciones proporcionadas

por

ambos

diccionarios

(eliminando

traducciones

duplicadas). ! Estructura de la consulta tras la traducción: comparó la utilización de consultas sin ningún tipo de estructura (una simple lista de todas las traducciones) con el uso de consultas estructuradas mediante los operadores proporcionados por el motor de búsqueda Inquery [Callan et al., 1992]. Las traducciones provenientes de un mismo término se 84

agruparon mediante un operador de sinonimia y los términos multipalabra se identificaron con un operador de proximidad.

La estructuración de la consulta resultó ser el factor que incrementó en mayor medida la precisión de las búsquedas, superando en algunos casos el 50% de incremento. Otras

tendencias,

proponen

la

utilización

de

un

diccionario

bilingüe

estructurado en el que las traducciones de cada término se encuentran agrupadas en conjuntos con un significado claramente similar. No existen muchos diccionarios bilingües que presenten esta estructura, por lo que los autores desarrollan, además, un método que permite dotar de esta estructura a cualquier diccionario bilingüe empleando criterios lingüísticos (similaridad entre las palabras según WordNet), morfológicos (agrupar las palabras que comparten la misma raíz) y ortográficos (agrupar las palabras que se diferencien en un único carácter). Compararon la estructuración de la consulta propuesta por [Pirkola, 1998] con otras alternativas, empleando para ello diferentes operadores del lenguaje de consulta de Inquery y los conjuntos de traducciones agrupadas. Los resultados mostraron que la traducción de las consultas con la estructuración propuesta por Pirkola obtenía una mayor precisión que la traducción utilizando los diccionarios estructurados. Otro método, es el que propone utilizar dos idiomas pivote para realizar la traducción cuando no se dispone de un diccionario directo. Los resultados demuestran que utilizar un idioma pivote para traducir entre dos idiomas provoca una mayor pérdida de eficiencia que la utilización de un diccionario directo. Otro enfoque, es la realización de una selección de las traducciones empleando las traducciones inversas: sólo aquellas traducciones que pueden volver a traducirse al término de partida son seleccionadas. Los resultados muestran que esta simple estrategia puede ser más efectiva que otras más complejas como la desambiguación de traducciones empleando corpora paralelo.

85

4.2.2.2 Programas de traducción automática Otro recurso ampliamente utilizado para la traducción son los programas comerciales de traducción automática, siempre que exista uno disponible para el par de idiomas considerados. En la octava edición del TREC, al menos la mitad de los grupos participantes emplearon el sistema de traducción automática Systran de alguna forma en sus experimentos. Sin embargo otros métodos basados en la combinación de corpus y diccionarios obtuvieron mejores resultados. Los experimentos acerca de la efectividad de estos programas a la hora de traducir la consulta no aportaron datos concluyentes. Se extrajeron las suientes conclusiones: o La efectividad puede depender de la longitud de las consultas: para consultas cortas (entre 1 y 3 términos) no parece haber diferencia entre esta aproximación y la utilización de diccionarios para la traducción. Para consultas largas (formadas por varias frases)

se aprecia

diferencia. o Para las consultas basadas en frases, la traducción mediante Systran da mejores resultados en las búsquedas que otros métodos de traducción basados en diccionarios o corpus.

Esto es debido a que los sistemas de traducción automática hacen uso de la estructura sintáctica del texto. Si las consultas están formadas por frases, los sistemas de traducción consiguen una traducción mejor que si la consulta está formada por términos independientes sin estructura. Aparte de este problema, el uso de sistemas de traducción automática depende de la existencia de un traductor entre los idiomas considerados. La creación de estos traductores es costosa, y por eso sólo existen para los pares de idiomas más demandados por el mercado. Algunos participantes utilizaron un sistema comercial para la traducción de consultas en francés, alemán, italiano, castellano, chino y japonés al inglés. Vieron que las diferencias entre la búsqueda monolingüe y las translingües

86

dependían bastante del idioma de partida oscilando entre un 2.3% de pérdida en el caso del francés y un 29.5% para el chino. Se realizó una comparación sistemática de tres tipos de recursos para la traducción de las consultas en una búsqueda translingüe: diccionarios, corpora paralelo (obtenido de la web utilizando el sistema PTMiner) y traducción automática (utilizando Babelfish15). Los resultados mostraron que los tres métodos alcanzaron, al menos, el 90% de la eficiencia de una búsqueda monolingüe. Además encontraron que la diferencia de eficiencia dependía bastante del par de idiomas considerados.

4.2.2.3 Tesauros Un tesauro está formado por la colección de términos o palabras clave que se utilizan para realizar la indexación de los documentos (ya sea ésta manual o automática), así como las relaciones semánticas que los unen. La utilización de tesauros en el campo de la recuperación de información se centra en el enriquecimiento de la consulta con términos relacionados que aparecen realmente en los documentos, aunque hay otros muchos aspectos en los que pueden ser utilizados [Soergel, 1997]: ! Proporcionan un vocabulario controlado para expresar las consultas, por lo que se elimina el problema del desconocimiento por parte del usuario de los términos que aparecen realmente en los documentos. ! Permiten dar una mejor estructuración a los resultados. Por ejemplo la construcción de un resumen temático estructurado del documento, describiendo los temas principales del mismo así como los diferentes subtemas tratados, empleando para ello conjuntos de términos semánticamente relacionados. ! Su estructuración jerárquica hacen posible su utilización en un entorno de búsqueda interactivo. Los usuarios pueden identificar los diferentes conceptos navegando por la jerarquía y, de esta forma, precisar su búsqueda.

15

http://babelfish.altavista.com

87

! Un tesauro multilingüe sobre un dominio determinado permite la traducción de términos específicos de ese dominio que quizá no puedan encontrarse en un diccionario bilingüe. Un ejemplo de tesauro multilingüe sobre el dominio médico es el metatesauro de UMLS 16.

Los tesauros construidos para la indexación manual de los documentos describen un idioma artificial (basado en uno real) sobre un dominio específico, incluyendo información adicional con anotaciones para los indexadores sobre los términos que lo componen. Estos tesauros no resultan apropiados para ser utilizados en un entorno automático de indexación, al carecer de la información necesaria que aporta el sentido común de las personas que realizan la indexación manual. Los tesauros multilingües fueron el primer tipo de recursos específicamente diseñados para la recuperación de información translingüe. Los requisitos que han de tenerse en cuenta a la hora de desarrollar estos tesauros para el procesado automático de documentos textuales pueden ser: ! Describir de forma precisa las diferentes variantes de un mismo concepto en diferentes idiomas. Algunos conceptos se describen con una palabra en un idioma, mientras que en otros son necesarias varias (por ejemplo la palabra rusa “dissident" es equivalente a “political “dissident" en inglés). ! Describir extensos conjuntos de sinónimos para cada concepto analizado en cada uno de los idiomas considerados. ! Detallar la mayor cantidad posible de términos multipalabra que definan un concepto determinado. De esta forma se podrían utilizar como base para realizar una desambiguación léxica.

Otro tipo de tesauros son los llamados “tesauros de similaridad", construidos de forma automática a partir del vocabulario de la colección a indexar. De esta manera se identifica conocimiento específico del dominio de la colección, basándose en las similitudes de los términos que la componen. La

16

Unified Medical Language System

88

utilización de estos tesauros para realizar expansiones de la consulta puede suponer una mejora sustancial en la eficiencia de las búsquedas monolingües. Esta técnica, por tanto, basa su funcionamiento en el análisis del corpus que forman los documentos.

La utilización de tesauros en la recuperación de información translingüe queda supeditada a disponer de un tesauro multilingüe que cubra el dominio de las colecciones documentales que van a ser utilizadas. En el caso de los tesauros de similitud es necesario disponer de corpora paralelo (o comparable) para poder construir uno multilingüe.

4.2.3 Otros enfoques: Traducción bidireccional La traducción de los documentos al idioma de la consulta y la traducción de la consulta al idioma (o idiomas) de los documentos, representan dos enfoques opuestos de combinar las técnicas de recuperación de información con las de traducción automática. Según [McCarley, 1999] estos dos enfoques no tienen por qué ser mutuamente exclusivos. Para comprobarlo realizaron dos experimentos de recuperación translingüe entre francés e inglés (uno en cada sentido). Se compararon los resultados obtenidos con la traducción de las consultas, la traducción de los documentos y un sistema híbrido que combinó los resultados producidos por ambas aproximaciones de la siguiente forma: la relevancia de un documento es la media de la relevancia obtenida con la traducción de la consulta y la relevancia obtenida con la traducción de los documentos (previa normalización de ambas). Se observó lo siguiente: ! Las búsquedas que involucraban una traducción en el sentido francésinglés obtuvieron mejores resultados con independencia de si se realizaba la traducción de los documentos o la de las consultas. Esto nos indica que aunque la traducción de los documentos presente

89

ventajas teóricas, éstas van a depender de la calidad de la traducción entre el par de idiomas considerados. ! Los resultados del sistema híbrido fueron superiores a los de las dos aproximaciones individuales, no influyendo el sentido en el que se realizan las traducciones.

4.3 Arquitectura del sistema INAOE multilingüe El interés de un sistema de búsqueda en la Web es encontrar las respuestas en una gran colección de documentos. Debido a que no existe sólo un lenguaje en la Web, los sistemas de BR multilingüe, son de gran relevancia. Un sistema de BR multilingüe, es aquel sistema donde el lenguaje de la pregunta es diferente al lenguaje del documento en el que se encuentra la respuesta. En la actualidad los trabajos desarrollados en este contexto, usan diferentes recursos lingüísticos, como etiquetadores POS, extracción de entidades, relaciones semánticas, analizadores sintácticos, diccionarios, etc.; para, de este modo, entender la pregunta y las secciones concordantes en los documentos. Esta propuesta se basa en un sistema prototipo de búsqueda de respuestas monolingüe para la Web, desarrollado en el laboratorio de Tecnologías del Lenguaje de la Coordinación de Ciencias Computacionales del INAOE [Castillo et al., 2004]. Este sistema únicamente procesa preguntas formuladas en español, y la búsqueda se realiza en documentos en español. El sistema sólo se fundamenta en la redundancia de información en la Web [Brill et al., 2001]. La idea básica es adecuar este prototipo, para poder realizar búsquedas multilingües. La arquitectura del sistema sería muy parecida a la del sistema INAOE original, pero a diferencia de este, se introduce un módulo de traducción. Ésta consiste en cuatro módulos principales: 1. Traducción de las preguntas 2. Búsqueda en la Web

90

3. Cálculo de respuestas candidatas 4. Selección de la respuesta correcta.

Preg unta s fac tuales

Tra d uc c ió n

Traduc c ión

Reform ula c ión

Busc a do r

Sistem a de BR Rec olec c ion Snippets

Calc ulo de respuestas

Web

resp uestas c and id ata s

Figura 4.1 Esquema de un sistema de BR translingüe

4.4 Tareas translingües En el punto de experimentación (Capítulo 5) se presentan los resultados de los experimentos realizados. Estos, en cuanto a la tarea translingüe (no multilingüe), se pueden describir brevemente mediante los siguientes pasos: 1. Adaptación del sistema a la búsqueda translingüe . 2. Se traducen las preguntas al idioma sobre el que queremos realizar búsquedas. 3. Se lanza el sistema y se recuperan los snippets. 4. Cálculo de respuestas.

91

Los idiomas empleados para tales experimentos serán el valenciano, el castellano y el inglés. Aunque el presente trabajo se centra en los idiomas castellano y valenciano, se mencionan otros resultados experimentales obtenidos con preguntas en inglés.

Se incluyen como anexos (Anexo I y Anexo II), los artículos publicados en diferentes foros de investigación referentes a tareas translingües realizadas durante la fase de experimentación del trabajo que aquí se presenta.

Veremos la influencia que tiene la presencia de estos idiomas en la web para encontrar respuestas. Otra conclusión sobre la que podremos indagar será el error derivado que puede introducir un traductor para obtener una respuesta correcta.

92

93

Capítulo 5. Experimentos Multilingües

El principal objetivo es demostrar que el sistema INAOE es funcional, obteniendo respuestas con mínimos recursos lingüísticos. Además,

se

pretenden conseguir distintas implementaciones del sistema en distintos idiomas para demostrar que la presencia de un idioma en Web es importante a la hora de encontrar respuestas. Se realizarán varias tareas translingües con el castellano y valenciano, comentando los resultados obtenidos. Durante el proceso de experimentación para los idiomas valenciano-castellano surgió la necesidad de incluir otra prueba con el idioma inglés.

Se incluyen como

Anexos (Anexo I y Anexo II) los artículos publicados durante la realización del PFC, y que presentan experimentos de BR translingües.

5.1 Introducción En los apartados 2 y 3 de este capítulo se expondrán los resultados de los experimentos realizados con el sistema INAOE de BR en la web (con las características ya detalladas en el Capítulo 3) y poniendo en funcionamiento el mismo con las preguntas del CLEF 2003 y 2005. Esto nos facilitará la comparación con los sistemas participantes (sólo para el CLEF 2005). Estas pruebas nos conducirán a demostrar la viabilidad de este tipo de sistemas que se basan en de la redundancia web. Además se demostrará que dependiendo de la presencia en este medio de un determinado idioma, se obtendrán mejores o peores resultados. La cantidad de documentos de un idioma hará que la redundancia sea mayor. Sobre esta premisa se apoyan los experimentos realizados con el sistema INAOE. La principal novedad introducida en este texto es la consecución de sistemas derivados preparados para funcionar en valenciano y en inglés a partir del sistema de BR INAOE original. Esta adaptación a otros idiomas y la comparación de resultados entre idiomas con las mismas preguntas y entre los resultados obtenidos por el sistema y otros sistemas en el CLEF será otro punto de resultados a analizar.

94

En los experimentos realizados con el sistema INAOE y sus adaptaciones (5.2 y 5.3) se recolectarán 50 snippets por petición lanzada (cada pregunta puede devolver cientos de resultados, se tomarán los 50 primeros), para cada reformulación y pregunta. Para el ranking de las posibles respuestas se

ejecutará

el

programa

Extract_Pesado_Compensado.pl

para

cada

reformulación y pregunta. La tarea final será la de lanzar el programa Extrae_Respuesta. En la evaluación de resultados, tomaremos en cuenta que la respuesta esté entre las 5 con coeficiente más alto.

Los resultados se presentan con el cálculo de tres medidas distintas: el número de respuestas correctas, la precisión y el MMR (Mean Reciprocal Rank). La precisión es el número de respuestas correctas en porcentaje. El MMR se calcula con la siguiente formula:

n

MRR =

∑r i =1

i

n

Donde n es el número total de preguntas y ri es el recíproco del rango de la primera respuesta correcta en el conjunto ordenado de repuestas candidatas para la pregunta i.

5.2 Corpus del CLEF 2003 En el CLEF 2003, se sigue con línea de investigación de años anteriores, introduciendo algunas novedades y dificultades adicionales al proceso de búsqueda.

Solo admitiremos respuestas correctas o incorrectas, por lo que eliminaremos las cuestiones que en el CLEF se introdujeron y debían obtener como respuestas nulo. Lo hacemos por facilitar el trabajo, en cuanto a que deberíamos buscar estas respuestas no proporcionadas por los organizadores

95

del CLEF para poder lanzar el sistema con las 200 preguntas iniciales, un trabajo adicional que no se estimó necesario al tener un corpus de preguntas y respuestas suficiente de 180. En los comentarios que se hacen a cada tabla de resultados, se utilizará la siguiente notación para referirnos a las reformulaciones:

Bolsa de palabras: ANDS Componentes: CONS Componentes sin la 1ª palabra: CONS1 Componentes sin la 1ª y 2ª palabra: CONS2 Movimiento del verbo: VERBO

5.2.1 Tarea monolingüe Castellano-Castellano En esta tarea monolingüe se lanza el sistema sobre el corpus CLEF2003 para la recolección de snippes en castellano. Las preguntas también están en castellano. A continuación se presentan los resultados obtenidos. Los clasificaremos por reformulación.

ANDS

CONS

CONS1

CONS2

VERB

Correctas

71

21

43

57

58

Precisión

39.45%

11.67%

23.89%

31.67%

32.22%

MMR

0.27

0.0935

0.1883

0.2261

0.2187

Tabla 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF 2003

96

5.2.1.1 Discusión sobre los resultados Los mejores resultados se han obtenido con la reformulación ANDS con un porcentaje de respuestas correctas de un 39.45% y un MMR de 0.27. Las reformulaciones CONS2 y los VERB obtienen unos resultados casi idénticos con un porcentaje del 31.67% y un 32.22%. Es interesante mencionar que de las 180 preguntas que componen nuestro corpus, 91 obtuvieron respuesta en una o varias reformulaciones. Por lo tanto el porcentaje final de obtención de respuestas del sistema será del 50.55%.

5.2.2 Tarea translingüe Castellano-Valenciano Se traducen las preguntas al valenciano utilizando el traductor de valenciano SALT17 y se lanza el sistema. El sistema ha sido adaptado para la ejecución de búsquedas con las preguntas en valenciano. Aclarar antes de nada, que la búsqueda en Google se realiza en toda la web (no se selecciona ningún idioma). Esto es necesario mencionarlo porque el valenciano y el castellano tienen muchas palabras en común, por tanto, habrá ocasiones en las que haya snippets coincidentes.

ANDS

CONS

CONS1

CONS2

VERB

Correctas

15

8

20

31

33

Precisión

8.33%

4.44%

11.11%

17.22%

18.33%

MMR

0.0564

0.0368

0.0762

0.1112

0.1342

Tabla 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF 2003

17

http://www.cult.gva.es/salt/

97

5.2.2.1 Discusión sobre los resultados En

este

experimento,

todas

las

reformulaciones

reducen

sus

porcentajes. A primera vista, este resultado sería lógico, en cuanto a que se reduce la obtención de respuestas con la utilización del lenguaje valenciano con respecto al castellano. Era de esperar, ya que es menor la presencia del valenciano en la Web, y por tanto habrá menos redundancia. Decir también, que en los resultados obtenidos, todas las respuestas correctas se deben a la descarga de snippets en castellano, debido a la similitud de muchas palabras entre ambos idiomas. Llama la atención el descenso de rendimiento de la reformulación ANDS. Todas las reformulaciones se ven penalizadas por la utilización del valenciano en la búsqueda. Las preguntas que obtienen respuestas, son aquellas que más semejanza guardan con el castellano y que obtuvieron respuesta en el experimento con preguntas en castellano. Entre el 90-95% de los snippets descargados son en idioma castellano, el resto en valenciano. El sistema devolvió en tres casos la respuesta en valenciano, y en los tres casos erró.

En cuanto al número total de preguntas con respuesta encontrada en alguna reformulación, es de 39. El porcentaje se queda en el 21.66%.

5.2.3 Tarea monolingüe Valenciano-Valenciano En este caso, las preguntas no se han traducido con el traductor SALT, sino que se traducen por una persona de habla valenciana. Con esta variación, se quiere eliminar los posibles fallos en la traducción automática.

98

ANDS

CONS

CONS1

CONS2

VERB

Correctas

17

8

19

29

30

Precisión

9.44%

4.44%

10.55%

16.11%

16.66%

MMR

0.056

0.0342

0.0642

0.1091

0.1217

Tabla 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF 2003

5.2.3.1 Discusión sobre los resultados Los resultados obtenidos son casi idénticos al caso de castellanovalenciano utilizando traductor. La conclusión que sacamos tras el examen de los snippets y respuestas devueltas en los casos de búsqueda en valenciano, es que las respuestas encontradas se deben a la redundancia del castellano, o dicho de otra manera, no existe suficiente redundancia del valenciano para producir respuestas a partir de los snippets descargados, que como ya dijimos en el punto anterior son en castellano. Con respecto a la tarea translingüe y el traductor, podemos decir que no ha introducido grandes errores en la traducción, que hayan llevado a un descenso en los porcentajes. De todas maneras, visto que los resultados se deben a la redundancia del castellano a partir de preguntas en valenciano con similitud entre muchas palabras, es difícil precisar la bondad del traductor.

Sobre el dato total de preguntas que encuentran respuesta en alguna reformulación, obtenemos 40 preguntas sobre el total de 180, o lo que es lo mismo un 22.22%

99

5.2.4 Tarea translingüe Valenciano-Castellano Se traduce con el SALT las preguntas del valenciano del punto 5.2.3 al castellano , se lanza el sistema de BR y se obtienen los siguientes resultados:

ANDS

CONS

CONS1

CONS2

VERB

Correctas

53

6

15

30

28

Precisión

29.44%

3.33%

8.33%

16.67%

15.55%

MMR

0.2074

0.014

0.0655

0.1286

0.102

Tabla 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF 2003

5.2.4.1 Discusión sobre los resultados En este apartado, el proceso translingüe nos muestra una perdida de efectividad en los resultados con las preguntas obtenidas como resultado de la traducción al castellano con el SALT. Una de las causas podría ser debido al SALT. También podría deberse a que al provenir las preguntas de origen del valenciano de una persona y no de un traductor automático, este haya hecho la traducción de forma coloquial, perdiendo rigurosidad en la traducción. En resumen, después de haber traducido manualmente las preguntas originales en castellano al valenciano, y haciendo automáticamente el proceso inverso con estas preguntas obtenidas, al lanzar el sistema de BR se obtienen pérdidas de efectividad del sistema en todas las reformulaciones del orden de entre el 4070%.

El proceso de traducción penaliza el funcionamiento del sistema. Hacen falta herramientas adecuadas para habilitar el uso de sistemas de BR

100

translingües con resultados factibles. En el Capítulo 4 se vieron algunas de estas herramientas o subsistemas. Con respecto al uso de traductores en el proceso de BR, también se hicieron pruebas experimentales con una serie de preguntas en ingles, y las mismas obtenidas desde el idioma origen árabe a través de un traductor árabeinglés. Los resultados que en este anexo se muestran, prueban la perdida de prestaciones del sistema en su conjunto. Los resultados se muestran en el Anexo II.

A continuación analizaremos los experimentos llevados a cabo con el corpus del CELF 2003 para extraer unas primeras conclusiones. Los mejores resultados se obtienen para el castellano y con la reformulación “Bolsa de palabras”. Como primera conclusión podríamos decir que una pregunta cuya búsqueda se realiza en castellano (de origen o con el traductor) obtiene mejores resultados que una pregunta lanzada en valenciano (de origen o traductor). Por tanto, la redundancia de la web, mayor para el castellano que para el valenciano, se traduce en mejores resultados para búsqueda de respuestas. Es necesario aquí mencionar la ganancia que obtendría un usuario que no hablara castellano y que utilizara el sistema lanzando una petición en su idioma original (valenciano), obteniendo la respuesta a través del sistema realizando la búsqueda en castellano. También se podría traducir la respuesta al idioma original de la petición. Sería necesario desarrollar una interfaz de aplicación y preparar el sistema para la ejecución por parte de usuarios no especializados.

5.3 Clasificación de resultados atendiendo a la tipología de la pregunta Durante la evaluación del sistema, se observó que ciertos tipos de pregunta obtenían mejores resultados. Los tipos de preguntas que se comparan son “Qué”, “Cómo”, “Dónde”,”Cuándo”, “Cuántos”

y “Cuál”. Se

engloban dentro de cada tipo las variantes de género y número.

101

El análisis se realizó para las preguntas del CLEF 2003 en castellano. Es importante mencionar que las preguntas cortas nos llevaron a mejores resultados. Las preguntas que obtuvieron peores resultados fueron las que la respuesta esperada era del tipo numérico o fecha, las del tipo cuántos y cuando. Las preguntas del tipo “¿Cuál es la capital…?” obtuvieron los mejores resultados, encontrando las tres preguntas introducida en el CLEF 2003 respuesta. En general, las preguntas “Cuál” y “Cómo” obtuvieron los mejores porcentajes. En la tabla que se muestra a continuación se comparan los tipos de preguntas y sus porcentajes de respuestas obtenidos para el CLEF 2003.

Cual/ Cuales

Qué

Donde

Cuando

Cuanto/s Cuanta/s

Quién

Por qué

Cómo

Correctas

10

4

3

2

0

10

0

2

Total

13

15

8

6

15

17

1

4

Precisión

77%

27%

37%

33%

0%

59%

0%

50%

Tabla 5.5 Porcentaje de resultados según tipos de preguntas del CLEF 2003.

En la tabla no se incluye las 21 preguntas sobre las 100 del CLEF que no utilizan las partículas interrogativas cual, que, donde, cuanto, quien, por qué, y cómo. El mejor porcentaje se obtuvo con las preguntas del tipo cual, seguido por las del tipo quién y cómo. El sistema, en su conjunto, sufrió una penalización por las preguntas del tipo cuanto, ya que en los resultados examinados sobre un total de 100 preguntas de las cuales 15 eran de este tipo, no se consiguió respuesta válida alguna. Por lo tanto, hay que mejorar los resultados de los sistemas de BR. Es necesario mejorar los resultados, sobre todo para los tipos de preguntas en los que se obtienen peores resultados.

102

En el Capítulo 6, se presenta un sistema de RP para la BR. Se mostrarán los resultados obtenidos en una serie de casos de estudio, para ver si podemos obtener mejores resultados con los tipos de preguntas con peores porcentajes mostrados en los experimentos anteriores.

5.4 El corpus del CLEF 2005 En el CLEF 2005, se sigue con línea de investigación de años anteriores, introduciendo algunas novedades y dificultades adicionales al proceso de búsqueda. Lógicamente, en cada CLEF se introducen nuevos retos. En el CLEF2005 se introdujeron una serie de cambios en cuanto a la complejidad de la pregunta y a la respuesta requerida. Por ejemplo, en el CLEF2003 se tomaba como buena una respuesta que estuviera entre las tres primeras de las devueltas. Por contrario, en el CLEF2005, sólo se admite la primera. En nuestros experimentos hemos tomado como buena hasta la quinta, aunque bien es verdad que en la mayoría de los casos la respuesta se devolvía en primer o segundo lugar.

En este caso, tenemos un corpus de 200 preguntas de las cuales 18 no tenían respuesta en el contexto del CLEF. Por tanto, eliminamos estas 18 sin respuesta y obtuvimos los siguientes resultados:

ANDS

CONS

CONS1

CONS2

VERB

Correctas

49

6

29

35

39

Precisión

26.92%

3.29%

15.83%

19.23%

21.42%

MMR

0.179

0.0258

0.1065

0.12

0.1201

Tabla 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF 2005

103

Resultado de combinar reformulaciones. De las 182 preguntas efectuadas, 58 obtuvieron respuesta correcta al menos en un tipo de reformulación, o sea un porcentaje de 31.86%.

A la vista de los resultados obtenidos, al igual que en los experimentos con el CLEF 2003, la reformulación ANDS es la que obtiene mejores resultados.

5.4.1 Comparativa entre el sistema UPV y el sistema INAOE en el CLEF 2005 En la Tabla 5.6 se muestra la comparativa entre los resultados obtenidos por el sistema INAOE y los resultados obtenidos por el sistema que representaba a la UPV (sistema QUASAR) en el CLEF de ese año que se describirá brevemente en el Capítulo 6:

UPV ANDS

Precisión

26.92%

CONS

3.29%

CONS1

15.83%

CONS2

19.23%

VERB

(1ª-5ª resp)

21.42%

33.518

Tabla 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta

ANDS

Precisión

11.53%

CONS

2.19%

CONS1

7.14%

CONS2

7.14%

VERB

UPV (1ª resp)

7.14%

33.5

Tabla 5.8 Comparación con los resultados de la UPV con la 1ª respuesta

18

Los resultados del CLEF2005 no recogen porcentajes de devolución de respuesta entre las cinco primeras. Por tanto, en la casilla de la Tabla5.7 de resultado global, tomamos como dato el obtenido en la evaluación del sistema de la Tabla 5.8 de resultados obtenidos en devolución por primera respuesta.

104

En las Tablas 5.6 y 5.7 se han comparado los resultados obtenidos en nuestros experimentos con las distintas reformulaciones (columnas ANDS, CONS, CONS1,CONS2 y VERB) y los obtenidos por el sistema QUASAR implementado en la UPV para el CLEF2005 (columna UPV). Fusionando los resultados de todas las reformulaciones se obtiene un 31.86% de respuestas. Los resultados obtenidos por el QUASAR [Gomez et al., 2005] fueron de un 33.5%. Estos resultados tienen mucho más valor al tratarse como respuestas correctas las devueltas en primer lugar. Es probable que los mejores resultados obtenidos por el QUASAR se deban principalmente al módulo del sistema de recuperación de pasajes que, al igual que los mejores sistemas de BR en la tarea monolingüe del castellano en el CLEF 2005 (véase Tabla 5.8) están basados en el sistema de BP JIRS que se describirá en el Capítulo 6. Spanish ----------------------------------> Spanish inao051eses tova051eses upv051eses alia051eses

42.00% 41.00% 33.50% 33.00%

Tabla 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005

La Tabla 5.9 muestra también recoge los resultados del sistema TOVA. Este es un sistema INAOE-UPV basado en la integración de los dos. Los detalles del sistema se detallan en [Montes et al., 2006].

Conclusión preliminar después de los experimentos. Con un módulo de recuperación de pasajes como JIRS, se deberían obtener mejores resultados en la tarea monolingüe del valenciano. Esta conclusión nos sitúa en la necesidad de estudiar las prestaciones del JIRS.

105

106

Capítulo 6. El componente de búsqueda de pasajes Los sistemas más recientes de búsqueda de respuestas están normalmente implementados sobre sistemas de recuperación de pasajes. El primer sistema de Recuperación de Pasajes (RP) que aquí se presenta (JIRS) se basa en la suposición de que las palabras que forman la pregunta también lo harán en la respuesta. Esta es la misma suposición que utiliza el sistema de búsqueda de respuestas implementado por el INAOE y ya analizado en el Capítulo 3 de este documento. El segundo (sistema QUASAR) se basa en la redundancia y en RP, suponiendo que en una cantidad suficiente de documentos encontraremos la respuesta buscada en diferentes formas. En el primer sistema que presentamos en este capítulo se utiliza el concepto de n-gramas para la búsqueda de los pasajes como posibles respuestas. Veremos los módulos del sistema que utilizan este modelo. Antes de esto se definirá propiamente el JIRS. Los buenos resultados obtenidos en el CLEF 2005, en sistemas de recuperación de pasajes orientados a búsqueda de respuestas, fueron determinantes para incluirlo en este trabajo. Se realizarán experimentos simples para comprobar si se obtienen mejores resultados que los obtenidos anteriormente, sobre todo en los tipos de cuestiones en los que se obtuvieron peores porcentajes.

6.1 Introducción Una línea de investigación dentro de la recuperación de información (RI) son los llamados sistemas de Recuperación de Pasajes (RP). Estos sistemas miden la relevancia de un documento con respecto a una pregunta en función de fragmentos contiguos de texto. Estos fragmentos de texto son los llamados pasajes. De esta forma, se facilita la detección de extractos que pueden ser relevantes para el usuario y que en el supuesto de estar presentes en documento grandes no serían localizados y catalogados como relevantes porque la aportación total de relevancia del documento donde aparecen.

107

Estos sistemas resultan computacionalmente más costosos que los sistemas de RI tradicionales, pero los resultados obtenidos justifican esta mayor complejidad. En este capítulo presentamos dos sistemas implementados en la UPV, el sistema JIRS y el sistema QUASAR, definiendo en cada caso su arquitectura y mostrando los conceptos en los que se apoyan.

Los sistemas de BR, se pueden dividir en los siguientes componentes: análisis de la pregunta, recuperación de documentos relevantes, extracción de pasajes relevantes y extracción de respuestas. Para poder extraer la respuesta correctamente, es muy importante trabajar sobre un conjunto de fragmentos de texto lo más reducido posible que incluyan la respuesta. Debido a esto, las últimas implementaciones de sistemas BR están basados directamente en sistemas de RP en lugar de sistemas de RI. El componente de RP tiene una importancia vital porque reduce la colección original de documentos a un conjunto de pasajes en los cuales la respuesta debe ser buscada. Por lo tanto, si el componente RP no es capaz de recuperar pasajes relevantes, el proceso fallará y no se encontrará respuesta alguna. Llegados a este punto, debemos subraya una diferencia importante entre la RI tradicional y los sistemas RP orientados a BR. En el primer caso, la etapa de recuperación de documentos tiene el mayor coste computacional. Mientras que en el segundo caso, la clave y el mayor esfuerzo se realiza en la etapa de recuperación de los segmentos de texto (pasajes) que deben contener la respuesta.

Métodos para medir la relevancia Existen diferentes métodos para determinar la similitud entre el pasaje del espacio de búsqueda y la pregunta efectuada.

Los métodos más representativos se caracterizan por lo siguiente: 1) La relevancia depende del acople pasaje con la pregunta. 2) La relevancia depende de la densidad de los términos de la pregunta en el pasaje.

108

La comparación de resultados obtenidos por sistemas de RP usados en el TREC hecho por [Tellex S.,2003] demuestran que los mejores sistemas de RP están basados en densidad de términos presentes en el pasaje.

6.2 El sistema de búsqueda de pasajes JIRS En los siguientes apartados se describirá el sistema de BP JIRS y su arquitectura. Esta información ha sido consultada en los trabajos de [Gómez et al., 2005].

6.2.1 Definición de JIRS El Sistema de Recuperación de Información basado en JAVA (JIRS), es un sistema de RP orientado a BR que utiliza el método de densidad para el cálculo de la similitud entre el pasaje y la pregunta. JIRS busca similitud entre el pasaje y la pregunta. JIRS busca estructuras que contienen términos de la pregunta para así extraer los pasajes que son más relevantes en función de la densidad de términos con respecto a la pregunta.

JIRS se basa en la misma hipótesis de partida que el sistema BR INAOE: “Los términos que componen la pregunta, formarán parte o estarán cerca de la respuesta” JIRS utiliza el concepto de n-grama durante el proceso.

Una sola palabra

coincidente en pregunta y respuesta es un 1-grama. Dos palabras de la pregunta que aparecen en pregunta y respuesta consecutivas forman un bigrama. Y así sucesivamente. En este sentido esta es otra similitud en cuanto al procedimiento de operación del sistema JIRS con respecto al sistema INAOE.

Para evaluar la importancia de cada n-grama, se desarrollaron tres modelos. Cada modelo se usa para obtener el peso del n-grama a partir del

109

número de palabras que lo componen, el peso de los palabras y la distribución de los distintos n-gramas en el pasaje. Otra característica importante de JIRS es su independencia del idioma. Se puede adaptar fácilmente para la RP orientado a BR en otros idiomas. De hecho, en este capítulo se dedica una parte a la explicación de cómo adaptar JIRS a otro idioma (valenciano) y se realizan algunos experimentos sobre un corpus en este idioma.

6.2.2 Arquitectura del sistema JIRS JIRS es un sistema de IR que se adaptó específicamente para recoger pasajes. El resultado es un sistema RP que se basa en buscar estructuras de la pregunta en lugar de buscar palabras clave. JIRS es capaz de encontrar estructuras de la pregunta en una colección de documentos rápida y eficientemente utilizando diferentes modelos basados todos ellos en n-gramas. JIRS utiliza un sistema de RP tradicional como primer paso y entonces busca todos los posibles n-gramas de la pregunta entre los pasajes recuperados. Con estos pasajes realiza la clasificación dependiendo del número y el peso de los n-gramas aparecidos en estos pasajes. La pregunta del usuario, finalmente, es pasada a un motor de búsqueda que devuelve una lista de sus pasajes con las palabras a las que se les ha asignado un valor según su peso. La estructura del sistema JIRS se muestra en la figura siguiente:

110

Figura 6.1 Arquitectura JIRS

Por otra parte, mencionar que las estructuras de n-gramas de la pregunta, sin la partícula interrogativa, son extraídos por el módulo de extracción de n-gramas.

En el siguiente ejemplo, se muestra el proceso de extracción de los n-gramas de la pregunta. Utilizaremos para el ejemplo la siguiente pregunta: “¿Cuál es la capital de España?”

¿Cuál es la capital de España? 1 5-grama es la capital de la capital de España

2 cuatri-gramas

es la capital la capital de capital de España

3 tri-gramas 111

es la la capital

4 bi-gramas

capital de de España es la capital

5 uni-gramas de España

Una vez finalizada la obtención de los n-gramas de la pregunta, hacemos lo mismo para cada pasaje devuelto por el módulo motor de búsqueda. En este paso sólo se tienen en cuenta los términos que forman la pregunta. Finalmente, con los n-gramas de la pregunta y los n-gramas de los pasajes obtenidos se hace una comparación para calcular la similitud entre ambos. En el siguiente ejemplo se muestran los n-gramas que se extraerían de dos pasajes devueltos por el motor de búsqueda. Estos ejemplos serán los mismos que utilizaremos para introducir los diferentes modelos de calcular la similitud entre pasaje y pregunta.

Pasaje1

Pasaje2

Ayer, la delegación visitó Madrid, la capital de España, y después estuvo en Valencia hasta que se desplazó a Barcelona la capital de España la capital de

Chirac invitó a Rajoy a la capital de Francia para encontrar una solución política a los conflictos de España en el País Vasco

1 4-gramas

2 3-gramas

la capital de

1 3-gramas

capital de España

112

la capital de

la capital

capital de

3 2-gramas

2 2-gramas

capital de

de España

la

la capital

4 1-gramas de

capital

4 1-gramas de

España

España

A continuación se presentan los tres modelos estudiados para averiguar la similitud entre pregunta y pasajes. Tanto el modelo n-grama de densidad de distancias como el n-grama peso de términos se basan en el modelo n-grama simple [Gómez et al., 2005a].

El modelo n-grama simple Con este modelo la similitud entre la pregunta y el pasaje devuelto se calcula con la siguiente fórmula:

expresión (1)

Donde Sim(p,q) es la función que mide la similitud de los conjuntos de ngramas de la pregunta q con los conjuntos de n-gramas del pasaje p. Qj es un conjunto de j-gramas que son generados de la pregunta q. Pj es un conjunto de j-gramas generados del pasaje p para compararlos con los generados a partir de la pregunta.

113

El modelo n-grama de peso de términos El modelo n-grama simple tiene el problema de que todos los n-gramas tienen el mismo peso. Esto puede causar que pasajes con n-gramas irrelevantes pueden ser más relevantes que otros con n-gramas más importantes. Para solventar esta carencia se desarrolló el modelo n-grama de peso de términos. Con este modelo el peso dado de los n-gramas está determinado como la suma de los pesos de los términos que contiene. La expresión de cálculo que determina este valor es la misma que la del modelo n-grama simple con la diferencia de que la función h(x,Pj) se cambia po la siguiente:

si no expresión (2)

El modelo n-grama de densidad de distancias En los anteriores métodos de n-gramas más largos continúan siendo más relevantes que los cortos, independientemente de los términos que contenga. Esto se debe a que el peso de los pasajes está calculada sumando todos los n-gramas que contiene. El modelo n-grama de densidad de distancias se basa en la búsqueda de los ngramas con un valor

más alto. El resto de los n-gramas recuperados se

multiplicará por un factor de distancia el cual tiene en cuenta la distancia con respecto al n-grama con el valor más alto. El peso de cada n-grama se obtiene de la expresión (2) pero sus pesos se modifican por la siguiente expresión:

expresión (3)

114

Donde L es el número de términos entre el n-grama xmax (xmax es el n-grama con el peso más alto calculado con la expresión (2) y el n-grama x del pasaje. El valor de similitud viene determinado por la siguiente expresión:

expresión (4)

Donde D es el conjunto de los n-gramas con valor más alto con respecto a la pregunta q, los cuales corresponden con el pasaje p, y cuyos términos no están repetidos. wi es el peso del término enésimo de la pregunta y n es el número de términos de la pregunta. h(x,D) es la función definida por la expresión (2)

6.3 El sistema de búsqueda de respuestas QUASAR El sistema de búsqueda de pasajes JIRS ha sido desarrollado para posteriormente poderlo integrar en el sistema de recuperación de respuestas QUASAR realizado por el Laboratorio de Ingeniería del Lenguaje Natural de la UPV. A continuación se describen las principales características de dicho sistema, tal y como han sido detalladas en [Gomez et al., 2006].

Como idea de partida, suponemos que en una colección de documentos lo suficientemente extensa, encontraremos la respuesta a una pregunta dada. Además esta pregunta se encontrará expresada de distintas formas. El sistema emplea Máquinas de Vectores Soportados y Ajuste de Patrones para identificar el tipo de respuesta y posteriormente extraerla, una vez que el sistema JIRS devuelve los pasajes relevantes.

115

6.3.1 Introducción Dentro de las funciones globales de un sistema BR podríamos mencionar: clasificación de la pregunta, recuperación de documentos o pasajes relevantes y extracción de respuestas. Estas tres funciones marcan la división en módulos del sistema. La Clasificación de la Pregunta se define como la tarea de asignar un tipo (de entre unos tipos predefinidos) a cada pregunta enviada al sistema. El sentido de esta clasificación, viene del hecho de que a distinto tipo de preguntas se les aplicarán distintas estrategias. Por ejemplo, a la pregunta “¿Quién descubrió América?”, se espera una respuesta en forma de nombre propio y la forma de obtenerla será distinta de la pregunta “¿Qué es la Goma-2 eco?”. En este segundo caso, la respuesta esperada debe ser una definición. La clasificación de la pregunta, es importante como veremos más adelante, ya que focaliza la búsqueda y reduce el error en la respuesta obtenida. Esto queda patente por numeroso estudios, entre los cuales destacamos el de Moldovan en el año 2003 en el que cuantifica en más de un 36% los errores producidos directamente por la clasificación errónea de la pregunta en el CP [Moldovan, et al., 2003].

6.3.2 Arquitectura del sistema En la Figura 6.2 se muestra la arquitectura del sistema Quasar.

116

Figura 6.2 Arquitectura del sistema QUASAR

A partir de una pregunta dada, esta se pasará a los módulos de “Análisis de la pregunta” y “Recuperación de pasajes”. Después, el módulo “Extracción de la respuesta” permitirá obtener la respuesta.

6.4 Casos de estudio con el valenciano Aunque el corpus sobre el que realizamos la búsqueda proviene de la colección CLiC-TALP versión 3.0, de la Universidad Politécnica de Cataluña en idioma catalán, y las preguntas utilizadas en los casos de estudio han sido construidas en valenciano, las diferencias entre ambos (considerando que hoy en día, existe una gran polémica entre si son o no el mismo idioma) a nivel léxico-sintáctico no son muy apreciables. Por tanto, a partir de ahora, nos referiremos al idioma empleado para los casos de estudio como valenciano. JIRS es un sistema altamente configurable y adaptable para distintos idiomas. Una de las tareas realizadas en este PFC ha sido la de adaptar JIRS para la BP en documentos en valenciano. La búsqueda se realizará sobre un

117

documento en valenciano-catalán de 100.000 palabras. La adaptación conlleva la inclusión de una lista de stopwords en valenciano. Para tener una primera idea de sus prestaciones, se probará el sistema JIRS para cuatro cuestiones, dos del tipo “Cuántos” y otras dos del tipo “Quién”. Se espera mejorar los resultados en comparación con los obtenidos en los experimentos del Capítulo 5 con las preguntas del tipo “Cuántos”.

Los pasos para la instalación, configuración y ejecución del sistema están explicados en el manual descargable junto con la aplicación desde la pagina Web del JIRS. Por tanto, solo se exponen los resultados obtenidos junto con las preguntas de prueba de dos tipos ¿Quién…? y ¿Cuántos…? (traducidas al valenciano Qui… y Quatns…?).

Las preguntas de prueba serán: 1. Qui és el president de la Generalitat? 2. Qui és el secretary general d'ERC? 3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana de Barcelona? 4. Quants millions de tones tin de transit el port de Tarragona en l'any 1999? 5. Qui ha presentat una proposició no de llei en el Parlament on s'insta al Govern de la Generalitat a obrir una oficina del departament d'agricultura ganaderia i pesca? 6. Quantes activitats ha acollit el Palau Firal els primers cinc mesos en l'any 1999? 7. Que va proposar ERC en relació al Pla Hidrologico Nacional PHN? 8. Qui és el sotsdirector de la entitad bancària Deutsche Bank a Espanya?

Tras lanzar el sistema, se obtuvieron los siguientes resultados (se muestran gráficamente algunos de los resultados obtenidos): 1. Qui és el president de la Generalitat?

118

2. Qui és el secretary general d'ERC?

119

3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana de Barcelona?

4. Quants millions de tones tin de transit el port de Tarragona en l'any 1999?

120

6.4.1 Discusión sobre los resultados Las ocho preguntas de prueba han obtenido respuesta dentro de las primeras cinco devueltas por el sistema. Los resultados de este experimento y los realizados en el Capítulo 5, tanto en la tarea monolingüe como en la translingüe no son directamente comprables, dado que se han realizado sobre corpus totalmente distintos. Pero si podemos sacar algunas conclusiones, salvando las distancias entre los corpora de búsqueda e incidiendo sobre la metodología de búsqueda: •

El sistema de RP JIRS, ha devuelto los pasajes donde se encuentra la respuesta buscada en el 100% de los casos, si se toman como buenos los 5 primeros pasajes devueltos.



Si se toman como válidas sólo las ocasiones en las que el sistema devuelve el pasaje donde se encuentra la respuesta en primer lugar, el porcentaje bajaría al 50%.



Sobre

los

tipos

de

preguntas

experimentado con los ”Quién” y resultados

obtenidos

por

el

empleados,

solo

habiendo

“Cuántos”, si comparamos los sistema

de

BR

del

INAOE,

independientemente del idioma empleado, se obtenía

0% de

respuestas correctas para las preguntas del tipo “Cuántos”. Con JIRS, en las tres cuestiones de este tipo hemos obtenido, para el caso de tomar como válidos los primeros 5 pasajes un 100%, y un 66.6% si se toma como válido solo el devuelto en primer lugar.

Por tanto, después de los experimentos realizados, podemos justificar la utilización del sistema de RP JIRS, aprovechando la eficacia demostrada en los pocos experimentos realizados. Se podría plantear la integración del sistema JIRS en el sistema de BR como un módulo aparte que facilitaría la clasificación y extracción de la respuesta, así como se hizo por el sistema Quasar.

121

122

Capítulo 7. Conclusiones Después de la realización de estudios con los sistemas presentados y el análisis de los resultados hemos llegado a las siguientes conclusiones:

I.

Los

sistemas

de

búsquedas

de

respuestas

implementados,

independientemente del idioma empleado, son capaces de obtener respuestas a preguntas factuales utilizando la Web con recursos lingüísticos simples.

II. El idioma empleado en la búsqueda, tendrá gran relevancia a la hora de cuantificar resultados sobre el mismo conjunto de preguntas traducido a los distintos idiomas empleados. Se obtienen mejores resultados sobre el conjunto de preguntas en castellano que sobre el conjunto de preguntas en valenciano, debido a la redundancia del documento en Castellano con respecto al Valenciano.

III. En cuanto a los tipos de reformulaciones empleadas en el sistema INAOE y sus derivados, podemos decir que “Bolsa de palabras” y “Verbos” son las que mejores resultados obtienen.

IV. Las cuestiones con respuesta de tipo numérico, tienen una dificultad adicional no resuelta en los experimentos expuestos. De ahí que los porcentajes finales de respuestas correctas bajen. Será esta una de las tareas de mejora del sistema.

V. Las cuestiones más cortas se respondieron con un mayor porcentaje de acierto.

VI. En los casos de preguntas largas, con ambigüedades o mal formuladas, no se devolvió la respuesta correcta.

VII. Probar otros modelos para evaluar la similitud de términos y pasajes

123

VIII. Conclusión final sobre sistema INAOE y adaptaciones: con muy pocos recursos lingüísticos, es posible desarrollar sistemas de BR utilizando la Web y su redundancia. Los resultados obtenidos, dependerán en gran medida del idioma empleado. Para idiomas con más presencia en la Web será más probable encontrar respuestas correctas.

124

125

Bibliografía [Allan J. ,Connel M., Croft W., Feng F., Fisher D. and Li X. (2000)]. INQUERY and TREC-9. In Proceedings of the Ninth Text REtrieval Conference (TREC 2000, Gaithersburg, Maryland, 13-16 November).

[Bacchin, M., Ferro, N., and Melucci, M. (2002)]. Experiments to evaluate a statistical stemming algorithm. In Proceedings of CLEF 2002.

[Baeza-Yates, R. and Ribeiro-Neto, B. (1999)]. Modern information retrieval. New York:ACM Press; Harlow: Addison-Wesley, 1999.

[Ballesteros, L. and Croft, W. B. (1997)]. Phrasal Translation and Query Expansion Techniques for Cross-language Information Retrieval. In Research and Development in Information Retrieval, pages 84-91.

[Bourdil Guillaume, Elkateb Faza, Grau Brigitte, Illouz Gabriel, Monceaux Laura, Robba Isabelle and Vilnat Anne. (2004)]. How to Answer in English to Questions Asked in French: by Exploiting Results from Several Sources of Information. In Proceedings of Cross Language Evaluation Forum, (CLEF 2004, Workshop, Bath, UK, 15-17 September 2004).

[Brill E., Lin J., Banko M., Dumais S. and Ng A. (2001)]. Data-intensive question answering. In Proceedings of the Tenth Text REtrieval Conference, (TREC 2001. Gaithersburg, Maryland, 13-16 November 2001. Pages 393-400).

[Brin S. and Page, L (1998)]. The anatomy of a Large-Scale Hypertextual WebSearch Engine. In Proceedings of the Seventh International World wide Web Conference, (Brisbane, Australia, 1998. Pages 107-117).

[Buchholz S. (2001)]. Using grammatical relations, answer frequencies and the World Wide Web for TREC Question Answering. In Proceedings of the Tenth

126

Text REtrieval Conference, (TREC 2001. Gaithersburg, Maryland, 13-16 November 2001).

[Burger John, Cardie Claire, Chaudhri Vinay, Gaizauskas Robert, Harabagiu Sanda, Israel David, Jacquemin Christian, Lin Chin-Yew, Maiorano Steve, Miller George, Moldovan Dan, Ogden Bill, Prager John, Riloff Ellen, Singhal Amit, Shrihari Rohini, Strzalkowski Tomek, Voorhees Ellen, Weishedel Ralph. (2003)]. Issues, Tasks, and Program Structures to Roadmap Research in Question Answering (Q&A). In Proceedings of Cross Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Callan, J., Croft, W., and Harding, S. (1992)]. The Inquery Retrieval System. In Proceedings of the Third International Conference on Database and Expert Systems Applications, pages 78-83. Springer-Verlag.

[Chang, G. (2001)]. Mining the World Wide Web: an information search approach. Norwell, Massachusetts: Kluwer Academic Publishers, 2001.

[Clarke C., Cormarck G. and Lynam T. (2001)]. Exploting redundancy in question answering. Proceedings of the Special Interest Group on Information Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).

[Cormack G., Clarke C., Palmer C. and Kisman D. (1999)]. Fast Automatic Pasaje Ranking (MultiText Experiments for TREC-8). In Proceedings of the Eighth Text REtrieval Conference (TREC 1999, Gaithersburg, Maryland, 17-19 November 1999).

[Costa Luís (2004)]. First Evaluation of Esfinge - a Question Answering System for Portuguese. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Davis, M. (1997)]. New Experiments in Cross-Language Text Retrieval at NMSU's Computing Research Lab. In Proceedings of the 5th Text Retrieval Conference (TREC 5, Gaithesburg, pages 447-454). 127

[Del Castillo Escobedo, A. (2005)]. Búsqueda de Respuestas mediante redundancia en la Web. Tesis para la obtención del título de “Maestro en Ciencias Computacionales” en el Instituto Nacional de Astrofísica, Óptica y Electrónica. México (2005).

[De Pablo C. , Martínez-Fernández J.L. , Martínez P. , Villena J. , GarcíaSerrano A.M. , Goñi J.M. and González J.C. (2004)]. miraQA: Inicial Experiments in Question Answering. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Echihabi Abdessamad, Oard Douglas W. ,Marcu Daniel and Hermjakob Ulf (2003)]. Cross-Language Question Answering at the USC Information Sciences Institute. In Proceedings of Cross Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Gey, F. C. and Oard, D. W. (2001)]. The TREC-2001 Cross-Language Information Retrieval Track: Searching Arabic using English, French or Arabic Queries. In Proceedings of the 10th Text Retrieval Conference (TREC10). National Institute of Standards and Technology (NIST), Gaithesburg, MD.

[Gómez J.M., Montes M., Sanchis E., Rosso P. (2005)]. JIRS: Un Sistema de Recuperación de Pasajes Orientado a Búsqueda de Respuestas. In Proc. Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05, Puebla, Mexico, pp. 143-144).

[Gómez J., Buscaldi D., Bisbal E., Rosso P., Sanchís E. (2006)]. QUASAR: The Question Answering System of the Universidad Politécnica de Valencia. In Accessing Multilingual Information Repositories, Revised Selected Papers (CLEF 2005, Springer-Verlag, LNCS(4022), Vienna, Austria).

[Harabagiu S., Moldovan D., Pasca M., Mihalcea R., Surdeanu M., Bunescu R., Girju R., Rus V. and Morarescu P. (2000)]. FALCON : Boosting knowledge for

128

Question Answering. In Proceedings of the Tenth Text Retrieval Conference. (TREC 2001, Gaithersburg, Maryland, 13-16 November, 2001).

[Harabagiu S. M. and Pasca M. A. (2001)]. High performance QUESTION answering. In Proceedings of the Special Interest Group on Information Retrieval. (SIGIR 2001, New Orleans, LA, 9-13 September 2001).

[Hovy E., Gerber L., Hermajakob U., Junk M. and Lin C. (2000)]. Question answering in Webclopedia . In Proceedings of the Ninth Text Retrieval Conference. Proceedings of the Tenth Text REtrieval Conference. (TREC 2000, Gaithersburg, Maryland, 13-16 November, 2000).

[Hovy E., Hermajakob U. and Lin C. (2001)]. The use of external knowledge in factoid QA. In Proceedings of the Tenth Text Retrieval Conference (TREC 2001, Gaithersburg, Maryland, 13-16 November, 2001).

[Hull, D. A. and Grefenstette, G. (1996)]. Querying across languages: A dictionarybased approach to multilingual information retrieval. In Proceedings of the 19th International Conference on Research and Development in Information Retrieval, pages 49-57.

[Jijkoun Valentin, Mishne Gilad and de Rijke Maarten. (2004). The University of Amsterdam at QA@CLEF2004. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Kwok et al., 2001] Kwok C. K. , Etzioni O. and Weld D. (2001). Scaling Question answering to the Web. Tenth International World Wide Web Conference (May 2001).

[Larosa S., Peñarrubia J., Rosso P., Montes M. (2005)]. Cross-language Question Answering: The Key Role of Translation. In Proc. Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05), Puebla, Mexico, pp. 131-135.

129

[Mayeld, J., McNamee, P., Costello, C., Piatko, C., and Banerjee, A. (2001)]. JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video, and Web Retrieval. In Proceedings of the 10th Text Retrieval Conference (TREC10). National Institute of Standards and Technology (NIST), Gaithesburg, MD.

[McCarley, J. S. (1999)]. Should we Translate the Documents or the Queries in Crosslanguage Information Retrieval? In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics, pages 208-214. Association for Computational Linguistics.

[McNamee,P. and Mayeld, J. (2001)]. A Language-Independent Approach to EuropeanText Retrieval. In Peters, C., editor, Cross-Language Information Retrievaland Evaluation, Workshop of Cross-Language Evaluation Forum, CLEF2000, Lisboa, Portugal, September 21-22, 2000, Revised Papers, volume 2069 of Lecture Notes in Computer Science, pages 129-139. Springer.

[Meadow, C. T. (1992)].Text information retrieval systems. San Diego: Acdemic Press, 1993.

[Montes M., Villaseñor L., Pérez M., Gómez J., Sanchís E., Rosso P. (2006)]. A Full Data-Driven System for Multiple Language Question Answering. In Accessing Multilingual Information Repositories, Revised Selected Papers (CLEF05, Springer-Verlag, LNCS(4022), Vienna, Austria).

[Negri Matteo, Tanev Hristo and Magnini Bernardo (2003)]. Bridging Languages for Question Answering: DIOGENE at CLEF 2003. In Proceedings of Cross Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Neumann Günter and Sacaleanu Bogdan (2004)]. Experiments on Robust NL Question Interpretation and Multi-layered Document Annotation for a CrossLanguage Question/Answering-System. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17, September 2004). 130

[Nie,J.-Y.(2002)].Towards a Unified Approach to CLIR and Multilingual IR. In Proceedings of Workshop on Cross-Language Information Retrieval: A ResearchRoadMap. (SIGIR 2002).

[Osenova Petya, Simov Alexander, Simov Kiril, Tanev Hristo and Kouylekov Milen. (2004)]. Bulgarian-English Question Answering: Adaptation of Language Resources. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Ozawa, T., Yamamoto, M., Umemura, K., and Church, K. (1999)]. Japanese word segmentation using similarity measure for IR. In Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition, pages 89-96.

[Pérez-Coutiño Manuel, Solorio T., Montes-y-Gómez Manuel, López-López Aurelio, Villaseñor-Pineda Luis. (2004)]. The Use of Lexical Context in Question Answering for Spanish. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Pirkola, A. (1998)].The Efects of Query Structure and Dictionary Setups in Dictionary-Based Cross-Language Information Retrieval. In Proceedings of SIGIR 98, 21st ACM International Conference on Research and Development in Information Retrieval, pages 55-63.

[Porter, M. (2001)]. Snowball: A language for stemming algorithms. http://snowball.sourceforge.net.

[Prager J., Brown E., Coden A. and Radev D. (2000)]. Question answering by predictive annotation. In Proceedings of the Special Interest Group on Information Retrieval. (SIGIR 2001, Athens, Greece, 24-28 July 2000).

[Rijsbergen, C. V. (1979)]. Information Retrieval (second edition). Butterworths.

131

[Salton, G. (1970)]. Automatic Processing of Foreign Language Documents. In Journal of American Society for Information Sciences, 21:187-194.

[Soergel, D. (1997)]. Multilingual thesauri in cross-languate text and speech retrieval. In Hull, D. and Oard, D., editors, AAAI Symposium on CrossLanguage Text and Speech Retrieval.

[Sperer, R. and Oard, D. W. (2000)]. Structured Translation for Cross-Language Information Retrieval. In Proceedings of SIGIR 2000, 23rd ACM International Conference on Research and Development in Information Retrieval, pages 120127.

[Rosso P., Lyhyaoui A., Peñarrubia J., Montes y Gómez M., Benajiba Y., Raissouni N. (2005)]. Arabic-English Question Answering. In Proc. Conf. Information Communication Technologies Int. Symposium (ICTIS-05), Tetuan, Morroco, pp. 36-41.

[Solorio, T. and López López A. (2004)] Learning Named Entity Classifiers using Support Vector Machines, Lecture Notes in Computer Science. In Computational Linguistics and Intelligent Text Processing, pages 158-166, Springer-Verlag, 2004.

[Soubbotin M. and Soubbotin S. (2001)]. Patterns of Potential Answer Expresions as Clues to the Right Answers. In TREC-10 2001. (TREC 2001, Gaithersburg, Maryland, 13-16 November, 2001).

[Tellex S., B. Katz, J. J. Lin, A. Fernandes, G. Marton (2003)]. Quantitative evaluation of passage retrieval algorithms for question answering. In SIGIR, 2003.

[José Luis Vicedo González (2002)]. SEMQA: Un Modelo Semántico aplicado a los Sistemas de Búsqueda de Respuestas. Tesis Doctoral, Universidad de Alicante, España, 2002. 132

[Vicedo. J.L., Izquierdo R., Llopis F., and Muñoz R. (2003)]. Question Answering in Spanish. In Proceedings of Cross Language Evaluation Forum (CLEF 2003 Workshop, Trondheim, Norway, 21-22 August 2003).

[Vicedo. J.L., Saiz M. and Izquierdo R. (2004)]. Does English help Question Answering in Spanish?. In Proceedings of Cross Language Evaluation Forum (CLEF 2004 Workshop, Bath, UK, 15-17 September 2004).

[Villaseñor-Pineda L., Montes-y-Gómez M. and Del-Castillo A. (2004)]. Búsqueda de respuestas basada en redundancia : un estudio para el Español y el Portugués. In 9th Ibero-American Conference on Artificial Intelligence. (IBERAMIA 2004, Workshop Herramientas y recursos lingüísticos para el español y el portugués, p. 188-195)

[Villena Román, J. (1999)]. Sistemas de Recuperación de Información. Departamento Ingeniería y Sistemas Telemáticos. Universidad de Valladolid. España.

133

134

Anexo I Publicado en: Proc. Avances en la Ciencia de la Computación, VI ENCuentro Int. de Computación (ENC05), Puebla, Mexico, pp. 131-135. Cross-language Question Answering: The Key Role of Translation S. Larosa1, J. Peñarrubia2, P. Rosso3, M. Montes-y-Gomez4 1 Dipartimento di Informatica e Scienze dell’informazione Università degli Studi di Genova, Italy [email protected] 2 Facultad de Informática, Universidad Politécnica Valencia, Spain [email protected] 3 Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia, Spain [email protected] 4 Laboratorio de Tecnologias de Lenguaje Instituto Nacional de Astrofisica, Óptica y Electrónica, Mexico [email protected]

Abstract The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. Cross-language QA systems allow the user for querying in a language different than the language in which documents are written. In this paper, we illustrate a case study to understand how much the translation of the questions may reduce the accuracy of a QA system. The main goal is to investigate whether more machine translators could be used in order not to rely just on one translation and to choose the best one on a statistical basis.

1. Introduction Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) is available in electronic format. These documents may satisfy almost every information need. Therefore, rather than Question Answering (QA) systems which are based on sophisticated linguistic analyses of both questions and candidate answers, it makes sense to use a language-independent approach, which is supported by the data redundancy of the Web [1]. The main idea is that questions and answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web [2, 3, 4]. In recent years, the combination of the Web growth and the explosive demand for better information access

has motivated the interest in developing QA systems. Many are the efforts made both by academic institutions as well as well known research companies like IBM, which recently developed the prototype of the Piquant (Practical Intelligent Question Answering Technology) search engine [5]. Documents on the web are written in more than 1,500 languages. Therefore, it is useful to provide an inexperienced user with a flexible access to the information allowing for writing a question in her mother tongue, and obtaining a concise answer [6]. In this paper, we illustrate a study for a CrossLanguage Question Answering in which the questions are made in a certain language whereas the documents are written in a different one. In order to tackle the problem of the translation of the questions, a combination of translators should be used. The paper is structured as follow. Section 2 describes the Crosslanguage Web-based QA system and the experiments we carried out. Section 3 illustrates the languageindependent approach we have been investigating and the section 4 shows some preliminary results. Finally, some conclusions are drawn in the section 5.

2. Cross-Language Web-Based QA System The system we used was developed at the Language Technologies laboratory of the INAOE at Mexico [7]. Given a question, the QA system makes combinations of its words, searching for these new queries on the Web through a search engine’s browser (e.g. Google). For each of the new query reformulations (obtained manipulating the order of the words of the question), the system collects a certain number of snippets (the

snippet is the part of a relevant document that the browser retrieves which contains almost all the words of the query). Finally, possible answers are extracted on a statistical basis, and a final ranking of candidates is returned. Therefore, the main steps of the QA system are: query reformulation (verb movement, bag of words, components [7]), snippets recollection, and answer extraction. In case of Cross-language QA, a translation preprocess is needed in order to translate the questions from the source language into the target language of the documents. In order to extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterion which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions. A compensation factor is applied in order to avoid favoring short n-grams with respect to large ones. The method extracts the twenty most frequent unigrams which satisfy a given typographic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five n-grams (candidates as possible answers). The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows [7]: n

n −i

Pg ( n ) = ∑∑ i =1 j =1

f j (i )

∑f

∀x∈Gi

x (i )

where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is the n-gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram. The QA system has been tested in monolingual (Spanish, Portuguese and Italian) [7,8] as well as in Cross-language (CatalanSpanish and Arabic-English) tasks [9]. For the Catalan-Spanish and Arabic-English QA Crosslanguage experiments, the original corpus of the CrossLanguage Evaluation Forum (CLEF)-2003 [10] (mainly focused on answering factual queries, i.e., those having a simple named entity as the answer) was manually translated into Catalan and Arabic. Thereafter, the translation of the questions was made using the SALT Valencian-Spanish translator [11] and the TARJIM Arabic-English translator [12], respectively. The precision of correct answers obtained with the questions translated from Catalan into Spanish was

approximately half of that obtained directly with the Spanish questions. It has to be mentioned that both languages have many similar words, and in some cases even searching on the Web with the question in Catalan, the retrieved snippet was in Spanish. In the Arabic-English Cross-language experiments, we compared the results obtained querying the QA system with the original corpus in English and with that one obtained automatically after the ArabicEnglish translation. In Table 1 it is possible to appreciate that the number of questions correctly answered decreased of more than one third (in the best case of the verb movement reformulation). The table gives an idea of how much the accuracy of the results may decrease due to the translation process of the questions. Table 1. Precision and MRR measures

Questions English (original) English (from Arabic)

Comp Comp Bag no 1st Verb Comp. no 1st words and 2nd mov. word words 17.1% 24.4% 26.7% 22.0% 39.5% 0.12 0.19 0.20 0.16 0.31 6.0% 2.4% 7.4% 8.4% 10.7% 0.04 0.02 0.06 0.06 0.08

The Mean Reciprocal Rank (MRR) measure was also used to fully evaluate the performance of the system:

MRR =

1 n ∑ ri n i =1

The MRR measure takes into account what is the ranking of the extracted answer (the contribution of a question, which is not obtained an answer for, is 0): n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in the list of the top five ngrams, then ri =0. At the moment of writing this paper, some other Cross-language experiments have been carrying out (Urdu-English, Persian-English, and Italian-Spanish) in order to study how much the translation pre-process of the questions may decrease the performance of the QA system for other language combinations. No matter how much exactly the accuracy decreases in each Cross-language task: it is no doubt that the translation has a key role in the final performance of the system. Therefore, the way to improve the quality

of the translation of the questions needs to be investigated. In the next section a first statistical attempt is described.

3. Combining Translations A very important step for a Cross-language QA system is the translation of a question from a language source to a destination one. Generally, majority of QA systems use online translators, but the quality of their translations is often not very good and this has a negative impact on the QA system efficiency. We suggest an approach which uses more than one translator and selects the best translation. Two methods were implemented: Word-Count and Double Translation. Word-Count exploits the redundancy of terms in all the translations, and the translation with the highest number words in common (in other words the most similar) will be chosen. To establish the number of common words and calculate the similarity among the translations, two formulae have been chosen: the Dice and the Cosine formulae. With WordCount and the Dice formula we make an intersection of the translations to find the number of common words. In order to illustrate the two language-independent approaches, we describe them using the following examples of translated question from Italian into Spanish with four different translators [13]: “Che cosa significa la sigla CEE?” (“What does the acronym EEC mean?”) 1. ¿Qué significa la sigla CEE? 2. ¿Qué cosa significa siglas el EEC? 3. ¿Qué significa la CEE de la abreviación? 4. ¿Qué cosa significa la pone la sigla CEE? Therefore, the Dice formula is used to establish the degree of similarity among the translations in order to rank them: sim(ti , t j ) =

2 × len(ti I t j )

len(ti ) + len(t j )

where: - ti and tj are the two different translations; - len(ti∩tj) indicates the number of common words of both translations; - len(tk) represents the number of words of translation tk. To get a corresponding similarity value for every translation, the similarity between a translation and the others has to be calculated using the previous formula (the partial results will be added together in order to

obtain its similarity value). For instance, to get the similarity of the first translation we do: sim(t1,t2)+ sim(t1,t3) + sim(t1,t4). The translation with the highest value is chosen. To increase the accuracy of the choice of the best translation, n-grams are used (an n-gram is a sequence of n words). If for instance there are two translations which have the same identical words but with a different order, n-grams allows for calculating their similarity values. Examples of 2-grams of the sentence below are: “Qué significa la sigla CEE?” (“What does the acronym EEC mean?”) “Qué significa” “significa la” “la sigla” “sigla CEE” The Word-Count method was implemented also using the cosine formula to calculate the similarity degree. In this model, translations are represented as vectors in a t-dimensional space (t is the general number of index terms or keywords). The keywords weights are calculated using a scheme-like Term Frequency – Inverse Document Frequency (tf-idf) [14]. Examples of translated question with four different translators are: “Qual’ è la capitale della Repubblica del Sud Africa?” (“What is the capital of the Republic of South Africa?”) 1. ¿Cuál es la capital de la República de la Sur África? 2. ¿Cuál es entendido ellos de la república de la África del sur? 3. ¿Cuál es la capital de la República del Sur una Africa? 4. ¿Cuál es el capital de la república del sur Africa? The list of keywords is: “cuál”, “es”, “la”, “capital”, “de”, “república”, “sur”, “áfrica”, “entendido”, “ellos”, “del”, “una”, “africa”,“el” We get the list of keywords of all translations (in order to define the dimensionality of the vector space), and then measure the weight of every keyword for every translation using the following formula: tij = f ij × log(1 +

ni ) N

where: - tij indicates the weight of word i at translation j; - fij is the normalized frequency of word i in the translation j; - N is the total number of translations;

- ni is the number of translations containing the word i. Once the vectors have been found, the next step is the calculation of the similarity degree among all the translations by using the following formula: sim(t i , t j ) =

(∑ ∑

t

t × t jk ∀k ik

)



∀k

∀k ik

2

×

t jk

2

In the formula tik and tjk represent two generic vector weights. The translation with the highest value is chosen. The final calculation is done as follows:

Table 2. Word-count, Dice formula 1-Gram

2-Grams

3-Grams

51.33%

51.11%

51.55%

231/450

230/450

232/450

Table 3. Double-Translation, Dice formula 1-Gram

2-Grams

46.66%

49.11%

3-Grams 50.22%

210/450

221/450

226/450

Table 4. Word-count, Cosine formula Translation1 = sim(t1,t2) + sim(t1,t3) + sim(t1,t4) Translation2 = sim(t2,t1)+ sim(t2,t3) + sim(t2,t4) Translation3 = sim(t3,t1)+ sim(t3,t2) + Sim(t3,t4) Translation4 = sim(t4,t1)+ sim(t4,t2) + Sim(t4,t3) With the Double Translation method, every question in Italian is translated into Spanish and then retranslated back into Italian. Four translators are used and the translation whose results are more similar to the original question will be chosen. The Dice and the Cosine formulae are used in this case as well. The algorithms used are those previously illustrated. Example of original question and double translations are: “Che cosa significa la sigla CEE?” (“What does the abbreviation EEC mean?”) 1. ¿Che cosa significa la sigla CEE? 2. ¿Che cosa significa le abbreviazioni il EEC? 3. ¿Che significa il CEE dell'abbreviazione? 4. ¿Che cosa ha importanza la mette la sigla di CEE? As we already mentioned, the methods are totally statistical, and therefore language-independent. At the moment of writing this paper, the application of the methods to other pairs of language other than ItalianSpanish is under investigation (e.g. Catalan-Spanish and Arabic-English [9]). The only limitation to these methods derives from the availability of translators in the source language.

4. Experiments In the experiments we carried out, we translated 450 factual question derived from the CLEF 2003 competition. Four different translators were used (only two of these allow a direct translation from Italian to Spanish). The following tables show the percentage of success and the number of question which were properly translated in every experiment.

1-Gram

2-Grams

48.66%

49.33%

3-Grams 50.00%

219/450

222/450

225/450

Table 5. Double-Translation, Cosine formula 1-Gram

2-Grams

45.77%

48.44%

3-Grams 49.11%

206/450

218/450

221/450

From these experiments we have observed that some translators made bad translations (in particular those that not allow a direct translation from the source language into the target one). The machine translator which obtained the best results is PowerTranslationPro (55.33%). This baseline was better than our best results (51.55%) which were obtained with the Word-Count method. Nevertheless, the preliminary results we obtained seem to be promising. In fact, an optimal combination among the Word-count and Double Translation methods could increase the percentage of success. We estimate that it should be possible to obtain approximately an increase of up to 20% of the system’s performance. This is due to the fact that the choices obtained from two methods are not the same. Finally, we carried out another experiment in order to investigate how to combine the methods. In this last experiment we make a comparison between the methods and the baseline. The questions were separated into the following categories: Date, Person, Organisation, Location, and Measure. The table 6 shows the best results obtained by the methods, in comparison with the baseline machine translator (PowerTranslationPro). For every method appear only the best percentage among the methods. The numbers in bold means that a method was capable to reach a better performance then a baseline. For the Person category, our approach obtains the same results of the baseline, whereas for the Organisation and the Measure categories, the percentage of the correctly translated questions is higher. Probably, with the help of these results, we can make a good combination

between Word-Count and Double Translation and improve the percentage of success.

[2] E. Hovy, L. Gerber, U. Hermajakob, M. Junk, and C. Lin, “Question answering in Webclopedia”, Proc. TREC-9, 2000.

Table 6. Questions separated for categories

[3] C. Kwok, O. Etzioni, and D. Weld, “Scaling question answering to the Web”, Proc. of the WWW Conference, 2001.

Date Person Organization Location Measure Number of 44 Questions WordCount Dice and -1-gram WordCount Dice and -2-gram Double Trans 61% Dice and 2-gram Double Trans 61% Dice and 3-gram Double Trans 61% Cosine and 3-gram Baseline

70%

71

26

61

77

[4] J. Lin, J., “The Web as a resource for question answering: d

--

46%

59%

58%

perspectives and challenges”, Proc. of the 3r Int. Conf. on Language Resources and Evaluation (LREC), 2002.

--

--

--

58%

[5] IBM Piquant Question Answering system, at: http://www.research.ibm.com/compsci/spotlight/nlp/

--

--

--

--

64%

--

--

--

[6] J. Vicedo, “Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual”, Revista Iberoamericana de Inteligencia Artificial, 2004. [7] M. Del Castillo, M. Montes y Gómez, and L. Villaseñor, “QA on the web: A preliminary study for Spanish language”, th

Proc. of the 5 Mexican Int. Conf. on Computer Science (ENC), Colima, Mexico, 2004. --

--

--

--

64%

42%

72%

40%

5. Conclusions

[8] L. Villaseñor-Pineda, M. Montes-y-Gómez and A. del Castillo, “Búsqueda de respuestas basada en redundancia: un estudio para el Español y el Portugués”, Proc. Taller de Herramientas y Recursos Lingüísticos para el Español y el Portugués, IX Ibero-American Conf. on Artificial Intelligence IBERAMIA 2004, Puebla, Mexico, November, 2004.

In this paper we investigated the possibility of improving the question translation preprocess of a Cross-language QA system. Two totally statistical and language-independent methods were described. The preliminary results seem to be promising an for some of the studied categories were better than those obtained by the baseline. Further experiments are needed to find an optimal combination among the methods and, therefore, increase the percentage of success. As further work, it would be also interesting to use the JIRS passage retrieval system [15] in order to fully take advantage of the redundancy of the Web during the validation of the translations.

[9] P. Rosso, A. Lyhyaoui, J. Peñarrubia, M. Montes y Gómez , Y. Benajiba, and N. Raissouni, “Arabic-English Question Answering”, Proc. of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005.

Acknowledgments

[13] S. Larosa, M. Montes y Gómez, P. Rosso and S. Rovetta, “Best Translation for an Italian-Spanish Question Answering System”,Proc. Of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco, June 2005.

The work was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and CONACYT 43990.

References [1] E. Brill, J. Lin, M. Banko, and S. Dumais, “Dataintensive question answering”, Proc. TREC-10, 2001.

[10] Cross-Language Evaluation Forum (CLEF) European consortium: http://www.clef-campaign.org [11] SALT Valencian-Spanish Translator, available at: http:// www.cult.gva.es/salt/salt_programes_salt2.htm [12] TARJIM Arabic-English Translator, available at: http://tarjim.ajeeb.com/ajeeb/default.asp

[14] R. Baeza-Yates and B. Ribeiro-Neto, Information Retrieval, Addison-Wesley, 1999.

Modern

[15] J. Gómez, M. Montes y Gómez, E. Sanchis and P.Rosso, “A Passage Retrieval System for Multilingual Question Answering Answering”, LNCS, Springer Verlag, TSD Int. Conf, Brno, Check Republic, September 2005 (accepted; to be published).

Anexo II

Publicado en: Proc. Conf. Information Communication Technologies Int. Symposium (ICTIS-05), Tetuan, Morroco, pp. 36-41 Arabic-English Question Answering P. Rosso1, A. Lyhyaoui2, J. Peñarrubia3, M. Montes y Gómez4 , Y. Benajiba2, and N. Raissouni2 1 2

Dpto. Sistemas Informáticos y Computación, Universidad Politécnica Valencia, Spain Abdelmalek Essaadi University, Ecole Nationales de Sciences Appliquées de Tanger, Morocco 3 Facultad de Informática, Universidad Politécnica Valencia, Spain 4 Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Mexico Emails: [email protected]; [email protected]; [email protected]; [email protected]; [email protected]; [email protected]

ABSTRACT - The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them for writing a query in natural language and obtaining a concise answer. QA systems are mainly suited to English as the target language. In this paper we will investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of the QA task.

1. INTRODUCTION Nowadays, the Web has become our main information repository: nearly all kind of information (digital libraries, newspapers collections, etc.) in more than 1,500 languages is available on the Web in electronic format. These documents may satisfy almost every information need. Nevertheless, without suitable tools which could help the user, the great amount of retrieved information is nearly useless. In Information Retrieval (IR) the user is interested in finding the most relevant documents which partially match a certain request (Baeza, 1999). Therefore, IR addresses the problems associated with the retrieval of documents from a collection in response to a user query and its goal is to search into a text collection (e.g. the Web) in order to return as result a subset of documents ordered by decreasing likelihood of being relevant to the given query. The most popular IR systems are the search engines for the Web (e.g. Google, Altavista and Yahoo). The aim of Cross-Language Information Retrieval is instead to retrieve documents written in a certain language (e.g. English) when the user query is written in another specific language (e.g. Arabic) (Y. Benajiba, 2004). In fact, if for instance the user is interested in investigating documents which are written in English, it would be nearly impossible to translate all of them into Arabic. The goal of a Question Answering (QA) system is to provide inexperienced users with a flexible access to the information allowing them

for writing a query in natural language and obtaining not the documents which contain the answer, but the concise answer itself (Vicedo, 2004). In recent years, the combination of the Web growth and the explosive demand for better information access has motivated the interest in Web-based QA systems. Due to the difficulty of the task, the last developments in QA (e.g. the prototype of the Piquant1 (Practical Intelligent Question Answering Technology) IBM search engine) are mainly focused on answering factual queries (i.e., those having a simple named entity as the answer) (Del Castillo, 2004). QA systems are often suited to English as the target language. Cross-Language Question Answering allows for querying the system in a language (e.g. Arabic) which is not the language of the documents (e.g English). In this paper we approach the challenging Arabic-English QA task. The main goal is to investigate how much the translation of the queries, from the Arabic into the English language, could reduce the accuracy of a QA system.

2. THE QA WEB-BASED APPROACH The language-independent approach we used is supported by data redundancy (Brill, 2001) rather than sophisticated linguistic analyses of both questions and candidate answers. The main idea of the system we used, which is primarily based 1

http://www.research.ibm.com/compsci/spotlight/nlp/

on (Del Castillo, 2004), is that the questions and their answers are commonly expressed using the same words, and that the probability of finding a simple (lexical) matching between them increases with the redundancy of the Web (Hovy, 2000), (Kwok, 2001), (Lin, 2002).

2.1. Query Reformulation Given a question, the system first generates several query reformulations manipulating the order of the words of the question. The possible reformulations are illustrated for the question: Where is the ICTIS Conference in 2005? •

Bag of words: the set of words of the question different than prepositions, conjuntions and article (i.e., stopwords); e.g. “is ICTIS Conference 2005”



Verb movement: in order to transform an interrogative sentence into a declarative one is necessary to eliminate the verb, or to move it to the final position of the sentence (a second word movement to the end was also investigated to consider the cases when an auxiliar verb exists), e.g. “the ICTIS Conference in 2005 is”



Components: the question is divided in components (each component is an expression delimited by a preposition) and new reformulations are defined combining these components; e.g. “is the ICTIS Conference” “in 2005” “in 2005 is the ICTIS Conference”



Componenets without the first word: in order to construct this set of reformulations we eliminate the main verb of the question, and then we apply the method of reformulations by components; e.g. “in 2005 the ICTIS Conference” “the ICTIS Conference” “in 2005”



Componenets without the first and the second words: we suppose the presence of an auxiliar verb (not in the above example) and then we apply the method of reformulations by components.

Some of the above reformulations may not be syntactically correct and, therefore, not so likely to be found on the Web. On the contrary, the right ones will have a higher redundancy on the Web. 2.2. Snippets Extraction

Recollection

and

Answer

Google), and collects the returned snippets (document summaries) which were retrieved from the Web. This is an example of a snippet retrieved with the reformulation “the ICTIS Conference in 2005”: MyBusinessCommunities ... 11th international Conference on Concurrent Enterprising ICE 2005 (103 ... ICTIS’2005 (131 visitors) Tetuan - Morocco, 2005-06-03 till 2005-06-06 ... www.prolearn-online.com/events.php?sort1=1& sort2=1&offset=60&newlanguage=1 - 24k Cached - Similar pages The right answer (Tetuan – Morocco) is in the retrieved snippet and it is only a matter to extract it. To extract the most frequent n-grams (sequences of n words) from the snippets (each n-gram is defined as a possible answer to the given question), we used a statistical criterium which ranks them by decreasing likelihood of being the correct answer. The method which is used for the n-gram extraction and ranking is based on regular expressions A compensation factor is applied in order to avoid favoring short ngrams with respect to larges ones. The method extracts the twenty most frequent unigrams which satisfy a given typografic criteria (i.e., words starting with an uppercase letter, numbers and names of months), determines all the n-grams (from bigrams to pentagrams, built from the set frequent unigrams), ranks the n-grams based on their compensated relative frequency, and finally selects the top five ngrams (candidates as possible answes). The compensated relative frequency of a n-gram g(n) = (w1…wn) is computed as follows (Del Castilo, 2004): n

n −i

Pg ( n ) = ∑ ∑ i =1 j =1

f j (i )

∑f

∀x∈Gi

x (i )

(1)

where Gi is the set of n-grams of size i, |Gi| indicates the cardinality of this set, j(i) is an –gram j of size i contained in g(n), and fj(i) is the frequency of occurrence of this n-gram. 3. PRELIMINARY EXPERIMENTS 3.1. The CLEF-2003 Query Corpus Some preliminary experiments were carried out using the queries corpus of the CLEF2-2003 competition. The Cross-Language Evaluation Forum (CLEF) is a European consortium that

After the query reformulation, the QA system sends each reformulation to a search engine (e.g. 2www.clef-campaign.org

organises an international competition regarding of IR and QA systems, operating on European languages in both monolingual and crosslanguage contexts. In our case, we used the questions in English and compared the answers with those obtained after the translation process into English from an Arabic corpus which was manually created by a linguist. For the ArabicEnglish translation process, an automatic machine translator was used.

Reciprocal Rank (MRR) of the first correct answer (see Table 2). The MRR is computed as follow:

MRR =

1 n ∑ ri n i =1

(2)

where n is the total number of test questions and ri is the reciprocal of the rank (position in the answer list) of the first correct answer. For instance, if the correct answer is in the second position, ri = 0.5, 3.2. The Query Translation Process whereas if it is in the third then ri = 0.33. In the case the correct answer does not occur in One of the nowadays challenge is writing a the list of the top five n-grams, then ri =0. question in a language (e.g. Arabic) and query a collection of documents which are written in Table 2. Precision and MRR measures. another language (e.g. English). In fact, it would be technically impossible to translate all the target Comp documents into the query’s source language. Comp Bag no 1st Verb The main aim of our preliminary experiments Comp. no 1st words and 2nd mov. was to investigate how much the translation of the Questions word words queries, from the Arabic into the English language, could reduce the accuracy of the QA task. For the English 17.1% 24.4% 26.7% 22.0% 39.5% translation of the questions the TARJIM3 Arabic(original) 0.12 0.19 0.20 0.16 0.31 English machine translation system was used. English 6.0% 2.4% 7.4% 8.4% 10.7% (from Arabic)

3.3. Experimental Results For each question we generated the five different kinds of query reformulations, and for each reformulation we collected, if posible, 50 snippets. Table 1 shows the precision (i.e., the proportion of the questions which were correctly answered) of the preliminary experiments we carried out comparing the performance of the QA system when the original English questions and those obtained after the Arabic-English translation were used. The best results were generally obtained with the “verb movement” reformulation. Nevertherless, a more detailed analysis of the results showed us that there are cases (e.g. questions like “What is the capital of…” or “In what year…”) in which other reformulations (e.g. the components ones) allow to obtain the right answer. Table 1. Precision of correct answers (over 450).

Questions English (original) English (from Arabic)

Comp Comp Bag no 1st Comp. no 1st words and 2nd word words

Verb mov.

9.1% (41) 3.8% (17)

24% (108) 7.2% (31)

17.1% 14.9% (77) (67) 1.6% 4.9% (7) (21)

10.4% (47) 4.9% (21)

In the further experiments, we took into consideration the top five better answers for each question. In order to fully evaluate the performance of the QA system, the precision measure was used together with the Mean 3

http://tarjim.ajeeb.com/ajeeb/default.asp

0.04

0.02

0.06

0.06

0.08

In every query reformulation, the translation process caused a decreasing of even more than 30% in the performance. Tables 3 and 4 show a couple of bad translations (in the first one the proper name “Nirvana” was also wrongly translated). Table 3. Example in which also a proper name was badly translated. original Arabic translation

What was the name of the singer and head of Nirvana? ‫ﻣﺎ اﺳﻢ اﻟﻤﻐﻨﻲ و رﺋﻴﺲ ﻧﺮﻓﺎﻧﺎ ؟‬ What is the name of the main singer of Nirfana?

Table 4. Example of bad translation. original Arabic translation

How many European countries form part of the G7? ‫آﻢ ﻋﺪد اﻟﺪول اﻷورﺑﻴﺔ اﻟﻤﻜﻮﻧﺔ ﻟﻤﺠﻤﻮﻋﺔ اﻟﺴﺒﻊ؟‬ Quantity of an European country belongs to the group of seven?

On the other hand, in quite unusual cases (see Tables 5 and 6) with the translated question we obtained a right answer whereas, we did not obtain any (first case) or we obtained a wrong one (second case) with the original one. Table 5. Example of wrong translation and right answer (California). original Arabic translation

Which American state has the strictest environmental laws? ‫ﻣﺎ هﻲ اﻟﻮﻻﻳﺔ اﻷﻣﺮﻳﻜﻴﺔ ذات اﻟﻘﺎﻧﻮن اﻟﺒﻴﺌﻲ اﻷآﺜﺮ‬ ‫ﺻﺮاﻣﺔ؟‬ What she is the American state for which the environmentallaws with more stricness?

Table 6. Example of wrong translatrion and right answer (February) original Arabic translation

During what month do almond trees blossom? ‫ﻣﺘﻰ ﺗﺰهﺮ أﺷﺠﺎر اﻟﻠﻮز؟‬ During any month the almonds trees bloom ?

4. CONCLUSIONS AND FURTHER WORK The performance of a cross-language ArabicEnglish QA system is very much affected by the translation process. In the experiments we carried out the QA performance decreased of more than 30%. More machine translators should be used at the same time in order not to rely just on one translation and to choose the best one on a statistical basis (Larosa, 2005). It should be also interesting to use the query reformulation technique directly to the Arabic language without the necessity to go through the Arabic-English translation process for each query. Acknowledgments This work was made possible “sucran” (thanks) to the R2D2 (CICYTTIC2003-07158-C04-03), ICT EU-India (ALA/95/23/2003/077-054) research projects and Conacyt (J43990-Y). References Baeza, R., and Ribeiro, B., 1999, Modern Information Retrieval. ACM Press, New York, Addison-Wesley. Brill, E., Lin, J., Banko, M., and Dumais, S., 2001, Data-intensive question answering. In TREC-10 2001.

Del Castillo, M., Montes y Gómez, M., and Villaseñor, L. 2004, QA on the web: A preliminary study for Spanish languege. Proceedings of the 5th Mexican International Conference on Computer Science (ENC04), Colima, Mexico. Hovy, E., Gerber, L., Hermajakob, U., Junk, M., and Lin, C., 2000, Question answering in Webclopedia. In TREC-9 2000. Kwok, C., Etzioni, O., and Weld, D. 2001, Scaling question answering to the Web. Proceedings of the WWW Conference, 2001. Larosa, D., et. al., 2005, Best Translation for an Italian-Spanish Question Answering System. Proceedings of Information Communication Technologies International Symposium - ICTIS’05, Tetuan, Morocco, 3-6 June 2005. Lin, J., 2002, The Web as a resource for question answering: perspectives and d challenges”. Proceedings of the 3r International Conference on Language Resources and Evaluation (LREC-2002). Y. Benajiba, M. S. Kasttet, and A. Lyhyaoui, 2004, Bilingual Information Retrieval. Internal Report. Abdelmalek Essaadi University, Ecole nationals des sciences appliqués de Tanger, Morocco. Vicedo, J., 2004, Los Sistemas de Búsqueda de Respuestas desde una Perspectiva Actual. In Revista Iberoamericana de Inteligencia Artificial. (in Spanish).

Anexo III Preguntas CLEF2003 M SPA 0001 ¿Cuál es la capital de Croacia? M SPA 0002 ¿Qué país invadió Kuwait en 1990? M SPA 0003 ¿Cómo se llama el servicio de seguridad nacional de Israel? M SPA 0004 ¿Cuántas personas murieron ahogadas al zozobrar y hundirse el "Estonia"? M SPA 0005 ¿Dónde está el Muro de las Lamentaciones? M SPA 0006 ¿Cuándo decidió Naciones Unidas imponer el embargo sobre Irak? M SPA 0007 ¿Cuántos habitantes hay en Irak? M SPA 0008 ¿Dónde se celebró la cumbre del G7? M SPA 0009 ¿Qué país ganó la Copa Davis? M SPA 0010 ¿Cuántas personas fueron rescatadas por los equipos de socorro tras el naufragio del ferry Estonia? M SPA 0011 ¿A qué país se dirigían las ayudas del programa Turquesa? M SPA 0012 ¿Cuál es la capital de Haití? M SPA 0013 ¿Cuándo se produjo la reunificación de Alemania? M SPA 0014 ¿Cuántos habitantes tiene Suecia? M SPA 0015 ¿Qué significan las siglas IRA? M SPA 0016 ¿Cuánto tiempo ha estado en el poder Kim Il Sung en Corea del Norte? M SPA 0017 ¿Quién es el presidente de la Comisión Europea? M SPA 0018 ¿Quién es el presidente de la Autoridad Nacional Palestina? M SPA 0019 ¿Cuántos habitantes tiene Rusia? M SPA 0020 ¿A qué edad murió Joseph di Mambro? M SPA 0021 ¿Quién era conocido como el "Zorro del Desierto"? M SPA 0022 ¿Cuántos habitantes tiene Chechenia? M SPA 0023 ¿Cómo se llama el hijo de Kim Il Sung? M SPA 0024 ¿Dónde está el volcán Popocatepetl? M SPA 0025 ¿En qué país se encuentra la región de Bosnia?

144

M SPA 0026 ¿Cuántos muertos al año causan las minas antipersona en el mundo? M SPA 0027 ¿Cuál es el nombre técnico del mal de las vacas locas? M SPA 0028 ¿Qué significan las siglas OMC? M SPA 0029 ¿De qué puerto partió el ferry "Estonia"? M SPA 0030 ¿Cuántos habitantes tiene Sidney? M SPA 0031 ¿Dónde se hundió el Estonia? M SPA 0032 ¿Dónde está Chiapas? M SPA 0033 ¿Quién es el creador de "Doctor Snuggles"? M SPA 0034 ¿Quién es el líder bosnio? M SPA 0035 ¿Quién fue la ganadora del torneo de Wimbledon? M SPA 0036 ¿En qué año cayó el muro de Berlín? M SPA 0037 ¿Qué ferry se hundió en el Sudeste de la isla Utoe? M SPA 0038 ¿Qué presidente de Corea del Norte murió a los 82 años de edad? M SPA 0039 ¿Por qué teoría se ha concedido el Premio Nobel de Economía? M SPA 0040 ¿Cómo murió Ayrton Senna? M SPA 0041 ¿A qué edad murió Thomas "Tip" O'Neill? M SPA 0042 ¿Quién es el presidente del Parlamento Europeo? M SPA 0043 ¿Cuál es la capital de Irlanda? M SPA 0044 ¿Cuántos objetos de arte son robados en Europa cada año? M SPA 0045 ¿En qué estado de Estados Unidos está San Francisco? M SPA 0046 ¿Cuántos cantones hay en Suiza? M SPA 0047 ¿Qué día comenzó la intifada? M SPA 0048 ¿En qué país está la zona de los Grandes Lagos? M SPA 0049 ¿Dónde explotó la primera bomba atómica? M SPA 0050 ¿Qué empresa ha comprado a la fabricante de coches Rover? M SPA 0051 ¿En qué festival se entregan los premios "León de Oro"? M SPA 0052 ¿Quién es el líder del Sinn Fein? M SPA 0053 ¿Cómo se llama la compañía aérea nacional de Suiza? M SPA 0054 ¿Cuántos tripulantes murieron en el submarino Emeraude? M SPA 0055 ¿En qué tipo de procesador se descubrió un error en la unidad aritmética? M SPA 0056 ¿Sobre qué continente se detectó el agujero de ozono? 145

M SPA 0057 ¿Quién es el mayor exportador europeo de aceite de oliva? M SPA 0058 ¿Cuándo se constituyó la República de Sudáfrica? M SPA 0059 ¿Qué porcentaje del comercio mundial de drogas está controlado por el Cartel de Cali? M SPA 0060 ¿Cuál es la capital de Malasia? M SPA 0061 ¿Cuál es la capital de Irán? M SPA 0062 ¿Cuál es la capital de Turkmenistán? M SPA 0063 ¿Cuál es el principal país productor de petróleo en el mundo? M SPA 0064 ¿Cuántos países son miembros de la Unión Europea? M SPA 0065 ¿Cuándo se firmo el Acta Única Europea? M SPA 0066 ¿Qué cargo ostentaba Rabbani al estallar la guerra civil de Afganistán en 1992? M SPA 0067 ¿A qué grupo pertenecía John Lennon? M SPA 0068 ¿Quién escribió "Star Trek"? M SPA 0069 ¿Quién es el presidente de la República de Italia? M SPA 0070 ¿Quién ostenta el poder en Pyongyang? M SPA 0071 ¿Qué significan las siglas ETA? M SPA 0072 ¿En qué parte de Rusia se rompió un oleoducto? M SPA 0073 ¿Dónde se celebraron los Juegos Olímpicos de 1996? M SPA 0074 ¿Cuántos hijos tiene Anthony Quinn? M SPA 0075 ¿Cuál es la profesión de Renzo Piano? M SPA 0076 ¿En qué año se creo el Fondo Monetario Internacional? M SPA 0077 ¿Quién dirigió "Con la muerte en los talones"? M SPA 0078 ¿Cuántas personas murieron en el juzgado de Euskirchen? M SPA 0079 ¿Cuándo se fundó la CEE? M SPA 0080 ¿En qué ciudad europea está la Torre Eiffel? M SPA 0081 ¿A qué país pertenece el agente inmobiliario Schneider? M SPA 0082 ¿Qué submarino nuclear francés sufrió un accidente? M SPA 0083 ¿Quién es el presidente de Rusia? M SPA 0084 ¿Quién es el presidente italiano de Asuntos Exteriores? M SPA 0085 ¿Cuál es el nombre de pila de la mujer de Nelson Mandela? M SPA 0086 ¿Qué significa OLP? M SPA 0087 ¿En qué ciudad está el Museo del Prado? M SPA 0088 ¿Cuál es la capital de Corea del Norte? 146

M SPA 0089 ¿Dónde se celebró la asamblea anual de la Comisión Ballenera Internacional? M SPA 0090 ¿Quién es el entrenador del equipo nacional de fútbol noruego? M SPA 0091 ¿Cuál es la causa más frecuente de los accidentes de coche? M SPA 0092 ¿Qué país de África ha adoptado una nueva constitución? M SPA 0093 ¿Cuáles son las siglas del Fondo Mundial para la Protección de la Naturaleza? M SPA 0094 ¿Quién es el director de la CIA? M SPA 0095 ¿Qué premio Nobel ganó Solzhenitsin? M SPA 0096 ¿En qué ciudad se celebraron los Juegos Olímpicos de invierno? M SPA 0097 ¿Cuándo tomará China la posesión de Hong Kong? M SPA 0098 ¿Qué causó el incendio en un cine en la ciudad china de Karamai? M SPA 0099 ¿Cuántos habitantes hay en Moscú? M SPA 0100 ¿En qué mes se produjo el naufragio del Estonia? M SPA 0101 ¿Cómo se llamaba el cantante y líder de Nirvana? M SPA 0102 ¿Quién es el presidente de la república francesa? M SPA 0103 ¿De cuántas muertes son responsables los Jemeres Rojos? M SPA 0104 ¿Cuál es la capital de Rusia? M SPA 0105 ¿Cómo se llama la moneda china? M SPA 0106 ¿Qué primer ministro francés se suicidó en los años 90? M SPA 0107 ¿Cuándo se firmó el Tratado de Maastricht? M SPA 0108 ¿Quién es el presidente de Perú? M SPA 0109 ¿Qué presidente ruso asistió a la reunión del G7 en Nápoles? M SPA 0110 ¿Dónde nació Adolfo Hitler? M SPA 0111 ¿Cuál es la distancia entre la Tierra y el Sol? M SPA 0112 ¿Qué significa el acrónimo ONU? M SPA 0113 ¿Cuántos pasajeros murieron en el naufragio del ferry Estonia? M SPA 0114 ¿A que primer ministro abrió la Fiscalía de Milán un sumario por corrupción? M SPA 0115 ¿Cuántos países miembros hay en las Naciones Unidas? M SPA 0116 ¿En qué conferencia se crearon el BM y el FMI? M SPA 0117 ¿En qué año fueron prohibidas las pruebas de armas biológicas y tóxicas? 147

M SPA 0118 ¿Cuál es la capital de la República de Sudáfrica? M SPA 0119 ¿De qué club de fútbol es presidente Jesús Gil? M SPA 0120 ¿Quién proyectó la construcción de la catedral de San Pedro? M SPA 0121 ¿Cómo se llama el refresco de cola de Richard Branson? M SPA 0122 ¿De qué país es presidente Yeltsin? M SPA 0123 ¿Qué día entró en vigor el Tratado de Maastricht? M SPA 0124 ¿A qué marca pertenecían los alimentos para bebés en los que se encontraron pesticidas? M SPA 0125 ¿Cuándo se firmó el Tratado de Roma? M SPA 0126 ¿Cuándo comenzó el embargo sobre Irak? M SPA 0127 ¿Cómo se llama el jefe de gobierno de Australia? M SPA 0128 ¿A partir de qué sustancia se obtiene el tolueno? M SPA 0129 ¿Qué espectáculo es considerado el más grande del mundo? M SPA 0130 ¿Qué significan las siglas CEE? M SPA 0131 ¿Cómo se llama el sucesor del GATT? M SPA 0132 Dar el nombre de algún tratamiento contra el SIDA. M SPA 0133 ¿Cómo se llaman las líneas aéreas de Nikki Lauda? M SPA 0134 ¿Quién es el presidente de Yugoslavia? M SPA 0135 ¿Qué país europeo es el mayor consumidor de alcohol? M SPA 0136 ¿Qué organismo impuso el embargo sobre Irak? M SPA 0137 ¿Qué ciudadano británico recibió 50 latigazos en Qatar? M SPA 0138 ¿Quién mató a Andrés Escobar, un jugador de fútbol colombiano? M SPA 0139 Dar el nombre de una ciudad japonesa que haya sido castigada por un terremoto. M SPA 0140 Dar el nombre de alguna película de Spike Lee. M SPA 0141 ¿Quién es el líder de los serbios de Bosnia? M SPA 0142 ¿Cuántos habitantes tiene Corea del Norte? M SPA 0143 ¿Cuándo ocurrió la catástrofe de Chernobil? M SPA 0144 ¿En qué ciudad está la puerta de Brandeburgo? M SPA 0145 ¿Quién es el ministro de economía alemán? M SPA 0146 ¿En qué año entró España en la Comunidad Europea? M SPA 0147 ¿Quién es el líder del grupo guerrillero UNITA de Angola? M SPA 0148 ¿Cuántos habitantes tiene Berlín? M SPA 0149 ¿En qué ciudad está Broadway? 148

M SPA 0150 ¿Quién es el presidente de Corea del Norte? M SPA 0151 ¿Qué primer ministro británico visitó Sudáfrica en 1960? M SPA 0152 ¿Qué equipo ganó la Copa de Europa de Clubs de Baloncesto? M SPA 0153 ¿Cuántas personas murieron en el accidente de un Airbus en el aeropuerto de Nagoya? M SPA 0154 ¿Dónde está Basora? M SPA 0155 ¿En qué ciudad se celebró la Conferencia Mundial de Población? M SPA 0156 ¿Qué magnitud tuvo el terremoto que sacudió el norte de Japón? M SPA 0157 ¿Qué presidente ruso ordenó la intervención en Chechenia? M SPA 0158 ¿Cuánto valen 10 pesos? M SPA 0159 ¿Qué premio fue concedido a Weinberg, Salam y Glashow? M SPA 0160 ¿Dónde está Haití? M SPA 0161 ¿Cuál es el nombre de pila de Milosevic? M SPA 0162 ¿Cuántos motores tiene un avión? M SPA 0163 ¿Quién es el presidente de FIAT? M SPA 0164 Dar el nombre de un medicamento contra la malaria. M SPA 0165 ¿Quién ganó el Tour? M SPA 0166 ¿Quién es el fundador de la Orden del Templo del Sol? M SPA 0167 ¿Qué empresa británica pertenece al consorcio Airbus? M SPA 0168 ¿En qué año se creó el Banco Mundial? M SPA 0169 ¿Dónde está Euskirchen? M SPA 0170 ¿Qué equipo ganó el torneo de la NBA? M SPA 0171 Dar el nombre de una película protagonizada por Audrey Hepburn. M SPA 0172 ¿Quién construyó el muro de Berlín? M SPA 0173 ¿Cuántos partidos políticos participaron en las primeras elecciones locales de la historia en Sudáfrica? M SPA 0174 ¿En qué ciudad se celebró la final del mundial de fútbol? M SPA 0175 ¿Quién es el presidente de Alemania? M SPA 0176 ¿Quién es el líder de Nación del Islam? M SPA 0177 ¿Cuál es la población mundial? M SPA 0178 ¿Qué significan las siglas GATT? M SPA 0179 ¿Cuándo explotó la primera bomba atómica? M SPA 0180 ¿Cuándo se creó el GATT? 149

M SPA 0181 ¿Cuál fue el resultado del partido Italia-Noruega del mundial de fútbol? M SPA 0182 ¿Cuántos pasajeros tuvieron que abandonar el "Regent Star" tras incendiarse el barco? M SPA 0183 ¿Cuánto mide el Everest? M SPA 0184 ¿En qué océano se hundió el Titanic? M SPA 0185 ¿Quién es el presidente de Corea del Sur? M SPA 0186 ¿Cuántos países participaron en la Conferencia Mundial de Población? M SPA 0187 ¿Quién fue el primer presidente de Indonesia? M SPA 0188 ¿Cuál es la capital de Canadá? M SPA 0189 ¿Qué premio Nobel fue concedido a Willy Brandt? M SPA 0190 ¿A qué compañía petrolera pertenece Brent Spar? M SPA 0191 ¿En qué ciudad está el parlamento europeo? M SPA 0192 ¿Qué ex ministro francés fue encarcelado por corrupción? M SPA 0193 ¿Quién es el primer ministro húngaro? M SPA 0194 ¿Qué premio Nobel consiguió Kenzaburo Oe? M SPA 0195 ¿Qué premio ganó la película "Pulp Fiction", dirigida por Quentin Tarantino, en el Festival de Cine de Cannes? M SPA 0196 ¿Cuál fue el resultado de la final de la Copa de Europa de Clubs de Baloncesto? M SPA 0197 ¿Cómo se llama el primer ministro holandés? M SPA 0198 ¿Qué terrorista de ETA es conocida como 'La Tigresa'? M SPA 0199 ¿Quién es el presidente de Estados Unidos? M SPA 0200 ¿Cuántos campeonatos del mundo de Fórmula 1 ganó el piloto brasileño Ayrton Senna?

150

ANEXO IV Preguntas CLEF2005 ¿Qué es BMW? ¿Qué son las FARC? ¿Quién es Nelson Mandela? ¿Quién es Javier Solana? ¿Quién es Giulio Andreotti? Nombrar un edificio envuelto por Christo. ¿A cuánto asciende el premio para la ganadora de Wimbledon? ¿Con qué grupo ha cantado Robbie Williams? Nombrar una película en la que se hayan usado animaciones por ordenador. ¿Quién recibió el Premio Nobel de la Paz en 1989? ¿Quién hizo el personaje de Superman antes de quedar paralizado? ¿Quién es el primer ministro de Macedonia? ¿Cuándo nació Christopher Reeve? ¿En qué año se casó el Príncipe Carlos con Diana? ¿Cuándo abrió el Sony Center en la Kemperplatz en Berlín? ¿Qué es la WWF? ¿Qué es la Camorra? ¿Quién es Bettino Craxi? ¿Quién es Diego Armando Maradona? ¿A cuánto años de prisión fue sentenciado Bettino Craxi? ¿Quién es Silvio Berlusconi? ¿Qué es Sabena? ¿Cuándo murió el Premio Nobel Reinhard Selten? ¿Cuándo nació Donatella Della Corte? ¿Qué conferencia de la UE adoptó la Agenda 2000 en Berlín? ¿Qué es la FIFA? ¿Qué es el COI? ¿Qué es la OMS? ¿Qué político liberal fue ministro de Sanidad italiano entre 1989 y 1993? ¿Quién es Romano Prodi?

151

¿A cuánto dinero ascendió el premio que recibieron Selten, Nash y Harsanyi por el Premio Nobel de Economía? ¿En qué estación de tren está el "Museo del Presente" de Berlín? ¿Dónde nació Supachai Panitchpakdi? ¿Qué deporte practica Adrian Mutu? ¿Quiénes eran los dos firmantes del tratado de paz entre Jordania e Israel? ¿Qué alfabeto tiene sólo cuatro letras "A, C, G, y T"? ¿Quién es Rolf Ekeus? ¿Quién es Willy Claes? ¿Qué iglesia ordenó mujeres sacerdote en marzo de 1994? ¿Qué es el PRI? ¿Cuántos Mundiales había ganado Zagalo como jugador antes del nacimiento de Ronaldo en 1977? ¿Quiénes son Akihito y Michiko? ¿Quién es Juan Luis Arsuaga? ¿Quién es Eudald Carbonell? ¿Quién es Amnon Ben-Tor? ¿Quién es Franck Goddio? ¿Quién es Simon Wisenthal? ¿Quién fue Kim Il Sung? ¿Quién es Jacques Blanc? ¿Quién es Yoko Ono? ¿Quién era Yasir Arafat? ¿Quién es Manuel Cimadevilla Miguel? ¿Quién es Sadam Hussein? ¿Qué es Greenpeace? ¿Qué es el CIB? ¿Qué es el G7? ¿Qué es el IME? ¿Qué es la ESA? ¿Qué es la NASA? ¿Qué es el GIA? ¿Qué es Medicos Sin Fronteras? ¿Qué es la UNAMIR? 152

¿Qué es AI? ¿Qué es la ONU? ¿Qué es la OLP? ¿Qué es el FIS? ¿Quién encontró el galeón "San Diego"? ¿Qué presidente ruso asistió a la reunión del G7 en Nápoles? ¿Quién es el rey noruego? ¿Qué presidente francés inauguró el Eurotúnel? ¿Quién es la viuda de John Lennon? ¿Quién fue el sucesor de Kim Il Sung? ¿Quién aprobó los primeros planes de construcción del Eurotúnel? ¿Qué monarca británico asistió a la inauguración del Eurotúnel? ¿Quién descubrió la tumba de Tutankhamon? ¿Con quién estaba casada Neferet? ¿Cuándo se creó la reserva de ballenas de la Antártida? ¿En qué fecha se reunió el G7 en Nápoles? ¿En qué fecha se inauguró el Eurotúnel? ¿En qué fecha llegará la sonda espacial Ulises a su destino? ¿Qué día fue la matanza del juzgado de Euskirchen? ¿Cuándo fue el funeral de Kim Il Sung? ¿Qué día nació Kim Jong Il? ¿Cuál es la fecha de nacimiento de Yasir Arafat? ¿En qué país está Hatsor? ¿En qué provincia está Atapuerca? ¿En qué ciudad está la mezquita de Al Aqsa? ¿Con qué país es fronterizo Corea del Norte? ¿En qué pais está Euskirchen? ¿A qué país pertenece la ciudad de Aquisgrán? ¿Dónde está Bonn? ¿En qué país está Tokio? ¿En qué país está Pyongyang? ¿Dónde comenzaron las excavaciones británicas para la construcción del Eurotúnel? ¿Dónde se subastó una camisa militar de Lennon? 153

¿Qué organismo español se encarga de informar sobre los movimientos sísmicos? ¿De qué organismo depende el ICONA? ¿Qué grupo encabeza Franck Goddio? ¿Qué agencia espacial ha construido la sonda Ulises? ¿Cómo se llama la agencia espacial norteamericana? ¿Qué agencia espacial tiene instalaciones en Robledo de Chavela? ¿Qué plataforma estaba acampada en el Paseo de la Castellana de Madrid? ¿A qué compañía aérea pertenece el avión secuestrado por el GIA? ¿Cuál es el nombre del consorcio aeronáutico europeo? ¿Qué organización española envió ayuda humanitaria a Ruanda? ¿Qué país fue denunciado por torturas en un informe de AI presentado ante el Comité de las Naciones Unidas contra la Tortura? ¿Quién convocó a los expertos en energías renovables para acudir a una reunión en Almería? ¿Cuántos ejemplares de ballena "Minke" quedan en el mundo? ¿Cuál era el valor aproximado de la carga de un galeón del siglo XVI? ¿Cuántas personas formaban la tripulación del "San Diego"? ¿A qué distancia de Burgos está Atapuerca? ¿Cuántos soldados rusos había en Letonia? ¿Cuántos pasajeros cruzarán el Eurotúnel anualmente? ¿A qué distancia de la Tierra está Júpiter? ¿Cuántos días se mantuvo la acampada en favor de la Plataforma del 0,7? ¿En cuántas horas se puede realizar el viaje de Londres a París por el Eurotúnel? ¿Qué país se opuso a la creación de la reserva de ballenas de la Antártida? ¿Qué país ha cazado ballenas en el Océano Antártico? ¿A qué enfermedad corresponden las siglas RSI? ¿Qué tipo de dolencia es característica del RSI? ¿Qué vitaminas ayudan en la lucha contra el cáncer? ¿Qué fruta tiene vitamina C? ¿Qué países une el Eurotúnel? ¿Qué empresa gestiona el Eurotúnel? ¿Cuál es la misión principal de la sonda Ulises? 154

¿Con el nombre de qué enfermedad se corresponde el acrónimo BSE? ¿Qué país ha organizado la operación "Turquesa"? ¿Quién murió el día 8 de julio de 1994? ¿En qué población de la isla de Hokkaido hubo un terremoto en 1993? ¿Cuántas ballenas cazaba anualmente Japón antes de 1987? ¿Bajo mandato de qué organización estaba la UNAMIR durante su misión de 1994? ¿Qué submarino chocó con un buque en el Canal de la Mancha el 16 de febrero de 1995? ¿Quién era el presidente del Comité Internacional de Bioética a finales de 1994? ¿En qué isla se celebró el Consejo de la Unión Europea durante el verano de 1994? ¿En qué país lucharon Tutsis y Hutus a mediados de los años noventa? ¿Qué organización estuvo acampada en la Castellana antes del invierno de 1994? ¿Qué se celebró en Nápoles del 8 al 10 de julio de 1994? ¿Quién era primer ministro de Noruega cuando se celebró el referéndum sobre su posible incorporación a la UE? ¿Quién era el presidente de Uganda durante la guerra de Ruanda? ¿Qué grupo terrorista disparó morteros durante el ataque al aeropuerto de Heathrow? ¿En qué época del año desapareció Jurgen Schneider al producirse la bancarrota de su empresa? ¿Quién es Isaac Rabin? ¿Quién es Felipe González? ¿Qué es el PSOE? ¿En qué equipo comenzó Ayrton Senna su carrera en la F1? ¿Qué empresa fabrica el Cadillac? ¿En qué año murió el presidente de Chipre, Makarios III? ¿En qué circuito de F1 se mató Ayrton Senna? ¿De qué ciudad era Ayrton Senna? ¿En qué país está el circuito de Interlagos? ¿Qué premio ganó Pulp Fiction en el Festival de Cine de Cannes? 155

¿En qué país se celebró la Eurocopa de 1996? ¿Cuántas carreras de la copa del mundo de slalom ganó Alberto Tomba entre 1994 y 1995? ¿Cuántos divorcios fueron presentados en Finlandia entre 1990 y 1993? ¿Cuál era el cargo de Erkki Liikanen antes de convertirse en comisario de la UE? ¿En qué equipo corrió Ayrton Senna antes de ser traspasado a McLaren? ¿Qué es la PESC? ¿Quién es Boris Yeltsin? ¿Cuál es el nombre del Presidente serbio? ¿Quién es el Secretario General de la ONU? ¿Quién sucedió a Jacques Santer en la presidencia de la Comisión Europea? ¿Qué significa el acrónimo OVNI? ¿Cuántas estrellas hay en nuestra galaxia? ¿Dónde vive el hombre más alto del mundo? ¿A qué organización internacionalmente reconocida pertenece el acrónimo AI? ¿Cuándo fue construida la Torre Eiffel? ¿Qué nuevo canal de televisión gay apareció en Francia el 25 de octubre de 2004? ¿Qué equipo de Fórmula 1 ganó el Gran Premio de Hungría en 2004? ¿Qué evento especial motivó la reunión de la Asamblea General de la ONU del 22 de octubre al 24 de octubre de 1995? ¿Cuándo pondrá Francia fin a las pruebas nucleares? ¿Qué es el MIT? ¿De qué organización es secretario general Willy Claes? ¿Qué edad tenía Nick Leeson en el momento de ser condenado a la cárcel? ¿Quién es el presidente del Comité Nobel noruego? ¿Cómo se llama el sindicato alemán de los trabajadores de la metalurgia? ¿Cuántos miembros tiene el sindicato IG Metall? ¿Quién es el delantero de la selección irlandesa de fútbol? ¿Quién es Yigal Amir? ¿Cuál es la última letra del alfabeto fonético de la OTAN? ¿Cómo murió Jimi Hendrix? ¿Cómo murió Olof Palme? 156

¿Cómo murió Isaac Rabin? ¿Cuánta gente vive en Estonia? ¿Qué edad tenía Richard Holbrooke en 1995? ¿De qué país era colonia Timor Oriental antes de ser ocupada por Indonesia en 1975? ¿Qué altura tiene el Nevado del Huila? ¿Qué volcán entró en erupción en junio de 1991? ¿En qué país está Alejandría? ¿Dónde está situado el oasis de Siwa? ¿Cuántos años estuvo en prisión Nelson Mandela? ¿Cuánto pescado come una foca al día? ¿Para qué periódico trabajaba Clark Kent? ¿Con qué película Marlee Matlin ganó un Oscar? ¿Qué huracán azotó la isla de Cozumel? ¿Quién es el patriarca de Alejandría? ¿Quién es el alcalde de Lisboa? ¿Quién es el primer ministro griego? ¿Cuándo declaró Macedonia su independencia? ¿Cuándo fue asesinado Salvo Lima? ¿Cuándo nació Louis Pasteur?

157

158

More Documents from "Miguel Cote"

337853
October 2019 27
October 2019 14
October 2019 14
Plastico.pdf
June 2020 5
Higgs Boson.pptx
June 2020 10