Desde niños estamos en este mundo tratando de acomodarnos y adaptarnos a nuestro ambiente. Este proceso de adaptación involucra hacer preguntas, ya que tratamos de solucionar problemas en la misma forma que los adultos; es decir, como seres pensantes. Así, hacer preguntas es parte de nuestra comprensión humana innata, que permanece por el resto de nuestra vida. La contraparte de hacer preguntas es responder preguntas, otra actividad humana que requiere inteligencia. Esta actividad tiene un nivel de dificultad que se ha intentado delegar a las computadoras, prácticamente desde la aparición de estas.
La búsqueda de respuestas (question answering, en inglés) se refiere a la tarea general de obtener una respuesta específica a preguntas planteadas por usuarios, partiendo de una colección de textos. Esta tarea requiere esfuerzos más allá de la recuperación de información, que es como se le conoce a la tarea de obtener documentos relacionados con una necesidad de información y que realizamos al usar un buscador en internet, ya que una vez que se encuentra un documento acerca de la pregunta, el sistema tiene que acceder al contenido del documento para ubicar la respuesta deseada.
El problema de búsqueda de respuestas por una computadora se ha reconocido y tratado de resolver desde la década de los 70s del siglo pasado para preguntas de dominio específico, por ejemplo preguntar sobre las rocas que se trajeron de la luna o sobre las partes de un avión. Con el advenimiento de buscadores (browsers) trabajando sobre miles de millones de documentos en internet, la necesidad de responder a preguntas del usuario ha emergido nuevamente, llevando a máquinas de búsqueda de respuestas especializadas tales como answers.com o ask.com, o servicios adicionales en buscadores tradicionales como Yahoo.
La tarea no es fácil y está lejos de estar completamente automatizada dado que hay una gama amplia de preguntas, desde aquellas solicitando datos acerca de hechos, por ejemplo, ¿cuántos años tiene Madonna? o ¿dónde está el Taj Mahal?; otras cuestionando sobre la naturaleza de objetos o personas, referidas como preguntas de definición, por ejemplo ¿quién es Nelson Mandela? o ¿qué es una nanopartícula?; hasta aquellas preguntas de naturaleza especulativa, tales como ¿está Pemex en problemas? En consecuencia, el problema se resuelve parcialmente para preguntas simples para usuarios casuales, pero permanece abierto para otras preguntas planteadas por usuarios más informados, tales como analistas o reporteros.
La investigación reciente se ha enfocado a desarrollar sistemas para búsqueda de respuestas de dominio abierto, es decir sistemas que toman como fuente de información una colección de textos sobre una variedad de tópicos, y resuelven preguntas cuyas respuestas se pueden obtener de la colección de partida.
La serie de conferencias Trec (acrónimo de text retrieval conference) realizadas en Estados Unidos, cuya meta inicial fue evaluar sistemas tradicionales de recuperación de información, sirvió para incrementar el interés en los sistemas de búsqueda de respuestas, iniciando con la Trec–8 en 1999, un foro de evaluación específico para estos sistemas. Para dar una idea del problema planteado en estos foros, en el Trec–11 de 2002 se usó una colección de poco más de un millón de documentos (3 gigabytes de texto) y se evaluaron los sistemas sobre 500 preguntas obtenidas de los registros de dos sitios (MSN Search y AskJeeves), de las cuales se pudo responder el 83 por ciento de las preguntas. La importancia de la tarea quedó nuevamente de manifiesto al organizarse posteriormente otro foro de evaluación en el contexto europeo, el llamado CLEF (acrónimo para Cross Language Evaluation Forum).
A partir de los sistemas de búsqueda de respuestas desarrollados hasta ahora, se pueden identificar tres fases principales: 1. análisis de la pregunta, 2. recuperación del documento, y 3. extracción de la respuesta. La primera fase se encarga de identificar el tipo de respuesta esperada a partir de la pregunta dada, es decir se espera que una pregunta “cuándo” produzca una respuesta de tipo fecha, o una pregunta “dónde” nos lleve a identificar un lugar. Los tipos de respuesta mas comúnmente usados son nombre de persona, nombre de organización, cantidad, fecha y lugar. En la segunda fase se lleva a cabo un proceso de recuperación (búsqueda) sobre la colección de documentos usando la pregunta, con el cual se trata de identificar documentos acerca de la pregunta que probablemente contengan el tipo de respuesta esperado. El resultado de esta segunda fase es un conjunto reducido de documentos y preferentemente párrafos específicos. La última fase usa el conjunto de documentos obtenido en la fase previa y el tipo esperado de respuesta identificado en la primera fase, para localizar la respuesta deseada. Algunos autores consideran otra fase, entre la segunda y tercera fases, la cual selecciona fragmentos de los documentos obtenidos como resultado de la búsqueda, antes de extraer las respuestas.
Las preguntas de definición demandan un proceso más complejo en la tercera fase, dado que se deben obtener varios segmentos complementarios de información y que a la vez no sean repetitivos. Para alcanzar una buena “definición” con frecuencia se debe recurrir a varios documentos.
En México se ha estado investigando en sistemas para hacer búsqueda de respuestas desde el año 2003, principalmente para el idioma español donde existe rezago en comparación a otras lenguas como el inglés. Estudiantes e investigadores del Laboratorio de Tecnologías del Lenguaje de la Coordinación de Ciencias Computacionales de INAOE han participado desde el año 2004 en el CLEF. Entre sus logros está el haber obtenido el primer lugar en responder preguntas en español en 2005, el primer lugar para italiano y el segundo lugar para francés para el mismo año, además de ser el primer grupo latinoamericano en participar.
El problema permanece abierto para preguntas elaboradas, por ejemplo con restricciones temporales como ¿quiénes fueron los presidentes de México durante la Segunda Guerra Mundial?, o geográficas, como ¿cuáles son las poblaciones más cercanas al Popocatépetl? Si uno considera la multiplicidad del lenguaje que se tiene en internet (y que es una preocupación especialmente para la Comunidad Europea) el problema se mueve a otra dimensión. Alcanzar una solución en estos contextos requiere resolver problemas específicos al lenguaje, de traducción y de procesos de razonamiento.
*INAOE