NovATIca: núm. 185, enero-febrero 2007. Búsqueda en la Web del futuro

En colaboración con UPGRADE, que la publica en inglés. UPGRADE, The European Journal for the Informatics Professional, es la revista digital promovida por CEPIS (Council of European Professional Informatics Societies).

Ricardo Baeza-Yates es el director de los nuevos laboratorios de investigación de Yahoo! en Barcelona y en Latinoamérica (Santiago, Chile). Previamente ha sido catedrático y director del Centro para la Investigación en la Web del Departamento de Informática de la Universidad de Chile, y Catedrático ICREA (Institució Catalana de Recerca i Estudis Avançats) en el departamento de Tecnología en la Universidad Pompeu Fabra en Barcelona. Ricardo es Doctor en Informática por la Universidad de Waterloo (Canada). Es coautor del libro Modern Information Retrieval, publicado en 1999 por Addison-Wesley, y también de la segunda edición del Handbook of Algorithms and Data Structures (Addison-Weesley, 1991). También fue coeditor del libro Information Retrieval: Algorithms and data Structures (Prentice-Hall, 1992). Es el primer científico informático elegido para la Academia de Ciencias de Chile, en 2003.

Paolo Boldi obtuvo su doctorado en informática en la Universidad de Milán, donde es actualmente profesor asociado en el Departamento de Ciencias de la Información. Sus intereses investigadores han tocado muy variados temas de la informática teórica y aplicada, tales como: la teoría de dominios, la teoría no clásica de la computabilidad, la computabilidad distribuida, las redes anónimas, el sentido de la dirección, y los sistemas auto-estables. Más recientemente, sus trabajos se han centrado en problemas relacionados con la World Wide Web, un campo de investigación en el que también ha aportado sistemas software utilizados por muchos otros especialistas en el tema. En particular, ha contribuido a escribir un motor de Recuperación de Información sobre texto altamente eficiente (MG4J), y una herramienta de compresión de grafos (WebGraph) que alcanza las tasas de compresión habituales en las herramientas actuales.

Ambos han coordinado el libro Software libre para servicios de información digital, Madrid: Prentice Hall, 2006.

José María Gómez Hidalgo es Doctor en Matemáticas, y ha sido profesor e investigador en la Universidad Complutense de Madrid, y lo es en la Universidad Europea de Madrid desde hace 10 años, donde actualmente dirige el Departamento de Sistemas Informáticos. Sus principales intereses investigadores incluyen el Procesamiento del Lenguaje Natural y el Aprendizaje Automático, con aplicaciones al Acceso a la Información periodística y biomédica, y la Recuperación de Información con Adversario, con aplicaciones en el filtrado de correo basura y en la detección de pornografía en la Web. Ha participado en 10 proyectos de investigación, dirigiendo algunos de ellos. José María es coautor de múltiples artículos científicos centrados en los temas mencionados, que pueden accederse por medio de su página Web <http://www.esi.uem.es/~jmgomez/>. Es miembro del Comité de Programa del CEAS (Conference on Email and Anti-Spam) 2007, del Spam Symposium 2007 y de otras conferencias, y ha revisado artículos de JASIST (Journal of the American Society for Information Science and Technology), ECIR (European Conference on Information Retrieval) y otras. También es revisor de proyectos para la Comisión Europea.

Vuelta a inicio

Búsqueda exploratoria: de encontrar a comprender
Gary Marchionini
School of Information and Library Science, University of North Carolina

Resumen: la búsqueda en la Web evoluciona a medida que cada vez más gente depende de los motores de búsqueda como punto de inicio para resolver múltiples problemas de información. Las técnicas actualmente adoptadas por todos los motores de búsqueda, orientadas a la precisión, han sido excepcionalmente fructíferas en ayudar a las personas a encontrar respuestas a preguntas específicas y en localizar sitios Web con el potencial de ayudarles a resolver problemas de información más generales o complejos. Sin embargo, a medida que la búsqueda en la Web madura, los usuarios esperan más que simples servicios de localización. Los usuarios desean ser capaces de plantear múltiples consultas, mezclar datos de distintos conjuntos de resultados, y moverse dentro y fuera de diferentes sitios Web fácilmente, sin necesidad de aprender nuevas técnicas de búsqueda en cada uno de ellos. Cuando nuestras necesidades de información no son enormemente específicas, o son complejas y evolutivas acabamos explorando muchos sitios Web usando cualquier herramienta que esos sitios nos proporcionen. Los investigadores y desarrolladores reconocen la necesidad de convertir la experiencia de la búsqueda en algo más fluido e interactivo, de modo que la gente pueda concentrar su atención en su necesidad de información, más que en las técnicas de búsqueda. En consecuencia, una motivación para el interés en la búsqueda exploratoria es ayudar a los usuarios a trabajar en espacios Web de modos más integrados, a través de múltiples consultas, sitios Web y conjuntos de resultados. Se trata de un reto excitante pero difícil, y por ello ha atraído considerable atención de la comunidad de la I+D.

Palabras clave: búsqueda exploratoria, diseño centrado en la persona, diseño de interfaces, Recuperación de Información.

Vuelta a inicio

Aprendiendo a analizar textos en lenguaje natural
Giuseppe Attardi
Dipartimento di Informatica, Università di Pisa (Italia)

Resumen: el análisis lingüístico es pocas veces utilizado en aplicaciones de recuperación de información como la búsqueda en la Web, la clasificación o generación automática de resúmenes. Avances recientes en técnicas de aprendizaje automático y estadístico han permitido desarrollar herramientas como analizadores o traductores automáticos que son suficientemente precisas y efectivas para desarrollos a gran escala. Los motores de búsqueda en la Web de generaciones futuras podrían realizar análisis lingüístico de documentos para extraer relaciones semánticas y enriquecer sus índices para proporcionar servicios más sofisticados que la mera recuperación de documentos. Para ilustrar estastécnicas, esbozamos como construir un analizador de dependencias que aprende a partir de ejemplos.

Palabras clave: acceso a la información, análisis sintáctico, búsqueda de respuestas, extracción de información, minería de opiniones, procesamiento del lenguaje natural.

Vuelta a inicio

Snaket: un motor de agrupamiento de resultados de búsqueda
Paolo Ferragina (1), Antonio Gullí (2)
(1) Dipartimento di Informatica, Università di Pisa (Italia); (2) Ask.com, Pisa (Italia)

Resumen: proponemos un (meta)-buscador, llamado SNAKET, que realiza consultas en 16 motores de búsqueda temáticos (especializados en diferentes materias como Web, blogs, libros y noticias) y que ofrece 2 vistas complementarias de los resultados obtenidos. Una es la clásica lista ordenada por relevancia, y la otra consiste en una organización jerárquica de los resultados en categorías etiquetadas con frases de longitud variable que se crean al vuelo en el momento de la consulta. Estas etiquetas representan la temática de los resultados de la consulta contenidos en sus categorías asociadas. Los usuarios pueden además navegar por la jerarquía de categorías con el fin de realizar las siguientes tareas: extracción de conocimiento, refinamiento de la consulta o personalización de resultados. Este método de personalización respeta la privacidad y no resulta intrusivo con los motores de búsqueda subyacentes.

Palabras clave: agrupamiento de referencias Web, motores de búsqueda, ordenación de resultados personalizada, resúmenes multidocumento, Snaket.

Vuelta a inicio

Naturaleza multimodal de la Web: nuevas tendencias en el acceso a la información
Luis Alfonso Ureña López, Manuel Carlos Díaz Galiano, Arturo Montejo Raez, Mª Teresa Martín Valdivia
Departamento de Informática, Universidad de Jaén

Resumen: la rápida evolución de la Web nos ha llevado a una revolución en su concepción. La Web se ha convertido en un entorno colaborativo en el que se mezclan tendencias sociales y tecnológicas, dando lugar a la Web 2.0. En este nuevo escenario, multimodal y multiligüe, es necesario aplicar todas las técnicas actuales para la búsqueda de información, gestionando no sólo información textual, sino tambien información visual (imágenes o videos) que pueden ayudar a mejorar nuestros sistemas. En el presenta artículo, además de analizar el paradigma anterior, presentamos una experiencia en la recuperación de información multimodal (texto e imágenes) dentro del dominio médico.

Palabras clave: CBIR, información médica, información multilingüe, recuperación de imágenes basada en el contenido, recuperación de información multimodal, Web 2.0.

Vuelta a inicio

Recuperación de información con adversario en la Web
Ricardo Baeza-Yates (1), Paolo Boldi (2), José María Gómez Hidalgo (3)
(1) Yahoo! Research Barcelona (España) y Santiago (Chile); (2) Università degli Studi di Milano Milan(Italia); (3) Universidad Europea de Madrid (España)

Resumen: la Web es la aplicación de Internet por excelencia. Como tal, y del mismo modo que pasa con el correo electrónico, es un objetivo claro para el abuso. El spam ha invadido los motores de búsqueda, las redes sociales, y aun más, la Web no sólo es objeto de abuso por los proveedores de contenidos, sino por sus propios usuarios. La Recuperación de Información con Adversario (Adversarial Information Retrieval, AIR) se centra en la clasificación de los contenidos o de su uso en relación con su forma de abuso, y se enfrenta a un adversario (el abusador), que tiene como objetivo engañar al clasificador. El spam de buscadores y el filtrado de contenidos Web son dos ejemplos de tareas de AIR en la Web. En este trabajo de revisan una serie de problemas de AIR en la Web, junto con algunas soluciones propuestas. Prestamos especial atención a la detección de spam basado en enlaces en motores de búsqueda, y al filtrado de contenidos Web, como representantes de un amplio rango de técnicas propuestas para alcanzar grados de efectividad altos en el control del abuso relacionado con la Web.

Palabras clave: análisis de enlaces, filtrado Web, PageRank, Recuperación de Información con Adversario, Spam Web, spam de motores de búsqueda.

Vuelta a inicio

GERINDO: Gestión y recuperación de información en grandes recopilaciones de documentos
Nivio Ziviani (1), Alberto H. F. Laender (1), Edleno Silva de Moura (2), Altigran Soares da Silva (2), Carlos A. Heuser (3), Wagner Meira Jr. (1)
(1) Departamento de Ciência da Computação, Universidade Federal de Minas Gerais, Belo Horizonte (Brasil); (2) Departamento de Ciência da Computação, Universidade Federal do Amazonas, Manaus (Brasil); Instituto de Informática, (3) Universidade Federal do Rio Grande do Sul, Porto Alegre (Brasil)

Resumen: en este artículo presentamos un resumen de algunos de los principales resultados producidos a lo largo de los cinco años del proyecto de investigación GERINDO. El proyecto pretende abordar la creciente demanda de herramientas de software, capaces de hacer frente a la información disponible en grandes recopilaciones de documentos como la World Wide Web, involucrando la participación de varios investigadores pertenecientes a las tres universidades brasileñas. Los esfuerzos del proyecto se han centrado en un número de temas de investigación sobre la gestión y recuperación de información en la Web, tales como modelos de recuperación de información, técnicas de búsqueda, clasificación de documentos, gestión de datos semiestructurados, generación de agentes para la recopilación de documentos y temas de eficiencia. Además de sus contribuciones específicas de investigación, el proyecto ha estimulado la interacción entre los investigadores de las tres universidades y ha promovido otras colaboraciones con equipos de investigación de Europa y América del Norte.

Palabras clave: GERINDO, gestión, información, motores de búsqueda, Recuperación de información, World Wide Web.

Vuelta a inicio

Líneas de investigación en Terrier: un motor de búsqueda para la recuperación avanzada en la Web
Iadh Ounis (1), Christina Lioma (1), Craig Macdonald (1), Vassilis Plachouras (2)
(1) University of Glasgow (Reino Unido); (2) Yahoo! Research, Barcelona (España)

Resumen: este artículo describe el motor de búsqueda Terrier, proporcionando una visión de su arquitectura y las principales características de recuperación de información (Information Retrieval o IR), y repasando la investigación puntera que ha sido implementada, con especial atención a la búsqueda en la Web. La investigación en IR se ocupa del desarrollo y evaluación de motores de búsqueda que recuperan documentos relevantes como respuesta a la consulta de un usuario. Terrier es una plataforma sumamente flexible, eficiente, eficaz y robusta para la investigación en IR, que puede utilizarse fácilmente con colecciones de documentos a gran escala [10]. Terrier implementa los modelos teóricos más avanzados para IR, que comprenden desde disciplinas
formales, como la teoría de la probabilidad, la estadística y el procesamiento del lenguaje natural, a aspectos computacionales como la compresión de índices y la eficiencia de la recuperación. El esfuerzo de investigación invertido en Terrier se ramifica constantemente hacia nuevas áreas del amplio campo de IR, lo que hace que Terrier sea una plataforma potente, modular y avanzada para el desarrollo y evaluación de nuevos conceptos e ideas.

Palabras clave: búsqueda en la Web, plataforma de investigación Terrier, recuperación de información.

Vuelta a inicio

Yahoo! Research Barcelona: Recuperación de Información y Minería Web
El Equipo de Investigación de Yahoo!
Yahoo! Research Barcelona

Resumen: a mediados de 2005, Yahoo! Inc. comenzó un ambicioso plan para crear un laboratorio de investigación industrial de nivel mundial centrándose en como dar servicio en todo el mundo a los distintos grupos de interés incluyendo anunciantes, propietarios de sitios web, editores y usuarios. La organización resultante, Yahoo! Research, ha emprendido distintas líneas de investigación. A primeros de 2006, se inauguró en Barcelona el primer laboratorio europeo de Yahoo! Research. En un año este laboratorio ha adquirido una notable relevancia en Europa y constituye uno de los mayores equipos en Minería y Recuperación Web en Europa. En este breve artículo, comentamos acerca de las líneas de investigación de Yahoo! Research en general y del laboratorio de Barcelona en particular, poniendoénfasis en las tendencias y problemas que consideramos como críticos para nuestra misión.

Palabras clave: medios de comunicación sociales, Minería Web, Recuperación Web.

Vuelta a inicio

Secciones técnicas

Lengua e Informática
Traducción automática y homosemantismo globalizador
José Mayoralas García
Profesor Titular de lengua y literatura francesa, Facultade de Filoloxía e Traducción da Universidade de Vigo

Resumen: en medio de una hiper-producción y de una traducción que no cesa, toda una sofisticada ingeniería lingüística amenaza con automatizar la traducción y, de manera complementaria e indiscriminada, expandirla luego vía cibertraducción y vía traducción audiovisual permanente. Así las cosas, vivimos un uniformante homosemantismo globalizador prêt-à-porter. Cualquier diferencia o matiz tiende a ir diluyéndose con vistas a mecánicas y pragmáticas (para) traducciones lingüísticas o audiovisuales adueñándose de la logo-esfera o de la blog-esfera. Luego, cabe interrogarse acerca del riesgo que supone la actual cohabitación del llamado pensamiento débil con el lenguaje macizo del fortísimo imperio audiovisual y su correspondiente traducción multiusos. Eso lo saben muy bien los poderes públicos y las agencias que propagan, traducen, diseccionan y mutilan las mismas noticias periódica e intermitentemente a través de radio-fórmulas, spots, flashes, blogs, etc. que nos invaden por doquier.

Palabras clave: globalización, homosemantismo, imperio audiovisual, ingeniería lingüística, paráfrasis, (para)traducción, traducción audiovisual, traducción automática, traducción multifuncional.

Vuelta a inicio

Redes y servicios telemáticos
Las redes de comunicaciones ayer y hoy. Problemas a resolver para una red global
Guillermo Ibáñez Fernández
Area de Ingeniería Telemática, Dpto. de Automática, Escuela Politécnica Superior de la Universidad de Alcalá de Henares

Resumen: las redes de comunicaciones se encuentran actualmente en una cierta situación de encrucijada, otra vez a la expectativa de una hipotética red multiservicio integrada, en esta ocasión basada en IP y Ethernet. En este artículo describimos la evolución paralela de las redes de comunicaciones y telecomunicaciones a través de los organismos de estandarización más destacados. Se describe el presente de las redes de comunicaciones y los requisitos de la red global. Se muestran las carencias de las propuestas actuales, basadas en uso iterativo de encapsulado, y criterios para arquitecturas deredes Ethernet escalable compatibles con IPs.

Palabras clave: árbol de expansión, encaminamiento jerárquico, enrutadores, Ethernet, puentes.

Vuelta a inicio

Tecnologías y Empresa
Los Proyectos Europeos contribuyen al desarrollo del sector TIC
Joan Batlle Montserrat
Jefe del Departamento de Proyectos Internacionales del Instituto Municipal de Informática, Ayuntamiento de Barcelona

Resumen: el artículo revisa en primer lugar las características del sector de las TIC en Cataluña y pone de manifiesto tanto su reducida importancia económica como los principales problemas que presenta. En la segunda parte, el artículo explora las características de los proyectos europeos y demuestra como la participación en Proyectos Europeos de investigación y desarrollo constituyen una forma eficaz de impulsar el desarrollo del sector corrigiendo a su vez algunos delos problemas que presenta.

Palabras clave: desarrollo, Europa, innovación, internacionalización, investigación, tecnologías de la información.

Vuelta a inicio

Sociedad de la Información

Futuros emprendedores
SAPientes: la experiencia de participar en la FLL
Alonso Alvarez García

Estrategia Tecnológica, Telefónica I+D

Resumen: la FLL (First Lego League) es una competición internacional de robótica para chicos entre 9 y 16 años que acaba de desembarcar en nuestro país. Este artículo resume la experiencia de uno de los equipos participantes (SAPientes), durante el pasado diciembre en la primera competición celebrada en España. Este artículo también tiene la intención de difundir el conocimiento de actividad y propiciarla aparición de nuevos equipos para la competición de 2007.

Palabras clave: First Lego League, FLL, ingeniería, nanotecnología, robótica.

Vuelta a inicio

Important notice: The contents of this website can be freely reproduced, except for the pages, or portions thereof, marked with © or Copyright. Any reproduction must make full mention of the source.

Última actualización: 15 de junio de 2007	Autor: Llorenç Pagés Casas
	novatica@ati.es