NovATIca: núm. 157, may.-jun. 2002. Recuperación de Información y la Web/Information Retrieval and the Web

Novática núm. 157 (may.-jun. 2002)


Información sobre ATI
Información sobre Novática
Indice general de Novática
Lecturas recomendadas
Suscripción a Novática
Cómo conseguir números de Novática
156

Número 157 Si desea comprar este número de Novática o suscribirse a Novática, infórmese pulsando aquí
Búsqueda en Novática	Partner of

Portada de Novática núm 157 Monografía

Recuperación de Información y la Web
En colaboración con Upgrade, The European Online Magazine for the IT Professional, revista digital promovida por CEPIS (Council of European Professional Informatics Societies).

Portada (pulse aquí si desea ver una versión de mayor tamaño -- 234 KB)
Antonio Crespo Foix
© 2002 ATI (Asociación de Técnicos de Informática)

SUMARIO

Bloque
editorial Monografía Secciones Técnicas Asuntos Interiores

Nota muy importante: Los artículos almacenados en PDF requieren el programa Acrobat Reader (gratuito) para su visualización.

Bloque editorial

En resumen: Filtrando la avalancha 3
Rafael Fernández Calvo
[contenido completo en formato HTML]

Monografía: Recuperación de la Información y la Web
En colaboración con Upgrade, que la publica en inglés. Upgrade, The European Online Magazine for the IT Professional, es la revista digital promovida por CEPIS (Council of European Professional Informatics Societies). Se publica también una versión italiana (sólo resúmenes) promovida por ALSI (sociedad miembro de CEPIS) y por el portal italiano Tecnoteca.

Editores invitados: Ricardo Baeza Yates y Peter Schäuble

Presentación. Recuperación de información: una disciplina con tradición 4
Ricardo Baeza Yates, Peter Schäuble
[contenido completo en formato PDF - 143 KB]

Recuperación de información de contenidos empresariales 5
Prabhakar Raghavan
[resumen]

Recuperación de información en la Web: nuevos paradigmas 8
Jacques Savoy
[resumen]

Un análisis de lenguajes de consulta para XML 11
Adelaida Delgado Domínguez, Ricardo Baeza Yates
[resumen]

Recuperación de información distribuida de bibliotecas digitales vía Web utilizando agentes móviles 21
J. Alfredo Sánchez, Sandra Nava Muñoz, Lourdes Fernández Ramírez, Griselda Chevalier Dueñas
[resumen]

Extracción automática de información con semántica de la Web 27
Rafael Corchuelo, José Luis Arjona, Antonio Ruiz
[resumen]

Sistema para la compresión y recuperación de documentos estructurados 34
Joaquín Adiego, Pablo de la Fuente, Jesús Vegas y Miguel Villarroel
[resumen]

Las campañas CLEF: evaluación de Sistemas de Recuperación de Información Multilingüe 41
Martin Braschler, Carol Peters
[resumen]

La Web de España 45
Ricardo Baeza Yates
[resumen --con fé de erratas]

Secciones Técnicas

Enseñanza Universitaria de la Informática
Computing Curricula 2001 47
Carlos Gregorio Rodríguez, Ángel Herranz Nieva, Raquel Martínez Unanue
[resumen --con fé de erratas] [contenido completo en formato PDF - 284 KB]

Informática gráfica
Tutorial sobre Detección de Colisiones en Informática Gráfica 55
Juan J. Jiménez Delgado, Rafael J. Segura Sánchez, Francisco R. Feito Higueruela
[resumen]

Interacción Persona-Computador
Ocultos pero no ausentes: los ciegos y la Informática (I) 59
Víctor M. Maheux
[resumen]

Referencias autorizadas 63
[contenido completo en formato PDF - 157 KB]

Sociedad de la Información

Personal y transferible
LSSICE - Proyecto de Ley de Servicios de la Sociedad de la Información y de Comercio Electrónico: una ley, siete riesgos 67
Ignacio Boixo Pérez-Holanda, Darío Álvarez Gutiérrez
[resumen] [contenido completo en formato PDF - 161 KB]

Programar es crear
Crucigramas 72
25º Concurso Internacional de Programación de ACM (2001): programa C
[contenido completo en formato PDF - 136 KB]

¡Queso!: solución 73
Manuel Carro, Pablo Sánchez, Julio Mariño
[contenido completo en formato PDF - 141 KB]

Asuntos Interiores

Coordinación Editorial 76 [contenido completo en formato PDF]
Programación de Novática 76 [contenido completo en formato HTML]
Normas de publicación para autores 77 [contenido completo en formato HTML]
Socios Institucionales 77 [contenido completo en formato HTML]

Monografía del próximo número: «XML: ¿el ASCII del siglo XXI?»
Editores invitados: Luis Sánchez Fernández y Carlos Delgado Kloos (Universidad Carlos III de Madrid)

Publicidad

Resúmenes de artículos

Monografía: "Recuperación de la Información y la Web"

En colaboración con Upgrade, que la publica en inglés. Upgrade, The European Online Magazine for the IT Professional, es la revista digital promovida por CEPIS (Council of European Professional Informatics Societies). Se publica también una versión italiana (sólo resúmenes) promovida por ALSI (sociedad miembro de CEPIS) y por el portal italiano Tecnoteca.

Editores invitados:

Ricardo Baeza Yates es Ph. D. en Computer Science (Univ. of Waterloo, Canadá, 1989), Magister en Ingeniería Eléctrica (1986) y Ciencias de la Computación (1985) de la Universidad de Chile; e Ingeniero Civil Eléctrico de la misma universidad. Actualmente es Catedrático en el Depto. de Ciencias de la Computación de la Universidad de Chile y Director del Centro de Investigación de la Web <http://www.ciw.cl>. Sus áreas de investigación son recuperación de información, minería de la Web algoritmos, y visualización de información. Es co-autor de un libro en recuperación de información (Addison-Wesley, 1999), de un manual de referencia en algoritmos y estructuras de datos (Addison-Wesley, 1991) y co-editor de un libro en recuperación de la información (Prentice-Hall, 1992). Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computación y ha recibido premios de la Organización de Estados Americanos y el Instituto de Ingenieros de Chile. Actualmente, entre otros cargos, es presidente del CLEI (Centro Latinoamericano de Estudios en Informática), miembro del directorio de IEEE-CS y es coordinador internacional del subprograma de informática y electrónica aplicadas de CYTED (Programa de Cooperación Iberoamericano). Durante el año 2000 puso en marcha una empresa de Internet para buscar en la Web Chilena <http://www.todocl.cl>. Su página personal está en <http://www.dcc.uchile.cl/~rbaeza/spanish.html>. <rbaeza@dcc.uchile.cl>

Peter Schäuble es CEO de la empresa Eurospider Information Technology AG, empresa suiza líder en recuperación de la información y que suministra software de monitorización de noticias y recuperación corporativa <http://www.eurospider.com>. Anteriormente fue Profesor Asistente de Ciencias de la Computación en el Instituto Federal Suizo de Tecnología (ETH, Zürich, Suiza) y dirigió el grupo de investigación de recuperación de la información. Es Licenciado en Matemáticas por el ETH y Doctor en Ciencias de la Computación por el mismo centro. Trabajó en el departamento técnico de la ESA (European Space Agency) y miembro invitado de los laboratorios de Hewlett-Packard en Palo Alto (California, EE.UU.). Ha publicado diversos artículos y libros de investigación sobre recuperación de la información. <Peter.Schauble@eurospider.com>

Recuperación de información de contenidos empresariales
Prabhakar Raghavan
Vicepresidente y Director Jefe de Tecnología, Verity, Inc.

Traducción: José Alfonso Accino (Grupo de Lengua e Informática de ATI)

Resumen.- La última década ha sido testigo del crecimiento de la recuperación de información, desde ser una asignatura menor en ciencias de la información y biblioteconomía, hasta una experiencia diaria para miles de millones de personas en todo el mundo. En gran medida, esta revolución ha sido impulsada por la WWW, con todos los vendedores haciendo hincapié en la gestión de contenidos, búsquedas y taxonomía para la web. Simultáneamente, las empresas han invertido en conectar en red toda su información hasta el punto de que cada vez es más factible el que los empleados dispongan de una sola ventana a todos los datos de la empresa. Apuntamos que, aunque los empleados tratan de tener en la empresa experiencias similares a las de la web, ambos dominios difieren sustancialmente en la naturaleza de sus contenidos, el comportamiento de sus usuarios y en los motivos económicos. Nuestro enfoque se dirige a esbozar los requerimientos de la recuperación de información en la infraestructura de contenidos de una empresa.

Palabras clave: recuperación de la información, infraestructura de contenidos, empresas

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Recuperación de información en la Web: nuevos paradigmas
Jacques Savoy
Institut Interfacultaire d’Informatique, Université de Neuchâtel, Neuchâtel (Suiza)

Traducción: Julio Ayesa (Grupo de Lengua e Informática de ATI)

Resumen.- La Web presenta un nuevo paradigma para la comunidad dedicada a la Recuperación deIinformación (IR), mientras simultáneamente está generando nuevos retos y atrayendo un creciente interés en todo el mundo. Un importante ejemplo de estos retos es la gestión de enormes colecciones de textos y la evaluación de la utilidad de los hiperenlaces contenidos en ellos.

Palabras clave: IR, recuperación de información, IR distribuida, búsqueda en la Web

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Un análisis de lenguajes de consulta para XML
Adelaida Delgado Domínguez (1), Ricardo Baeza Yates (2)
(1) Departament de C. Matemàtiques i Informàtica, Universitat de les Illes Balears; (2) Departamento de Ciencias de la Computación, Universidad de Chile

Resumen.- Un lenguaje de consulta para XML debería ser lo suficientemente flexible para cubrir el espectro de fuentes de información que XML permite etiquetar, incluyendo Bases de Datos y documentos distribuidos a través del Web. En este artículo se presenta un análisis comparativo de diversos lenguajes de consulta que han surgido para XML. Se estudian conjuntos de características deseables tanto desde la perspectiva de la comunidad de datos semiestructurados --la cual pone el énfasis principalmente en los grandes almacenes de datos, la integración de fuentes heterogéneas y la transformación de datos en formatos comunes de intercambio--, como desde la perspec-tiva de la comunidad de recuperación de información --que pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos resultado.

Palabras clave: XML, lenguajes de consulta, recuperación de información, datos semiestructurados

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Recuperación de información distribuida de bibliotecas digitales vía Web utilizando agentes móviles
J. Alfredo Sánchez (1,2), Sandra Nava Muñoz (2), Lourdes Fernández Ramírez (1,2), Griselda Chevalier Dueñas (2)
(1) Dirección de Bibliotecas, (2) CENTIA/ICT, Universidad de las Américas-Puebla (Puebla, México)

Resumen.- MAIDL (Mobile Agents in Digital Libraries --Agentes Móviles en Bibliotecas Digitales) es un marco de trabajo diseñado para recuperar información distribuida de una federación de bibliotecas digitales heterogéneas accesibles vía Web. La federación se lleva a cabo mediante dos mecanismos: un protocolo de recolección de metadatos y agentes móviles que exploran y filtran la información desde múltiples colecciones distribuidas. Los principales componentes de la arquitectura de MAIDL son nodos de red autónomos donde residen las bibliotecas digitales. El protocolo OAI (Open Access Initiative --Iniciativa de Archivos Abiertos) es la base para la interoperabilidad entre los nodos participantes. En cada nodo, las peticiones de información que hacen los usuarios son recibidas por agentes que viajan a los diferentes nodos de la federación en busca de recursos apropiados. Cada nodo cuenta con sus propios mecanismos de recuperación de información, los cuales pueden ser diferentes dentro de la federación, pero obteniendo recursos relevantes a las peticiones de los usuarios. Este artículo describe la arquitectura de MAIDL y los alentadores resultados iniciales obtenidos con una federación específica.

Palabras clave: agentes móviles, bibliotecas digitales, federación de colecciones, interoperabilidad.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Extracción automática de información con semántica de la Web
Rafael Corchuelo, José Luis Arjona, Antonio Ruiz
Depto. de Lenguajes y Sistemas Informáticos, Universidad de Sevilla

Resumen.- La Web Semántica dará significado a Internet, haciendo posible que los agentes web sean capaces de comprender la información que en ella aparece. Sin embargo, el proceso de transición a una Web semántica se sugiere como una tarea ardua y duradera; en este sentido, el proceso de extracción de información con semántica de la Web actual se ha convertido en un handicap para los agentes. En este artículo presentamos un marco de trabajo que resuelve el problema de la extracción automática de información con semántica asociada de la Web vigente en la actualidad, separando el proceso de extracción de la información de la lógica de negocio del agente y potenciando de esta forma la modularidad, adaptabilidad y facilidad de mantenimiento de los agentes web. Nuestra propuesta es novedosa ya que combina diferentes tecnologías para extraer información, navegar por la web y adaptarse automáticamente a cambios en los sitios web.

Palabras claves: agentes web, extracción de Información, wrappers, ontologías.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Sistema para la compresión y recuperación de documentos estructurados
Joaquín Adiego, Pablo de la Fuente, Jesús Vegas y Miguel Villarroel
Grupo de Recuperación de Información y Bibliotecas Digitales, Departamento de Informática, Universidad de Valladolid

Resumen.- Los sistemas de recuperación de información se utilizan para recuperar documentos en base a su contenido. El número de colecciones de documentos estructurados está creciendo debido a la utilización de los lenguajes de etiquetado estándar XML, SGML y HTML. Para estas colecciones el contenido y la estructura de los documentos se debe de indexar y recuperar con el fin de adaptarse a las necesidades del usuario. Se pueden aplicar técnicas de compresión para reducir los requisitos de almacenamiento. Las funcionalidades de búsqueda y recuperación se deben implementar usando una estrategia de indexación adecuada. Este artículo presenta una técnica que codifica y comprime el texto considerando las características del lenguaje español y de otros elementos que son independientes del lenguaje. Se ha desarrollado una herramienta basada en un índice invertido en combinación con una estrategia de compresión que considera tanto el contenido como la estructura de los documentos. La herramienta obtiene buenas tasas de compresión y tiempos de búsqueda bajos permitiendo recuperar el texto tal y como aparece en los documentos originales.

Palabras clave: recuperación de información, documentos estructurados, compresión de datos, indexación con estructura.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Las campañas CLEF: evaluación de Sistemas de Recuperación de Información Multilingüe
Martin Braschler (1), Carol Peters (2)
(1) Eurospider Information Technology AG (Zürich, Suiza); (2) IEI-CNR (Pisa, Italia)

Traducción: José Alfonso Accino (Grupo de Lengua e Informática de ATI)

Resumen.- Los sistemas CLIR (Cross-Language Information Retrieval --Recuperación de Información Multilingüe) que permiten a los usuarios encontrar y recuperar los documentos relevantes independientemente de su idioma, están alcanzando una importancia cada vez mayor en la sociedad global de la información. Las campañas de evaluación desempeñan un importante papel en el desarrollo de tales sistemas, permitiendo a los investigadores valorar y comparar enfoques y prestaciones. Se informa aquí del éxito del CLEF (Cross-Language Evaluation Forum --Foro de Evaluación Multilingüe) en sus dos primeros años de actividad.

Palabras clave: recuperación de información, recuperación de información multilingüe, evaluación, colecciones de tests multilingües, CLIR, CLEF.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

La Web de España
Ricardo Baeza Yates
Universidad de Chile

Resumen.- La Web española es un buen ejemplo de una web europea donde su dominio propio (.es) está subutilizado por las políticas de registros de nombres de dominio, que pueden ser similares en otros países. Se incluye información de tipos de dominios, estructura y contenido de la Web española, definida como los sitios web en números IP asignados a España.

Palabras clave: web española, nombres de dominio, estructura de la web, minería de la web

Fé de erratas: la primera frase de este artículo contiene algunos errores y ha de ser modificada como sigue:

«En España la penetración de Internet aún es baja comparada con la comunidad europea. Por ejemplo, hay 7.7 millones de internautas, que representan una penetración del 22,2%, penúltima en la comunidad europea y bajo la media de 37.7%».

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Secciones técnicas
Enseñanza Universitaria de la Informática
Computing Curricula 2001
Carlos Gregorio Rodríguez (1), Ángel Herranz Nieva (2), Raquel Martínez Unanue (3)
(1) Dpto. Sistemas Informáticos y Programación, Facultad de Informática, Universidad Complutense de Madrid; (2) Dpto. Lenguajes y Sistemas, Facultad de Informática, Universidad Politécnica de Madrid; (3) Dpto. Ciencias Experimentales e Ingeniería, Universidad Rey Juan Carlos (Madrid)

Resumen.- En diciembre de 2001 se publicó el informe final del volumen Computer Science del Computing Curricula 2001. Las recomendaciones desarrolladas por ACM y IEEE de forma individual, tanto como las recomendaciones elaboradas de forma conjunta, han sido y siguen siendo un punto de referencia para todos los que nos dedicamos a la enseñanza universitaria de la Informática. El objetivo de este artículo es dar a conocer las líneas maestras del informe, los principios del mismo, las nuevas áreas de conocimientos y las diferentes estrategias de implementación sugeridas. El objetivo final es que un lector interesado pueda hacerse una idea clara de las propuestas fundamentales del informe.

Palabras clave: planes de estudio, enseñanza de la Informática, recomendaciones curriculares, modelos curri-culares, enseñanza universitaria, Informática.

Fé de erratas: se ha creado una nueva versión que incorpora correcciones a la versión impresa de este mismo artículo, especialmente a la figura 2, con el exclusivo propósito de incorporarla a estas páginasde Novática en el sitio web de ATI. Pulse aquí para la nueva versión.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Informática gráfica
Tutorial sobre Detección de Colisiones en Informática Gráfica
Juan J. Jiménez Delgado, Rafael J. Segura Sánchez, Francisco R. Feito Higueruela
Depto. de Informática, Universidad de Jaén

Resumen.- En este artículo veremos el tratamiento informático del problema denominado «Detección de Colisión» en sistemas gráficos. Se define el término y sus problemas asociados, para a continuación clasificar las técnicas de detección de colisión más significativas, describiendo las bases generales de su funcionamiento, y enfocadas a un aumento del rendimiento de tales sistemas.

Palabras clave: detección de colisión, intersección, animación, simulación, informática gráfica.

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Interacción Persona-Computador
Ocultos pero no ausentes: los ciegos y la Informática (I)
Víctor M. Maheux
Colaborador de la Fundación de Ciegos Manuel Caragol

Resumen.- Este artículo es una introducción a la tecnología informática que los ciegos o discapacitados visuales pueden usar para acceder a la información que de otra forma les sería inaccesible. Esta tecnología de rehabilitación visual es fundamental para integrar a estas personas discapacitadas en la actual sociedad de la información. El artículo divide las adaptaciones existentes en dos niveles. Dentro de las adaptaciones de bajo nivel se describen las tres tecnologías básicas disponibles (ampliación de las imágenes y textos visualizados, síntesis de voz y salida usando el alfabeto Braille). Dentro de las adaptaciones de alto nivel se describen las soluciones disponibles basadas en una o varias de estas tres tecnologías, agrupadas también en tres apartados: revisores de pantalla, revisores de documentos y tomadores de notas. El artículo termina con una llamada de atención sobre el gran obstáculo existente para la difusión de esta tecnología, que no es otro que su alto precio de adquisición.

Palabras clave: ciegos, informática, sistemas de acceso.

Personal y transferible
LSSICE - Proyecto de Ley de Servicios de la Sociedad de la Información y de Comercio Electrónico: una ley, siete riesgos
Ignacio Boixo Pérez-Holanda (1), Darío Álvarez Gutiérrez (2)
(1) Presidente de la Asociación de Ingenieros en Informática de Madrid, socio de ATI; (2) Colegio de Ingenieros en Informática del Principado de Asturias y Depto. de Informática de la Universidad de Oviedo

Resumen.- La Directiva Europea 2000/31/CE tiene el objetivo de generar confianza en el ciudadano para la utilización de los servicios de la sociedad de la información, y del comercio electrónico. La Directiva debiera trasponerse a la Legislación Española antes del 17 de Enero del 2002. En ciertos puntos de
la transposición a la legislación española, como Anteproyecto de Ley de Servicios de la Sociedad de la Información y de Comercio Electrónico (LSSICE en siglas), se han detectado riesgos. Este artículo resume la postura de la Asociación de Ingenieros en Informática (AI2) sobre la LSSICE, presentando
los riesgos detectados y nuestras recomendaciones correspondientes para mejorar esta ley.

Palabras clave: LSSI, sociedad de la información, comercio electrónico, derecho informático

[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]

Vuelta a inicio

Última actualización: 17 de julio de 2002	Autor:Rafael Fernández Calvo
	novatica@ati.es

Sitio Web creado en 1994 por ATI (Asociación de Técnicos de Informática)
Éste es el más antiguo de los webs asociativos de España

Nota importante: Se permite la reproducción del material contenido en este sitio web, excepto las páginas, o partes de ellas, marcadas con © o Copyright, debiéndose en todo caso citar su procedencia.

Important notice: The contents of this website can be freely reproduced, except for the pages, or portions thereof, marked with © or Copyright. Any reproduction must make full mention of the source.