|
Monografía Recuperación de
Información y la Web
Portada
(pulse aquí si desea ver una versión
de mayor tamaño -- 234 KB)
SUMARIO
Nota muy importante: Los artículos almacenados en PDF requieren el programa Acrobat Reader (gratuito) para su visualización. En resumen:
Filtrando
la avalancha 3
Monografía:
Recuperación
de la Información y la Web
Editores invitados: Ricardo Baeza Yates y Peter Schäuble Presentación. Recuperación de información:
una disciplina con tradición 4
Recuperación de información de contenidos
empresariales 5
Recuperación de información en la Web:
nuevos paradigmas 8
Un análisis de lenguajes de consulta para XML
11
Recuperación de información distribuida
de bibliotecas digitales vía Web utilizando agentes móviles
21
Extracción automática de información
con semántica de la Web 27
Sistema para la compresión y recuperación
de documentos estructurados 34
Las campañas CLEF: evaluación de Sistemas
de Recuperación de Información Multilingüe
41
La Web de España 45
Enseñanza Universitaria
de la Informática
Informática gráfica
Interacción Persona-Computador
Referencias autorizadas
63
Personal y transferible
Programar es crear
¡Queso!: solución 73
Coordinación Editorial
76 [contenido completo
en formato PDF]
Monografía del próximo número: «XML: ¿el ASCII del siglo XXI?» Editores invitados: Luis Sánchez Fernández y Carlos Delgado Kloos (Universidad Carlos III de Madrid) |
|
En colaboración con Upgrade, que la publica en inglés. Upgrade, The European Online Magazine for the IT Professional, es la revista digital promovida por CEPIS (Council of European Professional Informatics Societies). Se publica también una versión italiana (sólo resúmenes) promovida por ALSI (sociedad miembro de CEPIS) y por el portal italiano Tecnoteca.
Ricardo Baeza Yates es Ph. D. en Computer Science (Univ. of Waterloo, Canadá, 1989), Magister en Ingeniería Eléctrica (1986) y Ciencias de la Computación (1985) de la Universidad de Chile; e Ingeniero Civil Eléctrico de la misma universidad. Actualmente es Catedrático en el Depto. de Ciencias de la Computación de la Universidad de Chile y Director del Centro de Investigación de la Web <http://www.ciw.cl>. Sus áreas de investigación son recuperación de información, minería de la Web algoritmos, y visualización de información. Es co-autor de un libro en recuperación de información (Addison-Wesley, 1999), de un manual de referencia en algoritmos y estructuras de datos (Addison-Wesley, 1991) y co-editor de un libro en recuperación de la información (Prentice-Hall, 1992). Ha sido dos veces presidente de la Sociedad Chilena de Ciencia de la Computación y ha recibido premios de la Organización de Estados Americanos y el Instituto de Ingenieros de Chile. Actualmente, entre otros cargos, es presidente del CLEI (Centro Latinoamericano de Estudios en Informática), miembro del directorio de IEEE-CS y es coordinador internacional del subprograma de informática y electrónica aplicadas de CYTED (Programa de Cooperación Iberoamericano). Durante el año 2000 puso en marcha una empresa de Internet para buscar en la Web Chilena <http://www.todocl.cl>. Su página personal está en <http://www.dcc.uchile.cl/~rbaeza/spanish.html>. <rbaeza@dcc.uchile.cl>
Peter Schäuble es CEO de la empresa Eurospider Information Technology AG, empresa suiza líder en recuperación de la información y que suministra software de monitorización de noticias y recuperación corporativa <http://www.eurospider.com>. Anteriormente fue Profesor Asistente de Ciencias de la Computación en el Instituto Federal Suizo de Tecnología (ETH, Zürich, Suiza) y dirigió el grupo de investigación de recuperación de la información. Es Licenciado en Matemáticas por el ETH y Doctor en Ciencias de la Computación por el mismo centro. Trabajó en el departamento técnico de la ESA (European Space Agency) y miembro invitado de los laboratorios de Hewlett-Packard en Palo Alto (California, EE.UU.). Ha publicado diversos artículos y libros de investigación sobre recuperación de la información. <Peter.Schauble@eurospider.com>
Traducción: José Alfonso Accino (Grupo de Lengua e Informática de ATI)
Resumen.- La última década ha sido testigo del crecimiento de la recuperación de información, desde ser una asignatura menor en ciencias de la información y biblioteconomía, hasta una experiencia diaria para miles de millones de personas en todo el mundo. En gran medida, esta revolución ha sido impulsada por la WWW, con todos los vendedores haciendo hincapié en la gestión de contenidos, búsquedas y taxonomía para la web. Simultáneamente, las empresas han invertido en conectar en red toda su información hasta el punto de que cada vez es más factible el que los empleados dispongan de una sola ventana a todos los datos de la empresa. Apuntamos que, aunque los empleados tratan de tener en la empresa experiencias similares a las de la web, ambos dominios difieren sustancialmente en la naturaleza de sus contenidos, el comportamiento de sus usuarios y en los motivos económicos. Nuestro enfoque se dirige a esbozar los requerimientos de la recuperación de información en la infraestructura de contenidos de una empresa.
Palabras clave: recuperación de la información, infraestructura de contenidos, empresas
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Traducción: Julio Ayesa (Grupo de Lengua e Informática de ATI)
Resumen.- La Web presenta un nuevo paradigma para la comunidad dedicada a la Recuperación deIinformación (IR), mientras simultáneamente está generando nuevos retos y atrayendo un creciente interés en todo el mundo. Un importante ejemplo de estos retos es la gestión de enormes colecciones de textos y la evaluación de la utilidad de los hiperenlaces contenidos en ellos.
Palabras clave: IR, recuperación de información, IR distribuida, búsqueda en la Web
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- Un lenguaje de consulta para XML debería ser lo suficientemente flexible para cubrir el espectro de fuentes de información que XML permite etiquetar, incluyendo Bases de Datos y documentos distribuidos a través del Web. En este artículo se presenta un análisis comparativo de diversos lenguajes de consulta que han surgido para XML. Se estudian conjuntos de características deseables tanto desde la perspectiva de la comunidad de datos semiestructurados --la cual pone el énfasis principalmente en los grandes almacenes de datos, la integración de fuentes heterogéneas y la transformación de datos en formatos comunes de intercambio--, como desde la perspec-tiva de la comunidad de recuperación de información --que pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos resultado.
Palabras clave: XML, lenguajes de consulta, recuperación de información, datos semiestructurados
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- MAIDL (Mobile Agents in Digital Libraries --Agentes Móviles en Bibliotecas Digitales) es un marco de trabajo diseñado para recuperar información distribuida de una federación de bibliotecas digitales heterogéneas accesibles vía Web. La federación se lleva a cabo mediante dos mecanismos: un protocolo de recolección de metadatos y agentes móviles que exploran y filtran la información desde múltiples colecciones distribuidas. Los principales componentes de la arquitectura de MAIDL son nodos de red autónomos donde residen las bibliotecas digitales. El protocolo OAI (Open Access Initiative --Iniciativa de Archivos Abiertos) es la base para la interoperabilidad entre los nodos participantes. En cada nodo, las peticiones de información que hacen los usuarios son recibidas por agentes que viajan a los diferentes nodos de la federación en busca de recursos apropiados. Cada nodo cuenta con sus propios mecanismos de recuperación de información, los cuales pueden ser diferentes dentro de la federación, pero obteniendo recursos relevantes a las peticiones de los usuarios. Este artículo describe la arquitectura de MAIDL y los alentadores resultados iniciales obtenidos con una federación específica.
Palabras clave: agentes móviles, bibliotecas digitales, federación de colecciones, interoperabilidad.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- La Web Semántica dará significado a Internet, haciendo posible que los agentes web sean capaces de comprender la información que en ella aparece. Sin embargo, el proceso de transición a una Web semántica se sugiere como una tarea ardua y duradera; en este sentido, el proceso de extracción de información con semántica de la Web actual se ha convertido en un handicap para los agentes. En este artículo presentamos un marco de trabajo que resuelve el problema de la extracción automática de información con semántica asociada de la Web vigente en la actualidad, separando el proceso de extracción de la información de la lógica de negocio del agente y potenciando de esta forma la modularidad, adaptabilidad y facilidad de mantenimiento de los agentes web. Nuestra propuesta es novedosa ya que combina diferentes tecnologías para extraer información, navegar por la web y adaptarse automáticamente a cambios en los sitios web.
Palabras claves: agentes web, extracción de Información, wrappers, ontologías.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- Los sistemas de recuperación de información se utilizan para recuperar documentos en base a su contenido. El número de colecciones de documentos estructurados está creciendo debido a la utilización de los lenguajes de etiquetado estándar XML, SGML y HTML. Para estas colecciones el contenido y la estructura de los documentos se debe de indexar y recuperar con el fin de adaptarse a las necesidades del usuario. Se pueden aplicar técnicas de compresión para reducir los requisitos de almacenamiento. Las funcionalidades de búsqueda y recuperación se deben implementar usando una estrategia de indexación adecuada. Este artículo presenta una técnica que codifica y comprime el texto considerando las características del lenguaje español y de otros elementos que son independientes del lenguaje. Se ha desarrollado una herramienta basada en un índice invertido en combinación con una estrategia de compresión que considera tanto el contenido como la estructura de los documentos. La herramienta obtiene buenas tasas de compresión y tiempos de búsqueda bajos permitiendo recuperar el texto tal y como aparece en los documentos originales.
Palabras clave: recuperación de información, documentos estructurados, compresión de datos, indexación con estructura.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Traducción: José Alfonso Accino (Grupo de Lengua e Informática de ATI)
Resumen.- Los sistemas CLIR (Cross-Language Information Retrieval --Recuperación de Información Multilingüe) que permiten a los usuarios encontrar y recuperar los documentos relevantes independientemente de su idioma, están alcanzando una importancia cada vez mayor en la sociedad global de la información. Las campañas de evaluación desempeñan un importante papel en el desarrollo de tales sistemas, permitiendo a los investigadores valorar y comparar enfoques y prestaciones. Se informa aquí del éxito del CLEF (Cross-Language Evaluation Forum --Foro de Evaluación Multilingüe) en sus dos primeros años de actividad.
Palabras clave: recuperación de información, recuperación de información multilingüe, evaluación, colecciones de tests multilingües, CLIR, CLEF.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- La Web española es un buen ejemplo de una web europea donde su dominio propio (.es) está subutilizado por las políticas de registros de nombres de dominio, que pueden ser similares en otros países. Se incluye información de tipos de dominios, estructura y contenido de la Web española, definida como los sitios web en números IP asignados a España.
Palabras clave: web española, nombres de dominio, estructura de la web, minería de la web
Fé de erratas: la primera frase de este artículo contiene algunos errores y ha de ser modificada como sigue:
«En España la penetración de Internet aún es baja comparada con la comunidad europea. Por ejemplo, hay 7.7 millones de internautas, que representan una penetración del 22,2%, penúltima en la comunidad europea y bajo la media de 37.7%».
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- En diciembre de 2001 se publicó el informe final del volumen Computer Science del Computing Curricula 2001. Las recomendaciones desarrolladas por ACM y IEEE de forma individual, tanto como las recomendaciones elaboradas de forma conjunta, han sido y siguen siendo un punto de referencia para todos los que nos dedicamos a la enseñanza universitaria de la Informática. El objetivo de este artículo es dar a conocer las líneas maestras del informe, los principios del mismo, las nuevas áreas de conocimientos y las diferentes estrategias de implementación sugeridas. El objetivo final es que un lector interesado pueda hacerse una idea clara de las propuestas fundamentales del informe.
Palabras clave: planes de estudio, enseñanza de la Informática, recomendaciones curriculares, modelos curri-culares, enseñanza universitaria, Informática.
Fé de erratas: se ha creado una nueva versión que incorpora correcciones a la versión impresa de este mismo artículo, especialmente a la figura 2, con el exclusivo propósito de incorporarla a estas páginasde Novática en el sitio web de ATI. Pulse aquí para la nueva versión.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- En este artículo veremos el tratamiento informático del problema denominado «Detección de Colisión» en sistemas gráficos. Se define el término y sus problemas asociados, para a continuación clasificar las técnicas de detección de colisión más significativas, describiendo las bases generales de su funcionamiento, y enfocadas a un aumento del rendimiento de tales sistemas.
Palabras clave: detección de colisión, intersección, animación, simulación, informática gráfica.
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Resumen.- Este artículo es una introducción a la tecnología informática que los ciegos o discapacitados visuales pueden usar para acceder a la información que de otra forma les sería inaccesible. Esta tecnología de rehabilitación visual es fundamental para integrar a estas personas discapacitadas en la actual sociedad de la información. El artículo divide las adaptaciones existentes en dos niveles. Dentro de las adaptaciones de bajo nivel se describen las tres tecnologías básicas disponibles (ampliación de las imágenes y textos visualizados, síntesis de voz y salida usando el alfabeto Braille). Dentro de las adaptaciones de alto nivel se describen las soluciones disponibles basadas en una o varias de estas tres tecnologías, agrupadas también en tres apartados: revisores de pantalla, revisores de documentos y tomadores de notas. El artículo termina con una llamada de atención sobre el gran obstáculo existente para la difusión de esta tecnología, que no es otro que su alto precio de adquisición.
Palabras clave: ciegos, informática, sistemas
de acceso.
Personal
y transferible
LSSICE - Proyecto de Ley de Servicios de la Sociedad
de la Información y de Comercio Electrónico: una ley, siete
riesgos
Ignacio Boixo Pérez-Holanda (1), Darío
Álvarez Gutiérrez (2)
(1) Presidente de la Asociación de Ingenieros
en Informática de Madrid, socio de ATI; (2) Colegio de Ingenieros
en Informática del Principado de Asturias y Depto. de Informática
de la Universidad de Oviedo
Resumen.- La Directiva Europea 2000/31/CE tiene
el objetivo de generar confianza en el ciudadano para la utilización
de los servicios de la sociedad de la información, y del comercio
electrónico. La Directiva debiera trasponerse a la Legislación
Española antes del 17 de Enero del 2002. En ciertos puntos de
la transposición a la legislación española,
como Anteproyecto de Ley de Servicios de la Sociedad de la Información
y de Comercio Electrónico (LSSICE en siglas), se han detectado riesgos.
Este artículo resume la postura de la Asociación de Ingenieros
en Informática (AI2) sobre la LSSICE, presentando
los riesgos detectados y nuestras recomendaciones correspondientes
para mejorar esta ley.
Palabras clave: LSSI, sociedad de la información, comercio electrónico, derecho informático
[Si desea adquirir este número de Novática o suscribirse a Novática, infórmese pulsando aquí]
Última actualización: 17 de julio de 2002 | Autor:Rafael Fernández Calvo |
novatica@ati.es
|
Important notice: The contents of this website
can be freely reproduced, except for the pages, or portions thereof, marked
with © or Copyright. Any reproduction must make full mention
of the source.