Búsqueda y Recuperación de Información en la Internet

José A. Mañas <jmanas@dit.upm.es>
Dpt. de Ingeniería de Sistemas Telemáticos
E.T.S. de Ingenieros de Telecomunicación
Universidad Politécnica de Madrid

30 de junio, 1994

Resumen

Internet permite el acceso a cantidades ingentes de información, acceso que se logra en dos fases: localización y recuperación; de las cuales la primera es la más difícil, con difererencia. En este artículo presentamos una serie de herramientas, casi todas muy recientes, que ayudan a moverse por la red, a organizar su contenido y a descubrir lo que se busca.

Introducción

La Internet es un conglomerado ingente de recursos. Se calculan en 10--20 millones las personas accesibles, y del orden de billones los bytes de documentación en general y programas que se pueden recoger de la red. En semejante abundancia es necesario disponer de medios eficaces para localizar lo que se necesita y traerlo al ordenador local.

Por razones históricas, la Internet se ha venido desarrollando de forma abierta y voluntarista. Esta es la principal razón de su éxito: al no ser de nadie, todo el mundo la considera un poco suya, y aporta su granito de arena. Pero al tiempo es su debilidad: con todo el mundo aportando por su cuenta el orden es escaso, y la calidad no es homogenea. Esta situación resulta chocante en un desarrollo tecnológico de finales del siglo XX; pero en realidad es lo habitual en obras humanas tan ambicionas.

La Internet se parece mucho a una gran ciudad, donde las redes de comunicaciones proporcionan a modo de calles y accesos para llegar a los servicios que se ofrecen a los visitantes. Hay barrios interesantes y barrios peligrosos; hay tiendas de andar por casa, supermercados y tiendas de lujo; hay zonas que vale la pena visitar, y otras que no; hay ciudades universitarias y parques tecnológicos, etc. Como en toda ciudad un poco grande (y la Internet es muy grande), se necesian planos y guías para saber a dónde ir y dónde encontrar lo que se necesita.

A diferencia de una ciudad, la Internet se puede recorrer cómodamente desde casa, moviendo poco más que los dedos sobre las teclas. E igualmente las guías y planos de Internet son accesibles como un servicio más. "No me des un pez, !enséñame a pescar!" dide el viejo proverbio chino, y así intenteré hacerlo a continuación: no voy a contar dónde están los servicios finales, sino sólo dónde están las guías, qué información proporcionan, y un poquitín de cómo funcionan.

La Internet permite que cualquier par de ordenadores conectados a élla puedan comunicarse entre sí de una forma que parece directa; es decir, que es capaz de ocultar en buena medida la forma física de llegar de uno a otro. El límite lo impone la calidad de los enlaces de comunicaciones que realmente utilicemos.

Los ordenadores se comunican por medio de protocolos que son lenguajes monotemáticos que permiten un cierto nivel de diálogo e incluso de negociación entre equipos. En Internet hay multitud de protocolos, cada uno especializado en su pequeña área de aplicación. Pero hay una cosa común a prácticamente todos los protocolos que se utilizan en Internet: el modelo cliente -- servidor. Si un ordenador ofrece algo al exterior, se dice que es un centro servidor. Técnicamente, un servidor es un programa que está permanentemente escuchando lo que se dice por Internet y cuando oye algo en su idioma (en su protocolo) se activa y contesta. Las comunicaciones las empiezan los clientes que, a petición del usuario final, se ponen en comunicación con el servidor para lograr un cierto servicio distribuido entre ambos.

Es fácil confundir un protocolo con una aplicación que lo utiliza. A ello ayudan los programadores, que le suelen llamar a todo con el mismo nombre. Para el usuario final, que no se supone un experto en programas y protocolos de comunicaciones, todo esto debe dar un poco igual. Lo que hay que saber es qué servicios hay para poder elegir el que nos conviene, y saber un poquitín de sus características técnicas para fundamentar la decisión.

El resto del artículo se divide en dos grandes bloques: perimero presentaré herramientas para localizar programas y documentos en general, y en segundo lugar describiré servicios de información sobre personas. A lo largo del texto utilizaré la notación URL (identificación unívoca de recursos en Internet) que se describe en el Apéndice A.

Localización de Programas y Documentos

Desde tiempos inmemoriales Internet proporciona un protocolo/herramienta denominado FTP [14] que permite transferir ficheros entre ordenadores. Se basa en un servidor de ficheros y un cliente de acceso que comunican los directorios de dos ordenadores permitiendo moverse por ellos e intercambiar ficheros.

FTP ha sido tradicionalmente el protocolo estrella de la Internet en términos de volumen de datos transferidos. Este papel se ha visto relativizado con la proliferación de aplicaciones multimedia que provocan trasiegos mucho mayores.

Conociendo el nombre del ordenador, el directorio y el nombre del fichero, es elemental recuperarlo. A veces se necesita una cuenta y palabra de paso, si bien la información pública suele estar bajo una pseudocuenta anonymous y como palabra de paso se utiliza la dirección de correo electrónico del peticionario (por si hubiera que contactarle en caso de problemas).

Archie

Todo es muy fácil con FTP en cuanto conocemos el ordenador, el directorio y el nombre del fichero; si alguien nos lo dice, perfecto; pero si no, hay que buscarlo. Para ello se desarrolló Archie [5] [6] en la Universidad de McGill (Canadá).

Esta es una herramienta que recopila información (directorios y ficheros) de una larga serie de servidores FTP anónimos, la indexa, y permite búsquedas sobre élla. La tarea de acceder a servidores FTP es lenta y actualmente lleva más de un mes completar un ciclo de consultas. Originalmente había un sólo centro que hacía todas las consultas. Actualmente hay una red de centros que se reparten la tarea de consultar y luego intercambian información entre ellos.

Archie mantiene también mantiene un enorme índice que correlaciona nombres de ficheros con breves descripciones de su utilidad o contenido (1 línea). Esto permite consultas por contenido o función para averiguar el nombre del fichero preciso.

Los servidores archie suelen proporcionar una cuenta anónima desde la que se puede acceder esta información. Además, cualquier ordenador conectado a Internet puede instalar su cliente que permite elaborar las consultas localmente y luego sigue un protocolo específico para consultar al servidor más cercano.

Actualmente, archie mantiene información de más de un millar de servidores anónimos, indexa más de 4.000 paquetes y más de 2 millones de documentos. Se realizan unas 50.000 consultas diarias.

Figura 1.- Archie busca wsarchie, una versión para MS-Windows.

Archie es tan efectivo que este artículo no necesita dar indicaciones de dónde se puede encontrar cada herramienta de las que se citan: "!consulte a archie!". La figura 1 muestra una búsqueda en la que archie se encuentra a sí mismo.

Wide Area Information Servers

Los bibliotecarios son unos profesionales muy interesados en el uso de la Internet como medio de acceso a las bibliotecas. Por eso llevan años trabajando en un protocolo que permita transacciones entre los archivos informatizados de las diferentes bibliotecas. Siguiendo el modelo cliente--servidor, el cliente de una biblioteca puede ponerse en contacto con el servidor de otra para recabar información, básicamente índices de fichas de existencias. De esto entiende el protocolo Z.39-50 [12] desarrollado por NISO y en vías de aceptación mundial por ISO (10163).

Brewster Kahle, mientras trabajaba en Thinking Machines, Inc., y en colaboración con Dow Jones, Apple y KPMG Peat Marwick, desarrolló una herramienta, WAIS [9], basada en dicho protocolo. Actualmente, B. Kahle ha montado su propia empresa en base a esta herramienta.

WAIS permite indexar localmente la información que tengamos y acceder a ella bien localmente (uso privado) o remotamente (uso público, que puede ser gratuito o de pago). La herramienta admite consultas en lenguaje natural, identifica posibles documentos que respondan a la pregunta, e incluso permite recuperar el documento en sí.

Figura 2.- WAIS consulta CACM.SRC.

Es esencial la filosofía de que la inteligencia está en el servidor. Se quiere que los clientes sean muy sencillos conceptualmente (interfaz con el usuario y punto) con lo que pueden difundirse ampliamente y de forma gratuita. Lo sofisticado es el servidor que ante una pregunta en lenguaje natural busca inteligentemente por los índices y devuelve referencias a documentos que pueden casar. El servidor debe admitir casi cualquier pregunta, y debe responder sensatamente, no sólo con referencias a documentos que casan con la pregunta, sino que además debe ser capaz de ordenar estos documentos. Toda ordenación es heurística y cada servidor puede aplicar diferentes heurísticos, es más, puede ir aprendiendo con el tiempo y contestar cada día con más fundamento. El mismo cliente puede hablar con muchos servidores, tanto si son simplones y sus respuestas tienen un valor muy relativo, como con servidores muy elaborados y costosos. Estabilizado el protocolo, ahora el negocio está tanto en la información como en la inteligencia de los servidores.

La ordenación de las respuestas se denomina "realimentación significativa" y da pie a una interesante área de aplicación de las técnicas de inteligencia artificial y lógica borrosa. El cliente puede formular la pregunta como una frase normal. El servidor elimina signos de puntuación, artículos, conjunciones, palabras muy comunes (que en la práctica aparecen en todos los documentos) y hace algún análisis de plurales, tiempos de los verbos, etc. Al final, se queda con una serie de palabras que considera significativas, busca en los índices, y ordena los documentos que contienen dichas palabras para responder al cliente. La ordenación responde a heurísticos que pueden ser tan simples como el número de veces que aparece cada palabra, si aparece en el título o perdida en el contenido, si las palabras aparecen juntas, cercanas o dispersas, etc. Por último, WAIS puede tomar un documento como referencia: el cliente pide "búscame más que traten de lo mismo que éste". WAIS extrae del documento aquellas palabras que le parecen significativas (no son términos comunes, aparecen muchas veces, ...) y aplica estos datos para lanzar una nueva búsqueda.

La figura 2 muestra una consulta
wais://quake.think.com/proj/wais/db/cacm/cacm
una base de datos que contiene artículos publicados en el Communications of the ACM. Preguntamos acerca de individuals y privacy. Una vez localizado un artículo interesante, hemos vuelto a lanzar una segunda consulta buscando artículos similares. El resultado de esta última consulta aparece en la figura.

El resultado global es que el usuario puede partir de una pregunta muy general e ir refinando su búsqueda de forma interactiva. Lo importante es que bases de datos muy complejas puedan ser utilizadas por gente de la calle sin requerir una formación específica en bases de datos.

Navegación por la Internet

Recuperando el símil de la Internet con una gran ciudad, antiguamente la única forma de llegar a un ordenador era plantarse en él como a través de una quita dimensión. Esto es excelente cuando uno sabe a dónde va; pero a menudo se necesita más. Cuando uno va de compras, una forma de encontrar lo que se busca es callejear por el barrio adecuado mirando en las diferentes tiendas. En Internet a esto se le llama navegar.

Gopher

La necesidad de navegar se convirtió en imperiosa en la Universidad de Minnesota (1990) que dispone de un amplio campus y multitud de recursos informáticos: científicos, académicos, administrativos, culturales, etc. Se estaba convirtiendo en un lio el mantener un directorio en papel del nombre de cada ordenador, la información que contenía, dónde estaba, etc., y así se inventaron el gopher [11]. El nombre es el de un ratoncito habitual en aquellas praderas que es capaz de encontrar lo que busca a través de un laberinto de canales.

La idea es sencilla: convirtamos cada directorio público en un menú; de forma que un usuario disponga de una interfaz sencilla para elegir a dónde quiere ir. Si elige un fichero, se le da; si elige otro directorio, aparece un nuevo menú y así sucesivamente. En la práctica los nombres de los directorios y ficheros suelen ser crípticos (en un PC se limita a 8 caracteres, en muchas máquinas Unix a 15 caracteres, etc.). Así gopher propone un mecanismo complementario para asociar a cada objeto una breve frase descriptiva (normalmente 1 línea) para hacer menús cómodos e inteligibles.

El siguiente paso de gopher son los directorios virtuales o menús cuyos componentes no son necesariamente los ficheros de un ordenador, sino que puede saltar a los de otro ordenador, todo esto oculto bajo la frase descriptiva que el usuario puede seguir utilizando para saltar de ordenador en ordenador sin darse cuenta (bueno, es un decir, la velocidad de acceso puede cambiar sustancialmente; pero la interfaz funcional es uniforme).

Con esta filosofía, todos los ordenadores que instalen un servidor gopher quedan integrados en el entramado de calles y avenidas. Está en la mano de los administradores (bibliotecarios) el ir construyendo menús virtuales que ordenen el planeta por servicios, tarea que avanza a pasos agigantados.

El protocolo gopher se ha diseñado de forma abierta, tal que permita extensiones fáciles del tipo de documentos que se traen. Los clientes gopher disponen de una tabla de configuración similar al mecanismo de asociación de MS-Windows. En MS-Windows se asocian las extensiones en el nombre de ficheros con una aplicación capaz de manejarlo. En gopher se asocia un tipo de fichero con una aplicación. El tipo lo decide el servidor (probablemente en base a la extensión del nombre) y la asociación la realiza el cliente. Con este simple mecanismo es posible introducir información multimedia: imágenes y sonido. Nada impide asociar ficheros para hojas de cálculo, bases de datos, etc.

Incluso es posible mantener el mismo material en diferentes formatos. Por ejemplo, en castellano, inglés, ASCII, PostScript, Word, ... El cliente avisa al usuario de la variedad existente, y éste puede elegir la opción que más le convenga.

Gopher se complementa con una escueta capacidad de dialogo. Ciertos enlaces se califican como indexados, lo que se interpreta como que el cliente gopher debe pedirle al usuario una relación de palabras que quiere utilizar en la búsqueda. Con esta información, el cliente se pone en contacto con el servidor, le pasa las palabras de búsqueda, recoge la relación de documentos que localiza el servidor (ordenados por algún heurístico que permita una realimentación significativa) y los presenta como un nuevo menú en el que el usuario puede elegir algún documento, etc.

Globalmente, todo el gopher es bastante sencillo, el protocolo, el servidor y, sobre todo, el cliente, por lo que existen multitud de versiones para todo tipo de modelos de ordenadores.

Cuando los proveedores detectaron este invento, se les hizo la luz para anunciar sus productos en la red. Es obvio cómo organizar sus preciosos catálogos de productos en forma de directorios de clasificación y ficheros de descripción, precios, disponibilidad, etc. Y es obvio que aparece un negocio adicional que es de creación de servicios de páginas amarillas que agrupen proveedores.

World Wide Web

Mientras gopher crecía y se desarrollaba en las praderas de Minnesota, los europeos estábamos incubando un huevo similar; pero mucho más potente. Tim Berners-Lee del CERN (el laboratorio europeo de física nuclear en Ginebra) desarrollaba la "World Wide Web" [2], WWW para simplificar. Comparte muchas ideas con gopher; pero aquí se basa en ficheros como elementos de menú para navegar. Esto se llama hipertexto y consiste en hacer activos los ficheros. Ciertas palabras, frases o incluso dibujos son algo más que una cosa para observar: si uno los activa, el sistema nos lleva a otro documento bien en el mismo ordenador, bien en otro ordenador. En esta filosofía, los directorios se transforman en ficheros activos, y todo queda homogéneo.

WWW es, entre otras cosas, un procesador de textos. El que prepara un documento para hipernavegar lo hace rellenando el documento de claves para ordenar párrafos, listas, negritas, etc, como en los peores procesadores de texto de la antigüedad (van apareciendo poco a poco procesadores de texto interactivos tipo Word; pero aún no está el mercado muy desarrollado). El caso es que el que prepara el documento no sabe si el lector dispondrá de una preciosa pantalla de colores y alta resolución o un simple terminal vt100. La idea es que el cliente haga el procesado del texto para adecuarlo a las características del terminal del cliente. Igualmente hay que decidir de qué forma el usuario identifica un enlace hipertexto para seguirlo; si tiene ratón es bastante obvio, pero en terminales baratos hay que ponerle cierta imaginación adicional.

Figura 3.- mosaic http://wings.buffalo.edu/world

La gran diferencia de WWW frente a gopher está en basarse en documentos activos. El documento bien formateado, con figuras y explicaciones es la forma natural de comunicarse con el lector. En gopher un documento está muerto: para seguir navegando hay que salir de él y regresar a los menús de directorios. En WWW se navega desde el cuerpo de los documentos.

Al igual que el gopher WWW es capaz de tratar información multimedia a base a un mecanismo de asociación de tipos de ficheros con aplicaciones que lo manejan. Para ello WWW se basa en una norma ampliamente aceptada: MIME [3], que permite intercambiar objetos de varios tipos. Sin embargo, introduce una importante diferencia con respecto a gopher y es que el protocolo que usa WWW permite una cierta negociación entre el cliente y el servidor. Si un cliente no está capacitado para tratar un cierto tipo de información, el servidor no se la envía. Es más, el cliente puede informar al servidor de sus características (por ejemplo la resolución de la pantalla) y el cliente puede decidir no enviar una información si ello supusiera una degradación considerable de calidad.

Parece obvio que WWW atraiga mucho más aún a los proveedores que pueden poner en la red sus hermosos catálogos en toda su plenitud, sin esclavitud a los menús. Pueden intercalar figuras, índices, y de todo, y hacerlo todo activo para ir dirigiendo al visitante hasta que encuentre algo que satisfaga sus necesidades.

WWW difumina la frontera entre la información personal y la pública. Un usuario de Internet puede perfectamente organizar su puesto de trabajo en base a documentos WWW que enlazan en los puntos oportunos con otros recursos Internet. Toda Internet es, virtualmente, mi puesto de trabajo. Esta posibilidad de salto sin solución de continuidad se utiliza constantemente para organizar directorios globales, o presentaciones (con demostraciones reales incrustadas), o cursos de autoformación, o lo que se quiere dentro de un amplio abanico de posibilidades.

Localización de Personas

Una de las preguntas más frecuentes de los recien llegados a Internet es "?cómo encuentro a una persona que se llama así y está en tal sitio trabajando?". Aún siendo una pregunta elemental, sigue poniendo nerviosos a los gurus de la red, pues la taréa de encontrar a alguien no es trivial, exige dominar varias herramientas y completar con imaginación la distancia entre unas coordenadas imprecisas (que son las que suele proporcionar el que busca) y la precisión de un ordenador.

Estos servicios se suelen denominar "páginas blancas" o, simplemente, "directorios" [13]. Hay una serie de ellos, muy diferentes entre sí y poco o nada interconectados. Parece obvio que en un mundo heterogeneo los servidores de páginas blancas serán heterogeneos; pero también debería ser obvio que los clientes deberían ocultar esta heterogeneidad bajo una interfaz única. Esto dista de ser tarea fácil, pues hay que combinar varios protocolos y, además, cada servidor tiene un contenido diferente y no necesariamente homologable. En definitiva, estamos ante un problema de bases de datos heterogéneas y distribuidas, para el que no se conoce una solución definitiva.

Algunos de los servicios actualmente disponibles permiten enlazar centros servidores y navegar. Otros, la mayoría, funcionan aisladamente. Si el usuario logra saber a quién debe preguntar, el servidor estará encantado de responderle con su información local. Y punto.

X.500

CCITT intentó poner orden con la normalización de un servicio de directorio denominado X.500 [4]. Pese a su respaldo oficial y a la cantidad de años que hace que se definió, aún no se dispone de ninguna herramienta ampliamente difundida. Haberlas haylas, que en la última recopilación [8] aparecen hasta 26 productos; pero todos ellos son extremadamente complejos de instalación y de utilización. Por una parte requieren un profundo conocimiento de la norma X.500, por otra una gran cantidad de recursos (espacio en disco, capacidad de proceso y enlaces de comunicaciones).

Un servidor X.500 contiene información estructurada por campos (atributos), de forma que se pueden hacer consultas bastante elaboradas. La red X.500 se organiza jerárquicamente (de forma paralela a la jerarquía de dominios de mensajería) y permite a los clientes ir navegando para localizar lo deseado. X.500 permite navegar, pero no ayuda a navegar. Me explico: una cosa es poder llegar hasta la persona cuyos datos necesito (muy bien soportado por X.500) y otra saber dónde está. Lo habitual es tener unas coordenadas poco precisas y en esta circunstancia X.500 no prevee ninguna ayuda.

Hay desarrollos en curso que intentan superar estas dificultades. Por ejemplo, se está buscando un protocolo ligero [16] que prescinda de las partes más elaboradas del servicio X.500 y de una respuesta ágil a las preguntas más frecuentes de los clientes.

WhoIs

Este es el servicio clásico en Internet [7]. Una serie de ordenadores a lo ancho del planeta ofrecen un servicio de directorio que abarca una cierta zona de conocimiento. Originalmente había un sólo sitio que centralizaba toda la información sobre la Internet: nic.ddn.mil. Hace ya años que este lugar se vió desbordado y actualmente sólo proporciona información sobre recursos militares. El servidor básico de Internet es:

telnet://rs.internic.net

que proporciona información relativa a una cierta clave, que puede ser el nombre de algún responsable en Internet, un dominio, un número de red y poco más. Es básicamente un servidor de puntos de contacto.

Para personas en general, necesitamos consultar algún servidor más específico. Hay muchas instituciones, usualmente universidades, que proporcionan servidores whois. La relación oficiosa se mantiene en

ftp://sipb.mit.edu/pub/whois/whois-servers.list

A la mayor parte de los directorios se accede utilizando un cliente whois, por ejemplo:

whois -h whois.dit.upm.es manas

Desgraciadamente, cada servidor whois es un mundo aparte. Unos no saben de otros, y son incapaces de redirigir una consulta a un lugar más adecuado. Es más, cada servidor dispone la organización como mejor le parece: cada uno tiene sus propios campos con su propio significado y se requiere toda la inteligencia de un ser humano para interpretarlo correctamente. No es posible diseñar herramientas automáticas que analicen las respuestas de los servidores actuales.

Está en desarrollo un servicio denominado whois++ que establece un procolo de comunicación entre servidores homogeneizados en cuanto a organización de contenidos. Hay una red jerárquica de servidores, de forma que cada uno proporciona a los demás una serie de pistas acerca de la información que poseen. Si un servidor recibe una pregunta y no sabe contestarla, sugiere servidores alternativos que pudieran hacerse cargo.

El servicio whois++ es un intento de superar tanto las limitaciones del whois (aislamiento de servidores) como la rigidez del X.500 (protocolo pesado y jerarquía estricta). Cabe imaginar un futuro donde los servidores sigan una norma X.500, se enlacen con el resto en base a un protocolo ligero, y sean capaces de interactuar con whois++ para enlazar inteligentemente los centros.

NetFind

Este es un servicio de directorio basado en técnicas de inteligencia artificial que utiliza una serie de heurísticos y una extensa recopilación de datos dispersos por la red [15]. Dado un nombre y alguna pista sobre su lugar de trabajo, lanza una serie de consultas por la red localizando posibles respuestas.

Hay varios servidores netfind por la red. El original es accesible como

telnet://netfind@bruno.cs.colorado.edu

Hay varios otros servidores; si entra en dicho sistema, él mismo informa de los demás, por si quiere elegir otro más cercano.

Las sesiones con netfind son interactivas: él pide claves, aventura hipótesis, pide confirmaciones, consulta a otros servidores y, eventualmente, localiza el nombre de la cuenta y el ordenador en el que trabaja la persona que estamos buscando.

Aunque no es perfecta, se calcula que esta herramienta es capaz de localizar a unos 6 millones de personas. De hecho, es la major herramienta de que se dispone actualmente y la única capaz de combinar información proporcionada por diferentes servicios de páginas blancas.

Usenet

Este es un directorio mantenido por el MIT que, durante años, ha venido recopilando direcciones de correo electrónico de gente que envia noticias al servicio de NEWS. El ámbito no es universal; pero permite localizar a los usuarios más activos de la red.

mail mail-server@pit-manager.mit.edu

El cuerpo del mensaje puede hacer solicitudes de búsqueda, por ejemplo:

send usenet-addresses/manas spain

Aspectos Prácticos

Toda la teoría es inutil si no disponemos de formas prácticas de hacerla realidad. En esta sección intento proporcionar un breve catálogo de entradas maestras.

Debo empezar diciendo que la propia red contiene índices de sí misma, entre los que cabe destacar:

Existe por otra parte un libro excelente escrito por Ed Krol [10], que recoge un amplio catálogo de recursos disponibles.

Si se busca algo, una forma de empezar es vía el servicio de noticias (NEWS). Existen más de 10.000 grupos desde lo más general a lo más especializado. Si encuentra uno que responda a sus inquietudes, suscríbase. La relación íntegra de grupos puede obtenerse de

ftp://ftp.uu.net/networking/news/config/newsgroups

Un grupo particularmente interesante es el denominado news.answers que distribuye las denominadas FAQs (Frequently Asked Questions), una especie de enciclopedia como las que se usaban antiguamente en los colegios. Las FAQs se renuevan periódicamente, y hay un número ingente de ellas, clasificadas por temas. Hay varios centros que las almacenan sistemáticamente. Por ejemplo:

ftp://ftp.uu.net/usenet/news.answers/
o ftp://rtfm.mit.edu/pub/usenet/news.answers/

Hay una larga serie de ellas que cubren áreas tratadas en este artículo. Mis referencias se quedarán obsoletas en poco tiempo; pero estas FAQ le permitirán a cualquiera mantenerse al día. La mayoría no necesitan muchas explicaciones sobre su contenido; para las que no lo dejan claro, añado una breve descripción:

Para localizar ficheros (documentos o programas, habitualmente) accesibles por medio de FTP se utiliza el servicio archie. Este es accesible en múltiples ordenadores, por ejemplo:


  telnet://archie@archie.doc.ic.ac.uk
  gopher://gopher.stanford.edu:4320/1archie
  http://hoohoo.ncsa.uiuc.edu/archie.html
  mailto:archie@archie.funet.fi
Para localizar entradas en los menús de gopher se suele utilizar el servicio veronica. Este es muy similar a archie en el sentido de recorrer periódicamente los servidores gopher, recopilar sus menús, indexarlos y ofrecerlos para consultas. Sólo es accesible vía gopher y la forma más eficaz es entrar en gopher://gopher.micro.umn.edu, seguir la entrada Other Gopher and Information Servers y de aquí a Search Titles in Gopherspace using veronica.

Hay unas 500 bases de datos anunciadas públicamente y accesibles por medio de WAIS. Se puede recoger una relación íntegra en

ftp://ftp.wais.com/pub/directory-of-servers/wais-sources.tar
wais://quake.think.com/directory-of-servers

El número de servidores gopher es tremendo y crece continuamente por lo fácil que es instalarlo. La gran mayoría están dados de alta en la Universidad de Minnesota, que es un buen sitio para empezar a buscar. Use gopher para ir a gopher://gopher.micro.umn.edu, siga la entrada Other Gopher and Information Servers y de aquí a All the Gophers in the World.

La explosión de servidores WWW es abrumadora y dificil de seguir al día. Al mismo tiempo, la posibilidad de poder entremezclar textos explicativos con enlaces activos ha hecho aparecer una plétora de documentos que sirven de guía por la Internet. Creo que debo destacar

ftp://ftp.rpi.edu/pub/communications/internet-cmc.html

escrito por un estudiante de doctorado y que es una guía exhaustiva de información sobre la Internet en sí, redes de ordenadores y temas relacionados. En particular le interesan los aspectos técnicos, sociales, cognitivos y sicológicos de las aplicaciones de la red.

http://consultant-www.mit.edu/univ.html
Universidades.
http://www.ai.mit.edu/non.html
Organizaciones sin ánimo de lucro.
http://tns-www.lcs.mit.edu/commerce.html
Relación de empresas que ofrecen sus servicios vía WWW.
Figura 4.- Evoluci'on en el uso de los servicios gopher y WWW.
Cortesía de ISOC: Internet Society.

Conclusiones

Internet es como una ciudad grande; pero no es una selva. Uno puede perderse si no utiliza guías adecuadas o si no es disciplinado, metódico y riguroso; pero no es peligroso. Hay gente mala, gente poco fiable, bromistas y estafadores; junto a investigadores, profesionales y comerciantes. Es simplemente el punto de encuentro de muchas culturas donde se puede encontrar casi de todo utilizando los medios adecuados, que son los expuestos en este artículo.

Muchas de las herramientas descritas son de dominio público. Esto las convierte en especialmente estables a medio y largo plazo, por su amplísima difusión, así como les da una oportunidad de llegar a estar casi libres de defectos pues se usan ampliamente y muchos contribuyen a depurarlas. Es posible que algunas vayan pasando a ser productos comerciales, añadiendo una buena documentación y un soporte profesional ante fallos. Es muy probable que en el futuro convivan servidores comerciales con clientes de dominio público: un mundo realmente abierto de interconexión de recursos.

Appendix A. Identificación Universal de Recursos

La principal aportación del sistema WWW no es tanto la introducción del concepto de hipertexto, que ya existía en muchos sistemas, como su generalización para abarcar múltiples tipos de recursos, incluyendo:

  1. La identificación del recurso
  2. Su ubicación en la red: ordenador y directorio
  3. La forma de acceso (el protocolo a usar)
Tim Berners-Lee propone la utilización de URIs (Universal Resource Identificators) [1] para saber exactamente cómo se puede acceder a cierta información. URI es un concepto muy genérico y aún poco maduro; pero que ya se va concretando en una serie de normas de identificación eficaz en la Internet: los URLs (Universal Resource Locators). Para estos propone una notación concisa y legible, que se pretende universalizar. Es la que he venido utilizando a lo largo del texto.

Aún no están normalizados todos los mecanismos; pero los más habituales los recojo a continuación:

ftp://host/path
ftp://login:password@host:port/path
Probablemente, el URL más utilizado en la actualidad. Identifica un ordenador, un directorio e incluso puede llegar a un fichero concreto. Es habitual entrar por el puerto 20, usando como login la palabra anonymous y como password la dirección de correo electrónico del que llama.
http://host:port/path
HTTP es el protocolo que comunica clientes y servidores WWW. Permiteintercambiar documentos, negociando previamente las posibilidades de las partes. Habitualmente trabaja en el puerto 80, bastando indicar el nombre del ordenador.
gopher://host:port/type selector
Gopher suele comunicarse a través del puerto 70, por lo que es habitual que se omita.
wais://host:port/database
wais://host:port/database?search
Los servicios de indexación permiten realizar consultas, habitualmente en el puerto 210.
telnet://login:password@host:port
Acceso vía terminal virtual.
mailto:mailbox@domain
Un mensaje electrónico.
news:group
Un grupo de news. Algunas aplicaciones ya entienden esta notación directamente, si bien la mayor parte de éllas requieren que el usuario desglose el URL y vata transcribiendo la información correspondiente según la aplicación va pidiendo datos.

Bibliografía



Sugerencias, comentarios, noticias,
 advertencias, ...
Mejor con cualquier visualizador HTML 3.2
Copyright © 1994-1998, ATI, Asociación de Técnicos de Informática.