30 de junio, 1994
Por razones históricas, la Internet se ha venido desarrollando de forma abierta y voluntarista. Esta es la principal razón de su éxito: al no ser de nadie, todo el mundo la considera un poco suya, y aporta su granito de arena. Pero al tiempo es su debilidad: con todo el mundo aportando por su cuenta el orden es escaso, y la calidad no es homogenea. Esta situación resulta chocante en un desarrollo tecnológico de finales del siglo XX; pero en realidad es lo habitual en obras humanas tan ambicionas.
La Internet se parece mucho a una gran ciudad, donde las redes de comunicaciones proporcionan a modo de calles y accesos para llegar a los servicios que se ofrecen a los visitantes. Hay barrios interesantes y barrios peligrosos; hay tiendas de andar por casa, supermercados y tiendas de lujo; hay zonas que vale la pena visitar, y otras que no; hay ciudades universitarias y parques tecnológicos, etc. Como en toda ciudad un poco grande (y la Internet es muy grande), se necesian planos y guías para saber a dónde ir y dónde encontrar lo que se necesita.
A diferencia de una ciudad, la Internet se puede recorrer cómodamente desde casa, moviendo poco más que los dedos sobre las teclas. E igualmente las guías y planos de Internet son accesibles como un servicio más. "No me des un pez, !enséñame a pescar!" dide el viejo proverbio chino, y así intenteré hacerlo a continuación: no voy a contar dónde están los servicios finales, sino sólo dónde están las guías, qué información proporcionan, y un poquitín de cómo funcionan.
La Internet permite que cualquier par de ordenadores conectados a élla puedan comunicarse entre sí de una forma que parece directa; es decir, que es capaz de ocultar en buena medida la forma física de llegar de uno a otro. El límite lo impone la calidad de los enlaces de comunicaciones que realmente utilicemos.
Los ordenadores se comunican por medio de protocolos que son lenguajes monotemáticos que permiten un cierto nivel de diálogo e incluso de negociación entre equipos. En Internet hay multitud de protocolos, cada uno especializado en su pequeña área de aplicación. Pero hay una cosa común a prácticamente todos los protocolos que se utilizan en Internet: el modelo cliente -- servidor. Si un ordenador ofrece algo al exterior, se dice que es un centro servidor. Técnicamente, un servidor es un programa que está permanentemente escuchando lo que se dice por Internet y cuando oye algo en su idioma (en su protocolo) se activa y contesta. Las comunicaciones las empiezan los clientes que, a petición del usuario final, se ponen en comunicación con el servidor para lograr un cierto servicio distribuido entre ambos.
Es fácil confundir un protocolo con una aplicación que lo utiliza. A ello ayudan los programadores, que le suelen llamar a todo con el mismo nombre. Para el usuario final, que no se supone un experto en programas y protocolos de comunicaciones, todo esto debe dar un poco igual. Lo que hay que saber es qué servicios hay para poder elegir el que nos conviene, y saber un poquitín de sus características técnicas para fundamentar la decisión.
El resto del artículo se divide en dos grandes bloques: perimero presentaré herramientas para localizar programas y documentos en general, y en segundo lugar describiré servicios de información sobre personas. A lo largo del texto utilizaré la notación URL (identificación unívoca de recursos en Internet) que se describe en el Apéndice A.
FTP ha sido tradicionalmente el protocolo estrella de la Internet en términos de volumen de datos transferidos. Este papel se ha visto relativizado con la proliferación de aplicaciones multimedia que provocan trasiegos mucho mayores.
Conociendo el nombre del ordenador, el directorio y el nombre del fichero, es elemental recuperarlo. A veces se necesita una cuenta y palabra de paso, si bien la información pública suele estar bajo una pseudocuenta anonymous y como palabra de paso se utiliza la dirección de correo electrónico del peticionario (por si hubiera que contactarle en caso de problemas).
Esta es una herramienta que recopila información (directorios y ficheros) de una larga serie de servidores FTP anónimos, la indexa, y permite búsquedas sobre élla. La tarea de acceder a servidores FTP es lenta y actualmente lleva más de un mes completar un ciclo de consultas. Originalmente había un sólo centro que hacía todas las consultas. Actualmente hay una red de centros que se reparten la tarea de consultar y luego intercambian información entre ellos.
Archie mantiene también mantiene un enorme índice que correlaciona nombres de ficheros con breves descripciones de su utilidad o contenido (1 línea). Esto permite consultas por contenido o función para averiguar el nombre del fichero preciso.
Los servidores archie suelen proporcionar una cuenta anónima desde la que se puede acceder esta información. Además, cualquier ordenador conectado a Internet puede instalar su cliente que permite elaborar las consultas localmente y luego sigue un protocolo específico para consultar al servidor más cercano.
Actualmente, archie mantiene información de más de un millar de servidores anónimos, indexa más de 4.000 paquetes y más de 2 millones de documentos. Se realizan unas 50.000 consultas diarias.
Figura 1.- Archie busca wsarchie, una versión para MS-Windows.
Archie es tan efectivo que este artículo no necesita dar indicaciones de dónde se puede encontrar cada herramienta de las que se citan: "!consulte a archie!". La figura 1 muestra una búsqueda en la que archie se encuentra a sí mismo.
Brewster Kahle, mientras trabajaba en Thinking Machines, Inc., y en colaboración con Dow Jones, Apple y KPMG Peat Marwick, desarrolló una herramienta, WAIS [9], basada en dicho protocolo. Actualmente, B. Kahle ha montado su propia empresa en base a esta herramienta.
WAIS permite indexar localmente la información que tengamos y acceder a ella bien localmente (uso privado) o remotamente (uso público, que puede ser gratuito o de pago). La herramienta admite consultas en lenguaje natural, identifica posibles documentos que respondan a la pregunta, e incluso permite recuperar el documento en sí.
Figura 2.- WAIS consulta CACM.SRC.
Es esencial la filosofía de que la inteligencia está en el servidor. Se quiere que los clientes sean muy sencillos conceptualmente (interfaz con el usuario y punto) con lo que pueden difundirse ampliamente y de forma gratuita. Lo sofisticado es el servidor que ante una pregunta en lenguaje natural busca inteligentemente por los índices y devuelve referencias a documentos que pueden casar. El servidor debe admitir casi cualquier pregunta, y debe responder sensatamente, no sólo con referencias a documentos que casan con la pregunta, sino que además debe ser capaz de ordenar estos documentos. Toda ordenación es heurística y cada servidor puede aplicar diferentes heurísticos, es más, puede ir aprendiendo con el tiempo y contestar cada día con más fundamento. El mismo cliente puede hablar con muchos servidores, tanto si son simplones y sus respuestas tienen un valor muy relativo, como con servidores muy elaborados y costosos. Estabilizado el protocolo, ahora el negocio está tanto en la información como en la inteligencia de los servidores.
La ordenación de las respuestas se denomina "realimentación significativa" y da pie a una interesante área de aplicación de las técnicas de inteligencia artificial y lógica borrosa. El cliente puede formular la pregunta como una frase normal. El servidor elimina signos de puntuación, artículos, conjunciones, palabras muy comunes (que en la práctica aparecen en todos los documentos) y hace algún análisis de plurales, tiempos de los verbos, etc. Al final, se queda con una serie de palabras que considera significativas, busca en los índices, y ordena los documentos que contienen dichas palabras para responder al cliente. La ordenación responde a heurísticos que pueden ser tan simples como el número de veces que aparece cada palabra, si aparece en el título o perdida en el contenido, si las palabras aparecen juntas, cercanas o dispersas, etc. Por último, WAIS puede tomar un documento como referencia: el cliente pide "búscame más que traten de lo mismo que éste". WAIS extrae del documento aquellas palabras que le parecen significativas (no son términos comunes, aparecen muchas veces, ...) y aplica estos datos para lanzar una nueva búsqueda.
La figura 2 muestra una consulta
wais://quake.think.com/proj/wais/db/cacm/cacm
una base de datos que contiene artículos publicados en el
Communications of the ACM. Preguntamos acerca de
individuals y privacy. Una vez localizado un artículo
interesante, hemos vuelto a lanzar una segunda consulta buscando
artículos similares. El resultado de esta última consulta aparece en
la figura.
El resultado global es que el usuario puede partir de una pregunta muy general e ir refinando su búsqueda de forma interactiva. Lo importante es que bases de datos muy complejas puedan ser utilizadas por gente de la calle sin requerir una formación específica en bases de datos.
La idea es sencilla: convirtamos cada directorio público en un menú; de forma que un usuario disponga de una interfaz sencilla para elegir a dónde quiere ir. Si elige un fichero, se le da; si elige otro directorio, aparece un nuevo menú y así sucesivamente. En la práctica los nombres de los directorios y ficheros suelen ser crípticos (en un PC se limita a 8 caracteres, en muchas máquinas Unix a 15 caracteres, etc.). Así gopher propone un mecanismo complementario para asociar a cada objeto una breve frase descriptiva (normalmente 1 línea) para hacer menús cómodos e inteligibles.
El siguiente paso de gopher son los directorios virtuales o menús cuyos componentes no son necesariamente los ficheros de un ordenador, sino que puede saltar a los de otro ordenador, todo esto oculto bajo la frase descriptiva que el usuario puede seguir utilizando para saltar de ordenador en ordenador sin darse cuenta (bueno, es un decir, la velocidad de acceso puede cambiar sustancialmente; pero la interfaz funcional es uniforme).
Con esta filosofía, todos los ordenadores que instalen un servidor gopher quedan integrados en el entramado de calles y avenidas. Está en la mano de los administradores (bibliotecarios) el ir construyendo menús virtuales que ordenen el planeta por servicios, tarea que avanza a pasos agigantados.
El protocolo gopher se ha diseñado de forma abierta, tal que permita extensiones fáciles del tipo de documentos que se traen. Los clientes gopher disponen de una tabla de configuración similar al mecanismo de asociación de MS-Windows. En MS-Windows se asocian las extensiones en el nombre de ficheros con una aplicación capaz de manejarlo. En gopher se asocia un tipo de fichero con una aplicación. El tipo lo decide el servidor (probablemente en base a la extensión del nombre) y la asociación la realiza el cliente. Con este simple mecanismo es posible introducir información multimedia: imágenes y sonido. Nada impide asociar ficheros para hojas de cálculo, bases de datos, etc.
Incluso es posible mantener el mismo material en diferentes formatos. Por ejemplo, en castellano, inglés, ASCII, PostScript, Word, ... El cliente avisa al usuario de la variedad existente, y éste puede elegir la opción que más le convenga.
Gopher se complementa con una escueta capacidad de dialogo. Ciertos enlaces se califican como indexados, lo que se interpreta como que el cliente gopher debe pedirle al usuario una relación de palabras que quiere utilizar en la búsqueda. Con esta información, el cliente se pone en contacto con el servidor, le pasa las palabras de búsqueda, recoge la relación de documentos que localiza el servidor (ordenados por algún heurístico que permita una realimentación significativa) y los presenta como un nuevo menú en el que el usuario puede elegir algún documento, etc.
Globalmente, todo el gopher es bastante sencillo, el protocolo, el servidor y, sobre todo, el cliente, por lo que existen multitud de versiones para todo tipo de modelos de ordenadores.
Cuando los proveedores detectaron este invento, se les hizo la luz para anunciar sus productos en la red. Es obvio cómo organizar sus preciosos catálogos de productos en forma de directorios de clasificación y ficheros de descripción, precios, disponibilidad, etc. Y es obvio que aparece un negocio adicional que es de creación de servicios de páginas amarillas que agrupen proveedores.
WWW es, entre otras cosas, un procesador de textos. El que prepara un documento para hipernavegar lo hace rellenando el documento de claves para ordenar párrafos, listas, negritas, etc, como en los peores procesadores de texto de la antigüedad (van apareciendo poco a poco procesadores de texto interactivos tipo Word; pero aún no está el mercado muy desarrollado). El caso es que el que prepara el documento no sabe si el lector dispondrá de una preciosa pantalla de colores y alta resolución o un simple terminal vt100. La idea es que el cliente haga el procesado del texto para adecuarlo a las características del terminal del cliente. Igualmente hay que decidir de qué forma el usuario identifica un enlace hipertexto para seguirlo; si tiene ratón es bastante obvio, pero en terminales baratos hay que ponerle cierta imaginación adicional.
Figura 3.- mosaic http://wings.buffalo.edu/world
La gran diferencia de WWW frente a gopher está en basarse en documentos activos. El documento bien formateado, con figuras y explicaciones es la forma natural de comunicarse con el lector. En gopher un documento está muerto: para seguir navegando hay que salir de él y regresar a los menús de directorios. En WWW se navega desde el cuerpo de los documentos.
Al igual que el gopher WWW es capaz de tratar información multimedia a base a un mecanismo de asociación de tipos de ficheros con aplicaciones que lo manejan. Para ello WWW se basa en una norma ampliamente aceptada: MIME [3], que permite intercambiar objetos de varios tipos. Sin embargo, introduce una importante diferencia con respecto a gopher y es que el protocolo que usa WWW permite una cierta negociación entre el cliente y el servidor. Si un cliente no está capacitado para tratar un cierto tipo de información, el servidor no se la envía. Es más, el cliente puede informar al servidor de sus características (por ejemplo la resolución de la pantalla) y el cliente puede decidir no enviar una información si ello supusiera una degradación considerable de calidad.
Parece obvio que WWW atraiga mucho más aún a los proveedores que pueden poner en la red sus hermosos catálogos en toda su plenitud, sin esclavitud a los menús. Pueden intercalar figuras, índices, y de todo, y hacerlo todo activo para ir dirigiendo al visitante hasta que encuentre algo que satisfaga sus necesidades.
WWW difumina la frontera entre la información personal y la pública. Un usuario de Internet puede perfectamente organizar su puesto de trabajo en base a documentos WWW que enlazan en los puntos oportunos con otros recursos Internet. Toda Internet es, virtualmente, mi puesto de trabajo. Esta posibilidad de salto sin solución de continuidad se utiliza constantemente para organizar directorios globales, o presentaciones (con demostraciones reales incrustadas), o cursos de autoformación, o lo que se quiere dentro de un amplio abanico de posibilidades.
Estos servicios se suelen denominar "páginas blancas" o, simplemente, "directorios" [13]. Hay una serie de ellos, muy diferentes entre sí y poco o nada interconectados. Parece obvio que en un mundo heterogeneo los servidores de páginas blancas serán heterogeneos; pero también debería ser obvio que los clientes deberían ocultar esta heterogeneidad bajo una interfaz única. Esto dista de ser tarea fácil, pues hay que combinar varios protocolos y, además, cada servidor tiene un contenido diferente y no necesariamente homologable. En definitiva, estamos ante un problema de bases de datos heterogéneas y distribuidas, para el que no se conoce una solución definitiva.
Algunos de los servicios actualmente disponibles permiten enlazar centros servidores y navegar. Otros, la mayoría, funcionan aisladamente. Si el usuario logra saber a quién debe preguntar, el servidor estará encantado de responderle con su información local. Y punto.
Un servidor X.500 contiene información estructurada por campos (atributos), de forma que se pueden hacer consultas bastante elaboradas. La red X.500 se organiza jerárquicamente (de forma paralela a la jerarquía de dominios de mensajería) y permite a los clientes ir navegando para localizar lo deseado. X.500 permite navegar, pero no ayuda a navegar. Me explico: una cosa es poder llegar hasta la persona cuyos datos necesito (muy bien soportado por X.500) y otra saber dónde está. Lo habitual es tener unas coordenadas poco precisas y en esta circunstancia X.500 no prevee ninguna ayuda.
Hay desarrollos en curso que intentan superar estas dificultades. Por ejemplo, se está buscando un protocolo ligero [16] que prescinda de las partes más elaboradas del servicio X.500 y de una respuesta ágil a las preguntas más frecuentes de los clientes.
telnet://rs.internic.net
que proporciona información relativa a una cierta clave, que puede ser el nombre de algún responsable en Internet, un dominio, un número de red y poco más. Es básicamente un servidor de puntos de contacto.
Para personas en general, necesitamos consultar algún servidor más específico. Hay muchas instituciones, usualmente universidades, que proporcionan servidores whois. La relación oficiosa se mantiene en
ftp://sipb.mit.edu/pub/whois/whois-servers.list
A la mayor parte de los directorios se accede utilizando un cliente whois, por ejemplo:
whois -h whois.dit.upm.es manas
Desgraciadamente, cada servidor whois es un mundo aparte. Unos no saben de otros, y son incapaces de redirigir una consulta a un lugar más adecuado. Es más, cada servidor dispone la organización como mejor le parece: cada uno tiene sus propios campos con su propio significado y se requiere toda la inteligencia de un ser humano para interpretarlo correctamente. No es posible diseñar herramientas automáticas que analicen las respuestas de los servidores actuales.
Está en desarrollo un servicio denominado whois++ que establece un procolo de comunicación entre servidores homogeneizados en cuanto a organización de contenidos. Hay una red jerárquica de servidores, de forma que cada uno proporciona a los demás una serie de pistas acerca de la información que poseen. Si un servidor recibe una pregunta y no sabe contestarla, sugiere servidores alternativos que pudieran hacerse cargo.
El servicio whois++ es un intento de superar tanto las limitaciones del whois (aislamiento de servidores) como la rigidez del X.500 (protocolo pesado y jerarquía estricta). Cabe imaginar un futuro donde los servidores sigan una norma X.500, se enlacen con el resto en base a un protocolo ligero, y sean capaces de interactuar con whois++ para enlazar inteligentemente los centros.
Hay varios servidores netfind por la red. El original es accesible como
telnet://netfind@bruno.cs.colorado.edu
Hay varios otros servidores; si entra en dicho sistema, él mismo informa de los demás, por si quiere elegir otro más cercano.
Las sesiones con netfind son interactivas: él pide claves, aventura hipótesis, pide confirmaciones, consulta a otros servidores y, eventualmente, localiza el nombre de la cuenta y el ordenador en el que trabaja la persona que estamos buscando.
Aunque no es perfecta, se calcula que esta herramienta es capaz de localizar a unos 6 millones de personas. De hecho, es la major herramienta de que se dispone actualmente y la única capaz de combinar información proporcionada por diferentes servicios de páginas blancas.
mail mail-server@pit-manager.mit.edu
El cuerpo del mensaje puede hacer solicitudes de búsqueda, por ejemplo:
send usenet-addresses/manas spain
Debo empezar diciendo que la propia red contiene índices de sí misma, entre los que cabe destacar:
Si se busca algo, una forma de empezar es vía el servicio de noticias (NEWS). Existen más de 10.000 grupos desde lo más general a lo más especializado. Si encuentra uno que responda a sus inquietudes, suscríbase. La relación íntegra de grupos puede obtenerse de
ftp://ftp.uu.net/networking/news/config/newsgroups
Un grupo particularmente interesante es el denominado news.answers que distribuye las denominadas FAQs (Frequently Asked Questions), una especie de enciclopedia como las que se usaban antiguamente en los colegios. Las FAQs se renuevan periódicamente, y hay un número ingente de ellas, clasificadas por temas. Hay varios centros que las almacenan sistemáticamente. Por ejemplo:
ftp://ftp.uu.net/usenet/news.answers/
o ftp://rtfm.mit.edu/pub/usenet/news.answers/
Hay una larga serie de ellas que cubren áreas tratadas en este artículo. Mis referencias se quedarán obsoletas en poco tiempo; pero estas FAQ le permitirán a cualquiera mantenerse al día. La mayoría no necesitan muchas explicaciones sobre su contenido; para las que no lo dejan claro, añado una breve descripción:
telnet://archie@archie.doc.ic.ac.uk gopher://gopher.stanford.edu:4320/1archie http://hoohoo.ncsa.uiuc.edu/archie.html mailto:archie@archie.funet.fiPara localizar entradas en los menús de gopher se suele utilizar el servicio veronica. Este es muy similar a archie en el sentido de recorrer periódicamente los servidores gopher, recopilar sus menús, indexarlos y ofrecerlos para consultas. Sólo es accesible vía gopher y la forma más eficaz es entrar en gopher://gopher.micro.umn.edu, seguir la entrada Other Gopher and Information Servers y de aquí a Search Titles in Gopherspace using veronica.
Hay unas 500 bases de datos anunciadas públicamente y accesibles por medio de WAIS. Se puede recoger una relación íntegra en
ftp://ftp.wais.com/pub/directory-of-servers/wais-sources.tar
wais://quake.think.com/directory-of-servers
El número de servidores gopher es tremendo y crece continuamente por lo fácil que es instalarlo. La gran mayoría están dados de alta en la Universidad de Minnesota, que es un buen sitio para empezar a buscar. Use gopher para ir a gopher://gopher.micro.umn.edu, siga la entrada Other Gopher and Information Servers y de aquí a All the Gophers in the World.
La explosión de servidores WWW es abrumadora y dificil de seguir al día. Al mismo tiempo, la posibilidad de poder entremezclar textos explicativos con enlaces activos ha hecho aparecer una plétora de documentos que sirven de guía por la Internet. Creo que debo destacar
ftp://ftp.rpi.edu/pub/communications/internet-cmc.html
escrito por un estudiante de doctorado y que es una guía exhaustiva de información sobre la Internet en sí, redes de ordenadores y temas relacionados. En particular le interesan los aspectos técnicos, sociales, cognitivos y sicológicos de las aplicaciones de la red.
Muchas de las herramientas descritas son de dominio público. Esto las convierte en especialmente estables a medio y largo plazo, por su amplísima difusión, así como les da una oportunidad de llegar a estar casi libres de defectos pues se usan ampliamente y muchos contribuyen a depurarlas. Es posible que algunas vayan pasando a ser productos comerciales, añadiendo una buena documentación y un soporte profesional ante fallos. Es muy probable que en el futuro convivan servidores comerciales con clientes de dominio público: un mundo realmente abierto de interconexión de recursos.
Aún no están normalizados todos los mecanismos; pero los más habituales los recojo a continuación:
|
|
|