Rastreador web o Spider o los dos

03.02.2011 18:36

Cuando hablamos de posicionamiento web solemos confundir motor de búsqueda con el robot, el rastreador o spider que hace la función de búsqueda dentro del search engine. Es decir, el rastreador web es uno de los elementos de los que se compone un buscador.

Según la entrada de la Wikipedia un rastreador web es un software que navega por la World Wide Web de forma ordenada y automatizada para recopilar y actualizar datos, copiando las urls que visitan, que los motores de búsqueda necesitan para presentar sus índices de resultados. También se utiliza para automatizar tareas de mantenimiento, como validar código HTML, o también para reunir direcciones de correo. Por sus características y mecanismo, es conocido por muchos términos: rastreador (crawler), araña (spider), hormiga (ant), indizador automático, bot, robot, scutter (en referencia a los robots de una serie de televisión), recolector,...

Si hacemos la versión castellana sacaríamos la errónea conclusión de que el funcionamiento del crawler es algo relativamente sencillo: visita de un listado de urls, identificación de los links a páginas nuevas e inclusión de los mismos en su propio listado, que después es indexado en el motor de búsqueda para luego ser mostrado tras una consulta en su página de resultados.

Sin embargo, como observamos en la versión inglesa del artículo, un spider o web crawler, es algo más complejo, debido a la propia complejidad y dinamismo de la WWW, y cada motor de búsqueda tiene su propio robot con sus diferentes características.

La amplitud de la web obliga al robot a seleccionar las páginas que visita, quedándose un alto porcentaje fuera de los índices. Por otro lado, los continuos cambios (creación, modificación y eliminación de páginas), le obliga a revisitar páginas y actualizar su propio listado, según criterios de frescura y edad. La utilización de rastreadores supone un alto coste en recursos de servers y en red, problema que se soluciona con los protocolos de exclusión de robots, estándar que da acceso a los crawlers a las partes que quiera de su servidor.

En definitiva, además de su estrategia de rastreo, el rastreador debe estar construido en base a una arquitectura web optimizada, como nos muestra el diagrama, y así poder permitir la descarga de millones de páginas de forma segura y eficiente y en un corto espacio de tiempo.