¿Qué es una araña web o crawler?

Una araña web es el nombre vulgar para referirnos a los indexadores o rastreadores web. Podría decirse qué son programas informáticos que navegan por la red a toda puta hostia inspeccionando todo aquello que se encuentren por el camino.
Podemos pensar que tienen esta forma:

Araña web, o web crawler en inglés. Son indexadores e inspeccionan las urls.

Estos rastreadores pueden ser construidos por cualquier persona con ciertos conocimientos técnicos ya que no son excesivamente complicados de programar.
Los motores de búsqueda como Google o Bing, entre otros, utilizan a las arañas para explorar la Web. Y también para tejerla, por qué no decirlo. Si tienes una web web, o simplemente una foto en tu perfil de alguna red social, por narices alguna araña ha llegado hacia tu enlace en algún momento. Los indexadores hacen que los seres humanos podamos encontrarnos entre nosotros. De esta manera, se crea la comunicación masiva +iva  que tenemos hoy en día.

¿Cómo funciona una araña web?

Bien ahora que sabemos lo que son los rastreadores web, vamos a hablar un poco de ellos.
Rastrean los enlaces y el código HTML, aunque también pueden extraer otra información de un sitio web, como por ejemplo código JavaScript o imágenes en formato .jpg, .PNG. Bueno… y lo que quieran.
Los buscadores son los creadores de arañas web por antonomasia, las utilizan para actualizar el contenido de las páginas web de los usuarios y las suyas propias.

Los rastreadores web utilizan listas para guiarse

Para hacer funcionar a un rastreador web debemos entregarle la lista de URL que queramos que visite. Estas listas también son llamadas semillas. Las arañas scrapean el contenido e identifican todos los enlaces que se encuentran en el sitio web agregándolos a la lista para visitarlos en un futuro. Esto se conoce como crawl frontier, que vendría a significar frontera de rastreo.

Las arañas web y el contenido duplicado

En la actualidad existen más de 1600 millones de sitios web en Internet. Todos los días se crean cientos de miles de nuevas páginas. Ahora pensemos en el trabajo que tiene que realizar una araña web para mantener las plataformas al día. También vamos a imaginar la cantidad de contenido duplicado que se encuentra en la red.
Es normal que cuando los rastreadores encuentran indicios de contenido duplicado directamente no los indexan (por norma general).
Los webmasters y administradores podemos utilizar protocolos de exclusión mediante un archivo llamado robots.txt. De esta manera decimos a los rastreadores a qué partes queremos que accedan de nuestra página web y a cuáles no. De esta manera evitamos sobrecargas en los servidores y en las redes y podemos controlar la indexacion de nuestros sitios.

Las arañas se valen de algoritmos para poder trabajar correctamente

Las arañas web utilizan algoritmos para entender cuestiones como la edad de un dominio y la velocidad con la que refresca sus contenidos. Si el rastreador está escaneando una página web con mucho contenido es posible que antes de que finalice su trabajo de rastreo la web haya actualizado contenido de nuevo. De aquí nace lo que se conoce como presupuesto de rastreo. El presupuesto de rastreo permite tratar a cada web de Internet de una manera diferente. Sí este sitio está haciendo bien las cosas, se aumentará el presupuesto de rastreo para que las arañas puedan permanecer más tiempo scrapeando URLs y así aumentar la indexación.

¿Cómo entiende un rastreador la temática de nuestra web?

Una araña web es capaz de entender nuestra temática mediante una serie de algoritmos. No únicamente se guian por el texto escrito, sino que también analizan los archivos adjuntos como los PDF, editores de texto, fotografías, vídeos, y por supuesto, tráfico warez.

Mediante estas tácticas, los indexadores pueden analizar internet indexar los resultados en los motores de búsqueda. Un motor de búsqueda puedo hacer trabajar muchísimas arañas a la vez de manera simultánea y en distintos servidores.
El contenido que descargan las arañas web desalojado en una base de datos para la que cualquier adjetivo se queda corto. De esta manera se enlaza el contenido con los sitios donde lo han encontrado.

¿Habías pensado en que cada búsqueda de Google es en realidad una consulta en su base de datos?

Normalmente los buscadores mantienen en secreto el funcionamiento de los algoritmos, educación y arquitectura de las arañas. De esta manera se cuidan de que SEOS y programadores encuentren algún exploit con el que sacar beneficio.