Crawler

Il crawler, anche noto come robot o spider, è un software utilizzato dai motori di ricerca per analizzare i siti web e consentirne la classificazione, ovvero l'indicizzazione.

Tutti i motori di ricerca ricorrono a un crawler, ma quello di Google (Googlebot) è certamente il più noto e temuto. Il crawler visita i siti web ovvero ne analizza tutti i contenuti seguendo le URL, identificando i link presenti nelle pagine e passando successivamente a visitarli.

Il file robots.txt, presente in automatico in tutti i siti e comunque personalizzabile, può indirizzare i crawler indicando loro alcuni comportamenti da seguire, ad esempio il non visualizzare la pagina o non seguire un link.

Un crawler può “visitare” solo la parte testuale di un sito, quindi non raggiunge e valuta immagini ed elementi grafici.

Appena un sito è messo online, trascorre generalmente un tempo prima che il crawler passi a visitarlo e ne permetta l'indicizzazione, e questo tempo varia a seconda di diversi parametri.