Crawling, Noindex, Cache, Robots.txt : Significato e Definizione nella SEO

Con quest'articolo entriamo negli aspetti più tecnici della SEO, anche per ecommerce. Prima di sapere come realizzare le nostre pagine web, infatti, dobbiamo conoscere in che modo un motore di ricerca processa le informazioni e indicizza i siti, insomma come funziona un motore di ricerca.

Introdurremo dunque termini come crawling, robots, noindex, cache robots, nofollow. Ma non spaventatevi!

I crawler ed il crawling

Il crawler, detto anche robot o spider, è un software in grado di analizzare un sito web o un database per esaminarne le informazioni. In base al lavoro svolto dal crawler, che visualizza e segue tutti i link interni al sito, quest'ultimo può essere indicizzato correttamente nei motori di ricerca. Il lavoro del crawler è anticipato in genere da una funzione di spidering, per copiare e controllare l'html del sito verificando che non sia spam, e producendo una copia cache.

Si parla di crawling, più in generale, quando si fa riferimento al “passaggio” di un crawler su un sito, operazione che anni fa richiedeva almeno un paio di mesi dalla prima pubblicazione mentre oggi può essere molto rapido e richiedere pochi giorni.

Lo spider di Google si chiama googlebot, ed è il principale crawler a cui ci rivolgeremo nell'ottimizzare le nostre pagine.

Il file robots.txt

Il file chiave nell'indicizzazione di un sito web si chiama robots.txt. È qui che sono caricati i parametri relativi al rapporto sito-spider, e qui possiamo intervenire per alcune modifiche speciali.

Il file si trova nella cartella principale del sito, e contiene i seguenti campi:

  • User-agent, che riguarda il nome dello spider;
  • Disallow, che permette di individuare cosa non mostrare allo spider;

Ad esempio con:

User-agent: *

Inibiamo l'accesso al sito a tutti gli spider.

Mentre con:

Disallow:  /paperino.html

Indichiamo al crawler che non deve visitare la pagina web ../paperino.html

Questo genere di intervento può servire a molte cose, ad esempio per evitare che uno spider visualizzi contenuti duplicati nel nostro ecommerce, o non si soffermi su pagine inutili ai fini dell'indicizzazione.

Il meta name “robots” e “noindex”

Per indirizzare e personalizzare l'indicizzazione di un sito possiamo lavorare anche sui metatags. È il caso, ad esempio, del Meta Name Robots:

<meta name=”robots” content=”noindex” />

La voce “robots” indica allo spider che avrà un comando da eseguire sulla pagina, comando poi esplicitato alla voce “content”.

Le opzioni possibili sono 4:

<meta name=”robots” content=”index” /> dice allo spider di inserire la pagina nel suo database;

<meta name=”robots” content=”noindex” /> dice allo spider di non inserire la pagina;

<meta name=”robots” content=”follow” /> dice allo spider di seguire tutti i link della pagina;

<meta name=”robots” content=”nofollow” /> dice allo spider di non seguire i link;

Possiamo fornire anche istruzioni combinate come:

<meta name=”robots” content=”index, nofollow” />

suggerendo al crawler di archiviare il sito ma non visitare i link. Ricordiamo che il metatag è obbligatorio solo dove forniamo istruzioni personalizzate al crawler, altrimenti in mancanza del metatag robots lo spider visiterà il sito in tutte le sue parti.

Cache robots.txt

La richiesta robots.txt in genere è archiviata da Google in cache per poco più di un giorno, ma in alcune situazioni può essere tenuta più a lungo.

Per siti che continuano a mostrare il vecchio robots.txt può essere inviata esplicita richiesta a Google per rimozione cache, o basta semplicemente aspettare.

In una pratica guida sul robots.txt Google spiega ai suoi utenti tutto quello che serve per gestire e personalizzare il file.

Lascia un commento

Il tuo indirizzo email non verrà pubblicato

CLOSE

 ►►

Fermati!

Scarica

Gratis ora!

UN REGALO PER TE!

 

Compila i campi di seguito e scarica il tuo regalo gratis!

↓↓↓↓↓↓↓↓↓↓↓↓