Differenza tra Robots.txt e Meta Robots

Differenza tra Robots.txt e Meta Robots

Differenza tra Robots.txt e Meta Robots

Ok, proviamo a capirci qualcosa. Se vuoi che una pagina web del tuo sito non sia visibile su Google puoi bloccarne la scansione tramite file robots.txt o deindicizzarla attraverso l’uso del meta robots. Ma quali sono le differenze tra questi due strumenti? Quando è opportuno utilizzarne uno al posto dell’altro?

Il file robots.txt

Si tratta di un banale file di testo, la cui funzione è evitare la scansione di pagine singole (statiche) o file, ma più frequentemente intere cartelle (directory) interne al sito web. questo strumento è utile per i siti web statici, ma può essere utilizzato anche per quelli dinamici. Se le pagine in questione non sono mai state indicizzate rimangono in tale stato, altrimenti se sono già presenti negli indici, ne viene bloccata la scansione.

Esempio di compilazione di un file robots.txt

User-agent: googlebot
Disallow: /testi.html
Disallow: /mp3/

Il meta robots

Non è un file, ma un’istruzione che può essere presente come codice nella sezione “head” di ogni pagina web. Molto utilizzata per i contenuti dinamici, presenta 4 declinazioni:

meta name=”robots” content=”index,follow”
meta name=”robots” content=”noindex,follow”
meta name=”robots” content=”index,nofollow”
meta name=”robots” content=”noindex,nofollow”

A tali declinazioni standard se ne aggiungono altre con istruzioni precise come ad esempio noarchive, di cui si è parlato in passato.

Le differenze

Diciamo intanto che il file robots è personalizzabile per tutti gli spider dei principali motori di ricerca, mentre il meta robots lancia le sue istruzioni in modo globale, cioè per tutti i motori di ricerca. Un’altra differenza importante tra i due strumenti è che un nuovo contenuto non indicizzato, contrassegnato con il meta robots “noindex”, viene prima assorbito e poi deindicizzato, impiegando in ogni caso le risorse di scansione di Google. Non so perché avvenga ciò, ma c’è un doppio passaggio che richiede tempo e soprattutto crawling budget che non è detto Google abbia stanziato per il tuo sito web. Da questo punto di vista, agire “di violenza” escludendo le stesse pagine con il file robots.txs produce una scansione del sito più “economica”.

Attenzione alla rimozione url

La rimozione url è uno strumento dei Webmaster Tools di Google che andrebbe utilizzato solo per escludere definitivamente dalla visualizzazione in serp una pagina web che non vorremmo vedere. Attenzione, questo processo non è reversibile, nel senso che non puoi far riassorbire una url dopo che è stata rimossa, ma in caso devi modificarla, altrimenti la pagina non sarà più visibile.

In effetti il contenuto rimosso non viene del tutto deindicizzato, ma diventa semplicemente invisibile, vale a dire che continua ad occupare risorse di scansione perché Google continua a vederlo.

Qui puoi trovare tutti i casi in cui Google consiglia di non utilizzare lo strumento di rimozione url.

Conclusioni

In generale va benissimo utilizzare il meta robots per regolare i percorsi di scansione e definire le priorità tra i contenuti del tuo sito web, tieni solo conto che non tutto ciò che sparisce dalle serp è “deindicizzato”. La differenza tra i due strumenti sta proprio in questo.

Meta robots = può bloccare l’indicizzazione

Robots.txt = blocca la scansione

Quindi se blocchi la scansione di un contenuto con il file robots.txt, ma allo stesso tempo utilizzi per lo stesso contenuto il meta robots in “noindex”, questo potrebbe non venire deindicizzato. Guarda tu, i casi della vita!

A volte si ottimizza con il cesello, altre volte con le martellate. Tu come ti muovi in genere?

Rispondi all'articolo

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

Time limit is exhausted. Please reload the CAPTCHA.