Robots.txt cos’è e come funziona

Hai delle sezioni del tuo sito che vuoi mantenere private o non vuoi che siano indicizzate dal Bot di Google?

Allora devi assolutamente sapere cos’è il Robots.txt e come utilizzarlo.

Cos’è il Robots.txt

Il Robots.txt  è uno degli strumenti fondamentali della SEO On Site e ogni buon SEO Specialist deve conoscerlo e saperlo utilizzare.

A livello pratico il Robots.txt non è altro che un file di testo, che viene scritto dai Webmaster o dai SEO Specialist, è inserito nella directory principale del tuo sito web.

Questo file di testo fa parte del REP (robot exclusion protocol), ovvero quel gruppo di regole standard usate per comunicare con i Crawler dei motori di ricerca.

A cosa serve il Robots.txt

Il processo di indicizzazione dei siti internet prevede che lo spider scansioni la rete, analizzi il contenuto delle pagine e inserisca nel proprio database tutti i contenuti inerenti ad ogni sito.

Ma se abbiamo pagine che non vogliamo che vengono indicizzate e inserite tra i risultati delle SERP, ci viene in aiuto file Robots.txt.

Tramite questo file di testo, possiamo indicare al BOT di Google e degli altri motori di ricerca, quali pagine del nostro sito saltare durante la fase di Crawling.

In questo modo le pagine inserite nel file di testo non verranno scansionate e non compariranno tra i risultati di ricerca.

Come funziona il Robots.txt

Prima di iniziare il processo di scansione, lo spider consulta il file Robots.txt contenuto nelle cartelle del tuo sito web e in base al codice capisce quali url deve saltare.

Ma cosa succede se il tuo sito non contiene il file Robots.TXT?

In questo caso il Bot di Google non avrà alcuna indicazione su quali pagine saltare durante la scansione e procederà ad indicizzare tutte le pagine del sito.

Ovviamente anche se il file è presente nel tuo sito, ma non viene compilato con nessun comando disallow, il sito verrà scansionato e indicizzato per intero.

Quando conviene usare il Robots.txt

Forse non ci hai mai pensato, ma permettere a Google di scansionare tutto il tuo sito potrebbe essere una scelta azzardata.

Nella SEO il tuo obiettivo principale è farti trovare sui motori di ricerca, ma ci possono essere pagine che vuoi rimangano private o disponibili solamente ad alcuni utenti.

Ecco alcuni casi in cui ti consiglio di usare il Robots per evitare l’indicizzazione:

  • quando vuoi mantenere private alcune parti del sito
  • quando vuoi evitare di mostrare a Google pagine duplicate che porterebbero a penalizzazioni
  • evitare di mostrare pagine di preventivo a tutti gli utenti
  • quando vuoi riservare contenuti premium solamente ad alcuni utenti
  • ecc.

Come visualizzare il file Robots.txt

Il file Robots.txt è visibile pubblicamente per ogni tipo di sito web.

Quindi se vuoi vedere il suo contenuto, ti basterà inserire il dominio del sito che vuoi analizzare seguito da “/robots.txt”.

Ovviamente il codice sarà visibile solamente se il sito contiene il file, in caso di sottodomini invece ogni sottodominio dovrà aver caricato il proprio file Robots.txt.

Il linguaggio per comunicare con il robot

Per comunicare con il bot dovrai necessariamente utilizzare un linguaggio che sia in grado di comprendere.

Di seguito ti riporto i comandi principali che puoi utilizzare per compilare il codice del file:

  • User-agent: Serve per indicare a quale motore di ricerca specifico si rivolgono i comandi.
  • Disallow: Serve ad indicare quali url non vogliamo che siano indicizzati.
  • Allow: Il comando indica esclusivamente al bot di Google, che può accedere ad una pagina o una sottocartella, anche se la pagina principale o la sottocartella sono disattivate.
The following two tabs change content below.
Nicolò Grammatico

Nicolò Grammatico

Web Marketing Specialist
Web marketing specialist e appassionato di comunicazione online. Aiuto le aziende e i professionisti a migliorare la loro presenza online e a trovare nuovi clienti.
Nicolò Grammatico

Ultimi post di Nicolò Grammatico (vedi tutti)

Scroll to top