File Robots.txt cos’è e come funziona

Se sei un webmaster o ti occupi di SEO il file Robots.txt  è uno degli strumenti fondamentali da conoscere per gestire al meglio l’indicizzazione del tuo sito sui motori di ricerca.

Vediamo quindi cos’è il file Robots.txt

Cos’è il File Robots.txt

Come dice il nome, il file Robots.txt non è altro che un file di testo che indica ai motori di ricerca quali pagine di un sito web non devono essere indicizzate.

Generalmente il file viene scritto dal Webmaster o dal SEO Specialist che gestisce un sito web e viene inserito nella directory principale del sito per consentire ai Crawler di consultarlo prima di fare la scansione completa delle URL.

Questo file fa parte del gruppo di regole standard del REP (Robot Exclusion Protocol), che permettono ai SEO di comunicare direttamente con lo spider del motore di ricerca.

A cosa serve il file Robots.txt

Nel concreto questo file impedisce la scansione delle pagine web elencate al suo interno ed evita che queste pagine compaiano nelle SERP dei risultati di ricerca.

Questo file è fondamentale quando vuoi evitare di far indicizzare pagine del tuo sito poco rilevanti per i tuoi utenti come la cookie policy o se non vuoi far atterrare i tuoi utenti su contenuti a pagamento.

Se il tuo sito presenta contenuti duplicati o copiati, il file Robot.txt è fondamentale per evitare una penalizzazione dal motore di ricerca. Inserendo all’interno del file l’url della pagina con il contenuto duplicato, puoi evitare che sia scansionata da Google e che il tuo sito subisca una penalizzazione da contenuto duplicato.

Generalmente ti consiglio inserire nel tuo file robots:

  • le pagine che vuoi mantenere private,
  • pagine duplicate,
  • pagine con testo copiato,
  • pagine di preventivo,
  • pagine di contenuti premium,
  • pagine richieste dalla legge.

Come il crawler analizza il File Robots.txt

Quando il bot del motore di ricerca atterra sul tuo sito, inizia la fase di scraping, ovvero analizza il contenuto delle pagine di un sito, seguendo i vari link.

Prima di iniziare questa lunga procedura di scansione però, legge il codice contenuto nel file Robots.txt e memorizza gli url da non scansionare. In questo modo il bot può evitare di analizzare pagine inutili e risparmiare tempo e risorse in fase di scansione.

Ma cosa succede se il tuo sito non contiene il file Robots.TXT?

In questo caso il Bot di Google non avrà alcuna indicazione su quali pagine saltare e procederà ad indicizzare tutto il contenuto del sito.

Per questo motivo è importante compilare correttamente il file e inserirlo nella cartella principale del sito.

Come creare un file Robots.txt

Ora che hai capito cos’è il file Robots.txt e l’importanza che ha per la corretta indicizzazione SEO del tuo sito, vediamo come puoi crearlo ed editarlo.

Se usi WordPress a questa guida puoi trovare le indicazioni per creare il tuo file robots utilizzando il plugin per la seo Yoast.

In alternativa puoi scrivere il codice all’interno di un file di testo e inserirlo nella directory principale del tuo sito.

I comandi per scrivere il file Robots.txt

Per comunicare con il bot dovrai necessariamente utilizzare un linguaggio che sia in grado di comprendere.

I principali comandi che ti servono per dare indicazioni al bot di scansione sono:  

  • User-agent: che serve per indicare a quale motore di ricerca specifico si rivolgono i comandi.
  • Disallow: che indica al bot quali url non vogliamo che siano indicizzati.
  • Allow: che indica esclusivamente al bot di Google, che può accedere ad una pagina o una sottocartella, anche se la pagina principale o la sottocartella sono disattivate.

Per compilare correttamente il codice del tuo file Robots ti rimando alla guida ufficiale google che riporta tutte le indicazioni di cui hai bisogno.

Come visualizzare il file Robots.txt

Il file Robots.txt di ogni sito web è visibile pubblicamente.

Quindi se vuoi consultare il contenuto del tuo file Robots o di quello di un altro sito web, ti basterà inserire il dominio del sito seguito da “/robots.txt”.

Ovviamente il codice sarà visibile solamente se il sito contiene il file, in caso di sottodomini invece ogni sottodominio dovrà aver caricato il proprio file.

The following two tabs change content below.

Nicolò Grammatico

Web Marketing Specialist
Web marketing specialist e appassionato di comunicazione online. Aiuto le aziende e i professionisti a migliorare la loro presenza online e a trovare nuovi clienti.

Ultimi post di Nicolò Grammatico (vedi tutti)

Reader Interactions