Linee guida per la creazione di un file Robots.txt: che cos’è un file Robots.txt e come si crea? Linee guida di base per la creazione di un robot.txt

Linee guida in italiano per la creazione di un file Robots.txt
Condizioni di utilizzo

Solo per uso personale e per la condivisione sui social tramite i bottoni presenti sull'immagine. Per la distribuzione su altri siti o blog è necessario inserire il link di attribuzione come segue:
<a href="https://www.immagini-gratis.it/guide-informatiche/file-robot-txt_135">Immagini-gratis</a>

Stampa

Stampa questa immagine. su carta A4.

Personalizza

Modifica con l'editor online gratuito.

Scarica

Salva questa immagine con il download.

Nell'immagine che puoi stampare gratis trovi tutte le linee guida per creare e conoscere le principali caratteristiche di un file robot.txt di grande importanza per permette di controllare a quali file i crawler possono accedere sul tuo sito con un file robots.txt. Un file robots.txt risiede nella radice del tuo sito. Quindi, per il sito web www.example.com, il file robots.txt risiede in www.example.com/robots.txtrobots.txt è un file di testo semplice che segue il Robots Exclusion Standard. Un file robots.txt è costituito da una o più regole. Ogni regola blocca o consente l'accesso per un determinato crawler a un percorso file specificato in quel sito Web. A meno che tu non specifichi diversamente nel tuo file robots.txt, tutti i file possono essere scansionati implicitamente.

 

Seguono domande molto comuni sul file robots.txt

Uso gli stessi robot . txt per più siti web. Posso utilizzare un URL completo invece di un percorso relativo?

No. Le direttive nel file robots.txt (ad eccezione di sitemap:) sono valide solo per percorsi relativi.

Posso posizionare i robot . txt in una sottodirectory?

No. Il file deve essere posizionato nella directory più in alto del sito web.

Voglio bloccare una cartella privata . Posso impedire ad altre persone di leggere i miei robot . file txt?

No. Il file robots.txt può essere letto da vari utenti. Se le cartelle o i nomi dei file dei contenuti non sono destinati al pubblico, non elencarli nel file robots.txt. Non è consigliabile fornire file robots.txt diversi in base allo user agent o ad altri attributi.

Devo includere una allow direttiva per consentire la scansione?

No, non è necessario includere una allowdirettiva. Tutti gli URL sono implicitamente consentiti e la allowdirettiva viene utilizzata per sovrascrivere le disallowdirettive nello stesso file robots.txt.

Cosa succede se ho un errore nei miei robot . txt o usi una direttiva non supportata? 

I crawler Web sono generalmente molto flessibili e in genere non saranno influenzati da piccoli errori nel file robots.txt. In generale, il peggio che può accadere è che le direttive errate/non supportate vengano ignorate. Tieni presente però che Google non può leggere nel pensiero quando interpreta un file robots.txt; dobbiamo interpretare il file robots.txt che abbiamo recuperato. Detto questo, se sei a conoscenza di problemi nel file robots.txt, di solito sono facili da risolvere .

Quale programma dovrei usare per creare un file robot.txt?

Puoi usare qualsiasi cosa che crei un file di testo valido. I programmi comuni utilizzati per creare file robots.txt sono Blocco note, TextEdit, vi o emacs.

Se impedisco a Google di eseguire la scansione di una pagina utilizzando un robot.txt , scomparirà dai risultati di ricerca? 

Il blocco di Google dalla scansione di una pagina rischia di rimuovere la pagina dall'indice di Google.

Tuttavia, robots.txt disallow non garantisce che una pagina non venga visualizzata nei risultati: Google può comunque decidere, sulla base di informazioni esterne come i link in entrata, che è pertinente e mostrare l'URL nei risultati. Se desideri bloccare esplicitamente l'indicizzazione di una pagina, utilizza il noindexmeta tag robots o l' X-Robots-Tagintestazione HTTP. In questo caso, non disabilitare la pagina in robots.txt, perché la pagina deve essere sottoposta a scansione affinché il tag possa essere visto e rispettato. 

Quanto tempo ci vorrà per le modifiche ai miei robot.txt per influenzare i miei risultati di ricerca? 

Innanzitutto, la cache del file robots.txt deve essere aggiornata (generalmente memorizziamo nella cache i contenuti per un massimo di un giorno). Puoi accelerare questo processo inviando il tuo robots.txt aggiornato a Google . Anche dopo aver trovato la modifica, la scansione e l'indicizzazione sono un processo complicato che a volte può richiedere del tempo per i singoli URL, quindi è impossibile fornire una sequenza temporale esatta. Inoltre, tieni presente che anche se il tuo file robots.txt non consente l'accesso a un URL, tale URL potrebbe rimanere visibile nei risultati di ricerca nonostante non sia possibile eseguirne la scansione. Se desideri accelerare la rimozione delle pagine che hai bloccato da Google, invia una richiesta di rimozione.

Come posso sospendere temporaneamente tutte le scansioni del mio sito web?

Puoi sospendere temporaneamente tutte le scansioni restituendo un 503 (service unavailable)codice di stato HTTP per tutti gli URL, incluso il file robots.txt. Il file robots.txt verrà riprovato periodicamente finché non sarà possibile accedervi nuovamente. Non è consigliabile modificare il file robots.txt per impedire la scansione.

Il mio server non fa distinzione tra maiuscole e minuscole . Come posso impedire completamente la scansione di alcune cartelle? 

Le direttive nel file robots.txt fanno distinzione tra maiuscole e minuscole. In questo caso, si consiglia di assicurarsi che solo una versione dell'URL sia indicizzata utilizzando i metodi di canonizzazione . In questo modo puoi avere meno righe nel tuo file robots.txt, quindi è più facile gestirlo. Se ciò non è possibile, ti consigliamo di elencare le combinazioni comuni del nome della cartella, o di abbreviarlo il più possibile, utilizzando solo i primi caratteri anziché il nome completo. Ad esempio, invece di elencare tutte le permutazioni maiuscole e minuscole di/MyPrivateFolder, potresti elencare le permutazioni di "/MyP" (se sei certo che non esistono altri URL scansionabili con quei primi caratteri). In alternativa, potrebbe avere senso utilizzare invece un meta tag robots o X-Robots-Tag un'intestazione HTTP, se la scansione non è un problema.

Ritorno 403 Forbidden per tutti gli URL, inclusi i files robots.txt . Perché il sito è ancora sottoposto a scansione? 

Il 403 Forbiddencodice di stato HTTP, così come altri 4xx codici di stato HTTP, viene interpretato come il file robots.txt non esiste. Ciò significa che i crawler generalmente presumeranno di poter eseguire la scansione di tutti gli URL del sito web. Per bloccare la scansione del sito web, il robots.txt deve essere restituito con un 200 OKcodice di stato HTTP e deve contenere una disallowregola appropriata .

Domande sui meta tag dei robot

Il meta tag robots è un sostituto dal file robots.txt? 

No. Il file robots.txt controlla a quali pagine si accede. Il meta tag robots controlla se una pagina è indicizzata, ma per vedere questo tag è necessario eseguire la scansione della pagina. Se la scansione di una pagina è problematica (ad esempio, se la pagina provoca un carico elevato sul server), utilizza il file robots.txt. Se si tratta solo di visualizzare o meno una pagina nei risultati di ricerca, puoi utilizzare il meta tag robots.

Il meta tag robots può essere utilizzato per impedire l'indicizzazione di una parte di una pagina? 

No, il meta tag robots è un'impostazione a livello di pagina.

Posso utilizzare il meta tag robots al di fuori di una 

sezione? 

No, il meta tag robots deve trovarsi nella 

 sezione di una pagina.

Il meta tag robots non consente la scansione?

No. Anche se il meta tag robots attualmente dice noindex, dovremo ripetere la scansione dell'URL di tanto in tanto per verificare se il meta tag è cambiato.

Come si confronta il nofollowmeta tag robots con l' rel="nofollow"attributo link? 

Il nofollow meta tag robots si applica a tutti i link in una pagina. Il rel="nofollow" attributo link si applica solo a link specifici su una pagina. 

 

 

 

TAGS