Come personalizzare il file robots.txt su Blogger

Pubblicato il 13/10/19 - aggiornato il | 14 commenti :

Come personalizzare il file robots.txt su Blogger

By Ernesto Tirinnanzi con etichette blogger

Come personalizzare il file robots.txt nei diti della piattaforma Blogger per impedire la scansione di dati post o pagine o delle immagini

Il file robots.txt è un file che deve risiedere nella radice di archiviazione del dominio; tanto per fare un esempio se un sito ha indirizzo esempio.com allora il file robots.txt deve avere come URL esempio.com/robots.txt. Si tratta di un file di semplice testo proposto nel lontano 1994 che velocemente è diventato uno standard per tutti i motori di ricerca.

Attraverso il file robots.txt gli amministratori del sito danno delle istruzioni ai crawler che scansionano le pagine del dominio. Si possono inserire delle istruzioni per fare in modo che i motori ignorino specifici file, directory o determinati URL. La sintassi dei file robots.txt è standard e, nel caso in cui in un sito non esistesse tale file, i motori lo scansioneranno integralmente senza eccezioni.

I motori che seguono lo standard del file robots.txt sono Ask, AOL, Baidu, DuckDuckGo, Google, Yahoo! e Yandex mentre Bing è solo parzialmente compatibile. Il file robots.txt è strutturato in modo da indicare il nome del crawler e quello delle pagine di cui è permessa o negata la scansione. I comandi sono essenzialmente tre: User-agent, Allow e Disallow. Con il primo si indica il nome del crawler, con il secondo le pagine di cui è permessa la scansione e con il terzo le pagine di cui è vietata la scansione.

Per indicare tutti i crawler si usa il simbolo dell'asterisco ( * ) mentre per indicare tutte le pagine di un dominio si usa il simbolo della slash ( / ). Facciamo un paio di esempi. Un file robots.txt che contiene questo testo

User-agent: *
Allow: /

indica che è permesso di scansionare tutto il sito a tutti i motori. Invece questo file robots.txt

User-agent: *
Disallow: /

indica a tutti i crawler di non indicizzare niente del sito. Per avere informazioni più complete su come creare e personalizzare il file robots.txt si può consultare questa pagina di istruzioni di Google.

FILE ROBOTS.TXT DI BLOGGER

Tutti i domini dei siti su piattaforma Blogger, del tipo gratuito nomeblog.blogspot.com e con dominio personalizzato, hanno automaticamente il file robots.txt nella radice di archiviazione ovvero un blog con dominio mioblog.blogspot.com avrà il robots.txt nell'URL mioblog.blogspot.com/robots.txt.

Il robots.txt di Blogger ha questa struttura generica

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml

dove l'ultima riga è quella della Sitemap, che ovviamente varia in funzione del dominio del sito. Le prime due righe permettono ai partner pubblicitari di Google di scansionare tutto il sito. Le righe che vanno dalla terza alla quinta permettono a tutti i crawler di scansionare tutto il sito, con l'eccezione degli URL con /search ovvero delle pagine delle etichette, che Blogger ha deciso di non far scansionare per evitare ridondanze con gli URL dei post.

Chi avesse un sito con delle esigenze particolari può però personalizzare questo file robots.txt dalla Bacheca. Si va su Impostazioni -> Preferenze di ricerca -> Crawler e indicizzazione -> File Robots.txt personalizzato per poi cliccare su Modifica accanto a Disattivato. Si mette la spunta sul Sì per personalizzare il file.

PERSONALIZZAZIONI FILE ROBOTS.TXT

1) Bloccare URL di un post o di una pagina per impedirne la scansione - Si digitano queste righe

Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html

per poi andare su Salva Modifiche. IMPORTANTE: Le righe dovranno essere aggiunte a quelle già presenti nel file originale. Nell'esempio di test si deve quindi incollare questo testo completo.

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html
Sitemap: https://nomeblog.blogspot.com/sitemap.xml

In sostanza si devono aggiungere le righe a quelle preesistenti.

2) Bloccare l'indicizzazione delle immagini - Al testo iniziale del file occorre aggiungere queste righe:

User-agent: Googlebot-Image
Disallow: /

per avere un risultato finale come il seguente:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
User-agent: Googlebot-Image
Disallow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml

Dopo una modifica aprite il file robots.txt incollandone l'URL nel browser per controllare che sia giusto.

PERSONALIZZARE I TAG DI INTESTAZIONE DEL ROBOT

Si può usare anche un altro sistema per personalizzare il robots.txt. Si va sempre su Impostazioni -> Preferenze di ricerca ma stavolta si sceglie Tag di intestazione robot personalizzati -> Modifica.

Dopo aver messo la spunta al Sì, visualizzeremo delle opzioni su cui agire. Potremo applicare i tag del file robots.txt separatamente alla Homepage, alle Pagine di Archivio e Ricerca e alle Impostazioni Predefinite per Post e Pagine. Le istruzioni per usare questi tag si possono trovare in questa pagina.

Utilizzare questi tag non modifica il file robots.txt ma presumibilmente vengono aggiunte delle righe di codice all'HTML delle pagine. Visto che non è molto chiaro il loro utilizzo consiglio di usarli con prudenza.

14 commenti :

Giuseppe Rapuano20 dicembre 2019 alle ore 11:24
Saluti, Ernesto. Spesso faccio tesoro dei Suoi consigli, metto in pratica codici e suggerimenti per il mio blog-giornale. Complimenti per il Suo lavoro, scrupoloso e dettagliato al massimo. Domanda su robots. Ho inserito queste linee robots sul mio "blogspot":

User-agent: *
Disallow:

Sitemap: https://cinquewnews.blogspot.com/sitemap.xml

Come vede, sono diverse da quelle basi, le standard. Quale la soluzione migliore dal punto di vista delle visite al sito? Logicamente, per ottenerne un aumento. La ringrazio. Giuseppe
RispondiElimina
Risposte
Blogger2 dicembre 2020 alle ore 20:19
Ciao Ernesto, per far risultare gli articoli del mio blog su google dv attivare questa impostazione?
RispondiElimina
Risposte
Blogger3 dicembre 2020 alle ore 00:57
Ok grazie mille. Per la seguente impostazione : User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap:

Deve essere abilitata giusto ?
RispondiElimina
Risposte
Ernesto Tirinnanzi3 dicembre 2020 alle ore 11:20
La impostazione di default del file robots.txt è questa

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Allow: /

Sitemap: .../sitemap.xml

La devi attivare solo se vuoi modificare il file robots.txt altrimenti lo è già
@#
RispondiElimina
Risposte
Blogger3 dicembre 2020 alle ore 19:03
Ok, ho spento questa impostazione. Ma come mai i miei articoli non compaiono su Google?
RispondiElimina
Risposte
Blogger3 dicembre 2020 alle ore 21:50
Ho fatto sul blog impostazioni, poi su
-> Crawler e indicizzazione

Abilita file robots.txt personalizzato ho tolto la spunta verde. Ho sbagliato?

RispondiElimina
Risposte
sandro d.d. bertuolo Sovrano5 novembre 2023 alle ore 18:35
Salve ho un blog da qualche anno artemassaggi.blogspot.com, ma ultimamente anche se sto pubblicando video su youtube.com e instagram.com le visite stanno diminuendo e l'indicizzazione di google sembra assente, non capisco come mai ed avrei bisogno di aiuto, puoi aiutarmi ? Grazie della risposta e buona serata
RispondiElimina
Risposte

Aggiungi commento

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy