Pubblicato il 13/10/19 - aggiornato il  | Nessun commento :

Come personalizzare il file robots.txt su Blogger

Come personalizzare il file robots.txt nei diti della piattaforma Blogger per impedire la scansione di dati post o pagine o delle immagini
Il file robots.txt è un file che deve risiedere nella radice di archiviazione del dominio; tanto per fare un esempio se un sito ha indirizzo esempio.com allora il file robots.txt deve avere come URL esempio.com/robots.txt. Si tratta di un file di semplice testo proposto nel lontano 1994 che velocemente è diventato uno standard per tutti i motori di ricerca.

Attraverso il file robots.txt gli amministratori del sito danno delle istruzioni ai crawler che scansionano le pagine del dominio. Si possono inserire delle istruzioni per fare in modo che i motori ignorino specifici file, directory o determinati URL. La sintassi dei file robots.txt è standard e, nel caso in cui in un sito non esistesse tale file, i motori lo scansioneranno integralmente senza eccezioni.

I motori che seguono lo standard del file robots.txt sono Ask, AOL, Baidu, DuckDuckGo, Google, Yahoo! e Yandex mentre Bing è solo parzialmente compatibile. Il file robots.txt è strutturato in modo da indicare il nome del crawler e quello delle pagine di cui è permessa o negata la scansione. I comandi sono essenzialmente tre: User-agent, Allow e Disallow. Con il primo si indica il nome del crawler, con il secondo le pagine di cui è permessa la scansione e con il terzo le pagine di cui è vietata la scansione.


Per indicare tutti i crawler si usa il simbolo dell'asterisco ( * ) mentre per indicare tutte le pagine di un dominio si usa il simbolo della slash ( / ). Facciamo un paio di esempi. Un file robots.txt che contiene questo testo

User-agent: *
Allow: /

indica che è permesso di scansionare tutto il sito a tutti i motori. Invece questo file robots.txt

User-agent: *
Disallow: /

indica a tutti i crawler di non indicizzare niente del sito. Per avere informazioni più complete su come creare e personalizzare il file robots.txt si può consultare questa pagina di istruzioni di Google.





FILE ROBOTS.TXT DI BLOGGER


Tutti i domini dei siti su piattaforma Blogger, del tipo gratuito nomeblog.blogspot.com e con dominio personalizzato, hanno automaticamente il file robots.txt nella radice di archiviazione ovvero un blog con dominio mioblog.blogspot.com avrà il robots.txt nell'URL mioblog.blogspot.com/robots.txt.

Il robots.txt di Blogger ha questa struttura generica

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://nomeblog.blogspot.com/sitemap.xml

dove l'ultima riga è quella della Sitemap, che ovviamente varia in funzione del dominio del sito. Le prime due righe permettono ai partner pubblicitari di Google di scansionare tutto il sito. Le righe che vanno dalla terza alla quinta permettono a tutti i crawler di scansionare tutto il sito, con l'eccezione degli URL con /search ovvero delle pagine delle etichette, che Blogger ha deciso di non far scansionare per evitare ridondanze con gli URL dei post.






Chi avesse un sito con delle esigenze particolari può però personalizzare questo file robots.txt dalla Bacheca. Si va su Impostazioni -> Preferenze di ricerca -> Crawler e indicizzazione -> File Robots.txt personalizzato per poi cliccare su Modifica accanto a Disattivato. Si mette la spunta sul per personalizzare il file.

PERSONALIZZAZIONI FILE ROBOTS.TXT


1) Bloccare URL di un post o di una pagina per impedirne la scansione - Si digitano queste righe

Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html

per poi andare su Salva Modifiche. IMPORTANTE: Le righe dovranno essere aggiunte a quelle già presenti nel file originale. Nell'esempio di test si deve quindi incollare questo testo completo.

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Disallow: /2019/10/titolo-post1.html
Disallow: /p/nome-pagina1.html

Sitemap: https://nomeblog.blogspot.com/sitemap.xml

In sostanza si devono aggiungere le righe a quelle preesistenti.

2) Bloccare l'indicizzazione delle immagini - Al testo iniziale del file occorre aggiungere queste righe:

User-agent: Googlebot-Image
Disallow: /

per avere un risultato finale come il seguente:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
User-agent: Googlebot-Image
Disallow: /

Sitemap: https://nomeblog.blogspot.com/sitemap.xml

Dopo una modifica aprite il file robots.txt incollandone l'URL nel browser per controllare che sia giusto.





PERSONALIZZARE I TAG DI INTESTAZIONE DEL ROBOT


Si può usare anche un altro sistema per personalizzare il robots.txt. Si va sempre su Impostazioni -> Preferenze di ricerca ma stavolta si sceglie Tag di intestazione robot personalizzati -> Modifica.

tag-intestazione-personalizzati-robot

Dopo aver messo la spunta al Sì, visualizzeremo delle opzioni su cui agire. Potremo applicare i tag del file robots.txt separatamente alla Homepage, alle Pagine di Archivio e Ricerca e alle Impostazioni Predefinite per Post e Pagine. Le istruzioni per usare questi tag si possono trovare in questa pagina.

Utilizzare questi tag non modifica il file robots.txt ma presumibilmente vengono aggiunte delle righe di codice all'HTML delle pagine. Visto che non è molto chiaro il loro utilizzo consiglio di usarli con prudenza.




Nessun commento :

Posta un commento

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy