Pubblicato il 21/02/16e aggiornato il

Come testare il file robots.txt su Search Console e controllare se un URL è stato bloccato.

Come modificare e testare il file robots.txt dalla searc Console di Google per bloccare la scansione di specifici URL.
Ricordo che il file robots.txt è quello che determina le regole per la scansione delle pagine e degli elementi del sito dai vari crawler.  Gli utenti di Blogger possono personalizzare il file robots.txt dalla Bacheca. Tale operazione è consigliabile solo a chi sia particolarmente esperto visto che può portare al blocco della indicizzazione di pagine o di altri contenuti del sito.

Tutti i siti che utilizzano la piattaforma Blogger possono visualizzare il loro file robots.txt direttamente online incollando alla fine dell'URL della Homepage la stringa /robots.txt.  Per questo blog bisogna quindi aprire nel browser questo indirizzo

http://www.ideepercomputeredinternet.com/robots.txt

Per la sua modifica invece si può andare su Impostazioni > Preferenze di ricerca > Crawler e indicizzazione > File robots.txt personalizzato > Modifica

personalizzare-file-robots-txt

Nel modulo possiamo inserire fino a 10.000 caratteri e andare su Salva modifiche. Tutti i blog di Blogger hanno la stessa tipologia di file robots.txt che è la seguente

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.ideepercomputeredinternet.com/sitemap.xml

dove solo l'ultima riga è diversa da sito a sito ed è la nuova sitemap di Blogger in formato XML. Le modifiche che potevamo fare dalla Bacheca adesso è possibile farle anche da Search Console ex Strumenti per Webmaster. I blog che si creano con Blogger vengono aggiunti automaticamente come di nostra proprietà nella Search Console. Si seleziona quello che ci interessa quindi si va su Scansione > Tester dei file robots.txt    che aprirà una finestra come questa

file-robots-txt

Oltre alla struttura solita del file robots.txt c'è il link Consulta il robots.txt sul sito che apre la pagina che abbiamo visto all'inizio del post. In basso ci sono il numero di Errori e di Avvisi relativi al file robots.txt nel caso si siano commessi errori o se siano stati rilevati dei problemi.

PERSONALIZZAZIONI DEL FILE ROBOTS.TXT


Per modificare il file robots.txt dalla Search Console si agisce sul codice. Ecco 2 esempi:

1) Bloccare URL per impedirne la scannerizzazione - Si incollano queste righe

Disallow: /2015/06/titolo-post1.html
Disallow: /p/nome-pagina1.html


per non far indicizzare il post e la pagina che hanno come parte finale l'URL dopo Disallow.

modificare-file-robots-txt

Dopo le modifiche si va su Invia. Si aprirà questa finestra popup in cui eseguire precauzionalmente tutte e tre le operazioni

robots-txt

Verremo informati che l'operazione è riuscita e di ricaricare la pagina di tester dopo un minuto. In realtà un minuto è decisamente troppo poco affinché le modifiche vengano digerite da Google.

ricaricare-pagina-tester

2) Bloccare l'indicizzazione delle immagini - Si incollano queste due righe:

User-agent: Googlebot-Image
Disallow: /


Dopo un certo periodo le modifiche saranno recepite. Controllare sempre che non appaiano degli errori o degli avvisi per eventualmente rimettere il file robots.txt presente di default su Blogger.

COME TESTARE SE UN POST O UNA PAGINA È BLOCCATA


Si incolla l'ultima parte dell'URL nel campo in fondo alla pagina quindi si va su Testa

controllo-blocco-url Verrà evidenziata la riga del file che ne consente o che ne blocca l'indicizzazione.




5 commenti :

  1. Ciao Ernesto,
    sono di nuovo qui perché sono stato accettato in Google News e mi sto esaurendo con il file robots.txt.

    Avrei una domanda: nell'immagine da te postata (1. Scarica ... 2.... 3 Invia), sei sicuro che quei passaggi non debbano essere fatti tutti e tre e che si possa arrivare direttamente a Invia dopo aver modificato il file robots nell'apposito form?

    Nel caso in cui non dovesse funzionare, ma spero vada tutto bene, si può comunque procedere tramite Blogger?

    Grazie,
    Mik


    RispondiElimina
    Risposte
    1. In realtà non ho testato fino in fondo, mi sono solo limitato a mostrare la procedura. Il file robots.txt può essere sempre modificato anche da Blogger come al solito
      @#

      Elimina
    2. Sono passate 24 ore e Search Console ancora non aggiorna. Volevo chiederti: se modifico il robots tramite Blogger, poi devo comunicarlo a Search Console con Invia oppure devo limitarmi a Blogger?

      Grazie!

      Elimina
    3. Non te lo so dire. Se è una cosa da fare subito ti consiglio di modificare il file robots.txt in entrambi i posti. Poi apri la pagina www.tuodominio.com/robots.txt per vedere se la modifica è stata recepita. Il file di questo sito p.e si può controllare in questo URL
      http://www.ideepercomputeredinternet.com/robots.txt
      Puoi fare il test anche con il tuo blog per vedere se e quando sia stato aggiornato il robots.txt
      @#

      Elimina
    4. Giusto per essere d'aiuto a chi magari ha lo stesso problema: ho cambiato tramite Blogger tutto e Google Search Console ha subito recepito :) ora vediamo come va...

      Mik

      Elimina

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti. Se ti ho aiutato con il post o con le risposte ai commenti condividi su Facebook o su Twitter. Grazie.