Pubblicato il 21/02/16 - aggiornato il  | 14 commenti :

Come testare il file robots.txt su Search Console e controllare se un URL è stato bloccato.

Come modificare e testare il file robots.txt dalla searc Console di Google per bloccare la scansione di specifici URL.
Ricordo che il file robots.txt è quello che determina le regole per la scansione delle pagine e degli elementi del sito dai vari crawler.  Gli utenti di Blogger possono personalizzare il file robots.txt dalla Bacheca. Tale operazione è consigliabile solo a chi sia particolarmente esperto visto che può portare al blocco della indicizzazione di pagine o di altri contenuti del sito.

Tutti i siti che utilizzano la piattaforma Blogger possono visualizzare il loro file robots.txt direttamente online incollando alla fine dell'URL della Homepage la stringa /robots.txt.  Per questo blog bisogna quindi aprire nel browser questo indirizzo

http://www.ideepercomputeredinternet.com/robots.txt

Per la sua modifica invece si può andare su Impostazioni > Preferenze di ricerca > Crawler e indicizzazione > File robots.txt personalizzato > Modifica

personalizzare-file-robots-txt

Nel modulo possiamo inserire fino a 10.000 caratteri e andare su Salva modifiche. Tutti i blog di Blogger hanno la stessa tipologia di file robots.txt che è la seguente

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://www.ideepercomputeredinternet.com/sitemap.xml

dove solo l'ultima riga è diversa da sito a sito ed è la nuova sitemap di Blogger in formato XML. Le modifiche che potevamo fare dalla Bacheca adesso è possibile farle anche da Search Console ex Strumenti per Webmaster. I blog che si creano con Blogger vengono aggiunti automaticamente come di nostra proprietà nella Search Console. Si seleziona quello che ci interessa quindi si va su Scansione > Tester dei file robots.txt    che aprirà una finestra come questa

file-robots-txt

Oltre alla struttura solita del file robots.txt c'è il link Consulta il robots.txt sul sito che apre la pagina che abbiamo visto all'inizio del post. In basso ci sono il numero di Errori e di Avvisi relativi al file robots.txt nel caso si siano commessi errori o se siano stati rilevati dei problemi.

PERSONALIZZAZIONI DEL FILE ROBOTS.TXT


Per modificare il file robots.txt dalla Search Console si agisce sul codice. Ecco 2 esempi:

1) Bloccare URL per impedirne la scannerizzazione - Si incollano queste righe

Disallow: /2015/06/titolo-post1.html
Disallow: /p/nome-pagina1.html


per non far indicizzare il post e la pagina che hanno come parte finale l'URL dopo Disallow.

modificare-file-robots-txt

Dopo le modifiche si va su Invia. Si aprirà questa finestra popup in cui eseguire precauzionalmente tutte e tre le operazioni

robots-txt

Verremo informati che l'operazione è riuscita e di ricaricare la pagina di tester dopo un minuto. In realtà un minuto è decisamente troppo poco affinché le modifiche vengano digerite da Google.

ricaricare-pagina-tester

2) Bloccare l'indicizzazione delle immagini - Si incollano queste due righe:

User-agent: Googlebot-Image
Disallow: /


Dopo un certo periodo le modifiche saranno recepite. Controllare sempre che non appaiano degli errori o degli avvisi per eventualmente rimettere il file robots.txt presente di default su Blogger.

COME TESTARE SE UN POST O UNA PAGINA È BLOCCATA


Si incolla l'ultima parte dell'URL nel campo in fondo alla pagina quindi si va su Testa

controllo-blocco-url Verrà evidenziata la riga del file che ne consente o che ne blocca l'indicizzazione.




14 commenti :

  1. Ciao Ernesto,
    sono di nuovo qui perché sono stato accettato in Google News e mi sto esaurendo con il file robots.txt.

    Avrei una domanda: nell'immagine da te postata (1. Scarica ... 2.... 3 Invia), sei sicuro che quei passaggi non debbano essere fatti tutti e tre e che si possa arrivare direttamente a Invia dopo aver modificato il file robots nell'apposito form?

    Nel caso in cui non dovesse funzionare, ma spero vada tutto bene, si può comunque procedere tramite Blogger?

    Grazie,
    Mik


    RispondiElimina
    Risposte
    1. In realtà non ho testato fino in fondo, mi sono solo limitato a mostrare la procedura. Il file robots.txt può essere sempre modificato anche da Blogger come al solito
      @#

      Elimina
    2. Sono passate 24 ore e Search Console ancora non aggiorna. Volevo chiederti: se modifico il robots tramite Blogger, poi devo comunicarlo a Search Console con Invia oppure devo limitarmi a Blogger?

      Grazie!

      Elimina
    3. Non te lo so dire. Se è una cosa da fare subito ti consiglio di modificare il file robots.txt in entrambi i posti. Poi apri la pagina www.tuodominio.com/robots.txt per vedere se la modifica è stata recepita. Il file di questo sito p.e si può controllare in questo URL
      http://www.ideepercomputeredinternet.com/robots.txt
      Puoi fare il test anche con il tuo blog per vedere se e quando sia stato aggiornato il robots.txt
      @#

      Elimina
    4. Giusto per essere d'aiuto a chi magari ha lo stesso problema: ho cambiato tramite Blogger tutto e Google Search Console ha subito recepito :) ora vediamo come va...

      Mik

      Elimina
  2. Ciao Ernesto, ho provato a testare un file bloccato è il risultato è uguale a quello dell'ultima foto del tuo post: Allow: / Cosa devo fare per sboccarlo, usare il tasto "consentito" o cosa? Ti ringrazio anticipatamente.

    RispondiElimina
    Risposte
    1. Prova a inviarlo all'indice
      http://www.ideepercomputeredinternet.com/2016/02/google-indicizzare-post-search-console.html
      per vedere se lo accetta
      @#

      Elimina
  3. Ho fatto il test di ottimizzazione del sito e mi da il seguenti errori.

    Page caricata parzialmente

    Non è stato possibile caricare tutte le risorse della pagina. Ciò può influire su come Google vede e comprende la tua pagina. Correggi i problemi di disponibilità per le risorse che influiscono sulla comprensione della pagina da parte di Google.

    Impossibile caricare 5 risorse della pagina

    Googlebot bloccato dal file robots.txt


    e un messaggio che dice Uncaught SyntaxError: Unexpected identifier con scritto l'url del mio sito vicino.

    Come posso risolvere questo errore?

    RispondiElimina
    Risposte
    1. Ho cliccato sul tuo profilo. Hai solo un blog di prova. Non posso fare test. L'avviso "Non è stato possibile caricare tutte le risorse della pagina."
      vuol dire poco. Può significare anche che ci sono banner pubblicitari che Google non carica, anche se sono i suoi.
      @#

      Elimina
  4. Si infatti non è sua questo blog ma su un altro. Quindi significa che dovrei chiedere a ad Google ads?

    RispondiElimina
    Risposte
    1. No. Non devi fare nulla in tal senso. E normale. Non so se ci sono altri problemi.
      @#

      Elimina
  5. Ok ho lasciato turto per com'è. Un'ultima cosa sempre nell altro mio blog ho rimosso dal layout l'intestazione e non posso più attivarla c'è un modo per rimetterla a posto ? Mi servirebbe per rinserire il nome del mio blog in Home page e quando si apre un articolo.

    RispondiElimina
    Risposte
    1. Devi fare mente locale a come hai fatto a rimuoverla per poi fare il procedimento inverso 😊 Non posso sapere che cosa hai modificato
      @#

      Elimina
  6. :( non ricordo cosa ho modificato forse quando ho rimosso l'intenzione ho scarricato il tema che poi l'ho rinserito inconsapevole che c'era l'intestazione disattivata e non più modificabile. Grazie comunque per avermi risposto

    RispondiElimina

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy