Pubblicato il 04/06/12 - aggiornato il  | 42 commenti :

Come inserire le sitemap nel file robots.txt personalizzato.

Come personalizzare il file robots.txt di Blogger utilizzando le Preferenze di Ricerca e come inserire le sitemap del sito.
Da qualche tempo Blogger ha introdotto le cosiddette Preferenze di Ricerca per ottimizzare in chiave SEO i post pubblicati nella piattaforma Blogger. Per accedere a detta sezione occorre andare su Bacheca > Impostazioni > Preferenze di ricerca.

Ho già avuto modo di affrontare le opzioni presenti nella parte alta della pagina vale a dire la Descrizione del blog, gli Errori e reindirizzamenti per Pagina non trovata e per i Reindirizzamenti personalizzati. Grande importanza ha pure la Meta Descrizione inserita in ciascun post che viene pubblicato.

Con questo articolo passiamo a affrontare la parte più delicata di questo strumento. Lo stesso Blogger nella sezione Crawler e indicizzazione ha posto la scritta "Attenzione. Usare con cautela. Un uso non corretto di queste funzioni può far sì che il tuo blog sia ignorato dai motori di ricerca".

Prima di intervenire è quindi opportuno salvare il file robots originale per effettuare un eventuale ripristino nel caso le cose non andassero nel modo giusto. Per conoscere la struttura attuale del file robots.txt non occorre altro che incollare nel browser il seguente indirizzo 

http://nomeblog.blogspot.com/robots.txt 

dove al posto di nomeblog occorre inserire la parte mancante dell'URL del vostro sito. Anche per un dominio personalizzato è la stessa cosa, è sufficiente aggiungere /robots.txt all'URL della sua homepage. La pagina che si aprirà conterrà solo un breve testo simile a questo

file-robots.txt

E' quindi opportuno copiare queste poche righe in un file di testo e tenerlo da parte per sicurezza. Come vediamo sostanzialmente è inserito un solo comando Disallow: /search che serve a impedire ai crawler di indicizzare le pagine del tipo nomeblog.blogspot/search/nome-etichetta.

Oltre a questo è presente anche la sitemap ufficiale di Blogger che come è noto invia solo gli ultimi 25 articoli più la homepage per un totale di 26 elementi.

La prima cosa che si può fare è per esempio inserire la nostra sitemap, o le nostre sitemap, se abbiamo pubblicato più di 500 articoli. Ho già pubblicato un post con tutte le stringhe da usare per inviare le sitemap. Se si sono per esempio pubblicati per esempio meno di 1000 articoli si può usare questo testo

Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500

dove si deve ovviamente modificare il nome del blog. Si va quindi su Bacheca > Impostazioni > Preferenza di ricerca > File Robots.txt personalizzato > Modifica > Abilitare i contenuti del file robots.txt personalizzato > Flag sul Sì e si incolla un testo di questo genere

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://verypretty-blog.blogspot.com/feeds/posts/default?orderby=UPDATED
Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500

dove sono state aggiunte le ultime due righe come mostrato nel seguente screenshot

sitemap-preferenze-di-ricerca

Si va su Salva modifiche. Ho anche lasciato la Sitemap ufficiale di Blogger perché è pure presente negli Strumenti per webmaster insieme alle sitemap che abbiamo inviato manualmente.

ALTRE PERSONALIZZAZIONI PER IL FILE ROBOTS.TXT

La possibilità di modificare il file robots.txt ci dà modo di scegliere cosa lasciare indicizzare e cosa non fare indicizzare del nostro sito. Si tratta di uno strumento molto potente. Poniamo che non vogliamo che vengano indicizzati una pagina e un post del blog per una qualsiasi ragione. Sappiamo che l'URL dei post e quello delle pagine statiche di Blogger seguono questa sintassi

http://nomeblog.blogspot.com/2012/06/titolo-post1.html
http://nomeblog.blogspot.com/p/nome-pagina1.html

Per non far indicizzare questi due elementi dobbiamo aggiungere due righe in questo modo

User-agent: *
Disallow: /search
Disallow: /2012/06/titolo-post1.html
Disallow: /p/nome-pagina1.html

Allow: /

Da notare che si possono inserire nel file robots.txt fino a 10.000 caratteri.
Se si volesse bloccare l'indicizzazione delle immagini dovremo invece aggiungere le seguenti righe

User-agent: Googlebot-Image
Disallow: /

dove è stato specificato che si impedisce l'accesso al bot che rileva le immagini. Una struttura analoga può servire per esempio per bloccare l'indicizzazione da parte di un altro motore di ricerca inserendone il nome accanto a User-agent. L'asterisco ( * )significa che i comandi inseriti nelle righe successive valgono per tutti i bot.
Concludo accennando alle prime due righe del file robots.txt non modificato vale a dire

User-agent: Mediapartners-Google
Disallow
:

Si tratta del crawler di Adsense che non avendo elementi dopo Disallow: può scannerizzare tutto il sito. Si potrebbero inserire delle pagine che invece non vogliamo che venissero rilevate. Non so però se questo possa andare in conflitto con il regolamento dì tale programma di Google.


42 commenti :

  1. O__O Non posso più vivere senza questo bloggghe!! *me ti segue 4 ever*
    Ti capisco perfino io, capisciiii???? :)

    RispondiElimina
    Risposte
    1. @Antonella
      Temo di non aver ben compreso ma mi sembravano dei complimenti :) che sono sempre ben accetti. Spero di non sbagliarmi :D

      Elimina
  2. Ernesto scusa se disturbo suquesto post che non centra con la domanda ma non trovo contatti diretti con te...volevo mettere nelblog un video che ho sul pc e mi dice che se è la prima volta dovrei accettare delle condizioni cliccando un bottone che però dalla pagina che io clicco della nuova interfaccia di blogger non ce....come posso caricare dal mio pc questo video amatoriale?????cosa devo passare attraverso YouTube che però vorrei evitare??? Ti ringrazio e chiedo scusa del disturbo.
    Ciao e buona settimana.
    PS. Sono in vacanza sul lago in Austria e ...pioveeeeeeeeeeee!!!!!!

    RispondiElimina
    Risposte
    1. @edvige
      Non posso fare il test perché un video l'ho già caricato su Picasa quindi per me non sarebbe la prima volta. Se proprio non ti va di passare per il tuo account di Youtube ti consiglio tre opzioni.
      1)Prova a accedere con la vecchia Bacheca che si raggiunge cliccando sulla rotella delle Impostazioni in alto a destra
      2)Invece di usare Youtube prova con Vimeo o DailyMotion
      3)Crea un nuovo canale di Youtube con un altro account e postaci il tuo video.

      Elimina
  3. Fantastico, sembra che tu mi legga nel pensiero, perchè proprio in questi giorni stavo pensando di usare questa funzionalità ^^

    Avrei (come al solito) un paio di domande:
    - Tu consigli di impedire l'indicizzazione di tutte le pagine di archivio? Ad esempio, io che ho tre archivi (per data- per argomento - per immagini) sarebbe meglio che impedissi l'indicizzazione di tutti e tre? Se li lascio così come sono potrebbero risultare come contenuto duplicato?
    - Perchè occorre farlo anche con le sitemaps?
    - Ho sentito dire che andrebbe fatto anche con i feed rss, è vero?

    E poi, ne approfitto per chiederti un'altra cosa: non riesco ad accedere a due pagine del mio blog per modificarle (una è la mappa, una è un post), perchè quando entro dentro per scrivere mi appaiono bianche oppure mi appare addirittura il contenuto di altre pagine. Eppure sul sito funzionano regolarmente se provo a visualizzarle. Non funzionano soltanto se ci si entra per editarle.
    Ti è mai capitata una cosa del genere?...
    Pensavo di copiarne il contenuto, eliminarle e creare due pagine nuove, ma se ci fosse un'altra soluzione...

    Grazie <3

    RispondiElimina
    Risposte
    1. @GiulianaMosetti
      In verità non te lo so dire di preciso. Se vado su Strumenti per webmaster > Ottimizzazione > Miglioramenti HTML trovo un sacco di Meta descrizioni duplicate. Probabilmente succede anche a te. Sono tutte pagine di archivio che hanno la stessa descrizione della Homepage. Credo però che il problema dovrebbe essere risolto nel modello più che nel file robots.txt. Ho provato a mettere dei tag condizionali per escludere le pagine di archivio dalle descrizioni ma la cosa non è servita. Speriamo la risolvano quelli del team di Blogger perché penso sia comune a tutti.
      Per il tuo problema francamente non mi è mai capitato nulla di simile. Prova a fare le modifiche con altri browser. Una volta mi scompariva una pagina in un blog su wordpress con Firefox quando tentavo di aprirla.

      Elimina
    2. Ernesto, sei fantastico!
      Con internet explorer mi fa accedere a quelle due pagine, e quindo posso modificarle da lì! E pensare che ormai mi ero affezionata a Firefox e stavo pensando di abbandonare explorer del tutto, ma a quanto sembra a qualcosina può servire ancora ;)
      Grazie davvero! ^^

      Elimina
  4. non ho capito quali vantaggi porta inserire la sitemaps nel file robots.txt

    RispondiElimina
    Risposte
    1. @Domenico...
      Serve solo se si hanno dei post che non sono stati ancora indicizzati. Se invece si ha un sito (è il mio caso) con tutti gli articoli già rilevati da Google è pressoché inutile.

      Elimina
    2. idem allora, credevo che google indicizzasse tutto comunque e che quindi certe tecniche fossero inutili

      Elimina
  5. Ernesto,
    ho letto da qualche parte che non sempre la homepage di un sito viene indicizzata.
    Sarà probabilmente una domanda stupida, ma sai se c'è modo di capire se è stata effettivamente indicizzata? Oppure ho letto una sciocchezza?

    Inoltre, volevo anche chiederti: quando si manda la sitemap nell'apposita pagina degli strumenti per Webmaster, sotto si vede una riga con i 26 post inviati di default da Blogger. Ma è normale che ne compaia solo 1 su 26 come indicizzato?

    Grazie <3

    RispondiElimina
    Risposte
    1. @GiulianaMosetti
      La prima pagina a essere indicizzata è la homepage. I 26 elementi inviati significa che sono 25 post più la homepage. La homepage viene sempre inviata automaticamente in tutte le sitemap. Se il nome del tuo sito appare nelle ricerche significa che è stata indicizzata la homepage. Puoi cercare di favorire l'indicizzazione seguendo queste regole
      http://www.ideepercomputeredinternet.com/2010/09/come-rendere-piu-veloce-l-dei-post-da.html

      Elimina
  6. Grazie per il consiglio, adesso corro a leggermi l'articolo :)
    Se quel 26 corrisponde alla Homepage + 25 post, a questo punto significa che quei 25 post non risultano indicizzati?
    Eppure la riga di sitemap che invio io sembra contenere tutti i post finora scritti, perchè il numero corrisponde.
    Quindi quell'1 su 26 è una cosa normale, che capita a tutti e che rimarrà sempre così?

    RispondiElimina
    Risposte
    1. No. I post dovrebbero essere tutti indicizzati. Invece della sitemap di Blogger guarda come funziona quella inviata manualmente con la stringa/he

      http://www.ideepercomputeredinternet.com/2012/03/come-inviare-una-sitemap-google-e-bing.html

      Elimina
    2. Allora, ho fatto questa modifica:
      Prima la stringa inviata automaticamente da Blogger era /feeds/posts/default
      e mi segnava 1 su 26 indicizzati.
      Ora ho messo /feeds/posts/default?orderby=updated (ho visto che in un tuo articolo era così) e dopo aver aggiornato segna 26 indicizzati su 26.
      Ho poi eliminato l'altra.
      Secondo te può andare bene?

      Elimina
    3. @ #blogger
      Aggiungi anche questa sitemap
      atom.xml?redirect=false&start-index=1&max-results=500

      Elimina
    4. Quella già ce l'avevo, e l'aggiorno ogni volta che scrivo un articolo ;)
      Ora sembra tutto a posto, anche se in realtà secondo me la stringa dei feeds/post/default è quasi un doppione, visto che in quella atom.xml?redirect=false&start-index=1&max-results=500 mi compare il numero di tutti i post che ho scritto finora.
      Ma se non è un problema, lascio entrambe a questo punto.

      Elimina
  7. @GiuseppeArcuri
    Se ti è successa questa cosa ritorna alla configurazione iniziale del file robots.txt anche se non è detto che debba dipendere da quello. In questi giorni ci sono stati aggiornamenti del Panda e del Penguin

    RispondiElimina
  8. @GiuseppeArcuri
    Nessuno conosce l'algoritmo di Google. Forse ti possono essere utili questi post
    http://www.ideepercomputeredinternet.com/2011/05/cosa-e-il-panda-update-e-perche.html
    http://www.ideepercomputeredinternet.com/2012/05/google-penguin-update-con-altre.html

    RispondiElimina
  9. @GiuseppeArcuri
    Sarei curioso di sapere dove hai scoperto questa verità. Google ti ha mandato un messaggio negli Strumenti per Webmaster? Non creo ma tutto può essere... Le migliaia di link verso il mio sito possono essere spiegati se hai messo per esempio il mio antipixel in una sidebar. Vale un link per ogni post, per ogni etichetta e per ogni pagina di archivio. Se ritieni che i problemi del tuo sito siano i link verso il mio puoi tranquillamente eliminarli. Si tratta certamente di uno o più widget con il link o di un blogroll.
    Se la causa però fosse quella ci sarebbero centinaia di siti penalizzati. Tutti quelli che hanno messo nel loro sito il mio antipixel. Se mi dai più informazioni magari posso anche capirci qualcosa in più.

    RispondiElimina
  10. @GiuseppeArcuri
    Ma ti è arrivato un messaggio negli Strumenti per Webmaster? Se è così si riferiscono solo a link che ritengono non naturali come se fossero stati comprati. Hai scritto qualche guest post? Ti sei fatto linkare da qualcuno estraneo agli argomenti che tratti in un post che non c'entra nulla? Devi farti queste domande ma solo se hai ricevuto il messaggio. Se non hai avuto messaggi allora è stato il Panda o il Penguin

    RispondiElimina
  11. @GiuseppeArcuri
    Se non hai ricevuto nessun messaggio da Google allora vuol dire che i tuoi backlink vanno bene. Avere più backlink possibili dovrebbe essere l'obiettivo di tutti. Mettere un link a una pagina significa che vi abbiamo trovato un contenuto valido.
    E' evidente che non ci voglia il permesso per mettere dei link. Se leggo un articolo su Repubblica e lo cito in un mio post non è che chiedoa il permesso a Ezio Mauro. Se vengono messi dei link a questo blog nessuno mi chiede il permesso. Attualmente ho 651.740 link e se aumentassero ne sarei felice.
    Se hai notato una diminuzione del traffico non dipende da quello ma dall'algoritmo di Google che ha trovato i tuoi contenuti di poca qualità. Questo non vuol dire che lo siano veramente, ci possono sempre essere dei falsi positivi. Però fossi in te mi leggerei le linee guida dei Panda e Penguin Update per vedere come migliorare la situazione.

    RispondiElimina
  12. Ciao Ernesto,

    Ho effettuato tutta la procedura da te consigliata, inserendo la sitemap di tutti gli articoli da me pubblicati a seguito direttamente sotto la sitemap ufficiale di blogger. Se ho capito bene, questo procedimento è utile per far indicizzare tutti i miei articoli a Google, giusto? Senza questa operazione come avveniva l'indicizzazione?

    Grazie!

    RispondiElimina
    Risposte
    1. Questa operazione è però inutile se tutti i miei articoli sono già indicizzati da Google vero?

      Elimina
    2. @ EdoardoVanucci
      L'indicizzazione avviene comunque ma se si inviano le sitemap si ha una velocizzazione del processo. Quando si hanno tutti i post indicizzati la sitemap è comunque utile per l'indicizzazione pressoché immediata dei nuovi articoli.

      Elimina
  13. Scusami Ernesto, ho un'altra domanda: se clicco sulla voce sottostante, "Tag di intestazione robot personalizzati" faccio bene a mettere i flag accanto alle voci "all" relative alla home page, alle pagine di archivio e ricerca ed alle impostazioni predefinite per post e pagine?

    Grazie ancora per il prezioso aiuto!

    RispondiElimina
    Risposte
    1. @ EdoardoVanucci
      Il consiglio che ti do è di non modificare il file robots.txt a meno di grossi problemi o esigenze personali. Blogger è di Google e quindi il file così come è configurato è certamente l'optimum

      Elimina
  14. ok! Grazie per l'ennesima volta per i tuoi preziosi consigli! Grazie e continua così!

    RispondiElimina
  15. Se scrivo Allow: /search
    Si indicizzano le etichette? Tu le hai indicizzate? A prima vista direi di no :/
    Io sarei intento a farle indicizzare, con i tag di Wordpress mi son sempre trovato bene, con blogger non saprei se conviene dato che da due anni non ha mai toccato il Robot.

    RispondiElimina
    Risposte
    1. @# Io ho lasciato le impostazioni di Blogger. Non so quale sia la scelta giusta. Invece di Allow: /search potresti anche semplicemente eliminare la riga
      Disallow: /search
      Sono dell'opinione che in questi casi è meglio lasciar scegliere a Blogger (leggi Google)

      Elimina
    2. Per noi sei un punto di riferimento. Tecnicamente non dovrebbe portare svantaggi se fossero come i tag di Wordpress, bisogna capire però se sono come i tag o altro genere di cose. Lascio anche io così come te, però mi raccomando tieniti aggiornato sulle etichette, sono una cosa che potrebbero fare il salto di qualità a Blogger.

      Elimina
  16. Ormai non passa giorno senza leggere qualcosa dal tuo blog! :)
    Dunque ti ringrazio per la guida.
    Volevo chiederti quando si elimina un post dal blog questo genera un errore 404, per non far più scansionare questi link da Google è corretto inserire nel file robot tutti i link non funzionanti?

    Tipo:
    Disallow: /2012/06/titolo-post1.html (seguendo appunto questo format)

    E se i post cancellati sono tanti c'è un modo per inserirli tutti insieme?
    Oppure dovrò creare singole righe per ciascun link?

    RispondiElimina
    Risposte
    1. Non ti consiglio di toccare il file robots.txt. In questi casi basta fare un semplice redirect 302 alla Homepage o a una pagina di etichette
      @#

      Elimina
  17. Secondo te sono essenziali le ultime due righe del testo che ti ho allegato sotto? O va bene anche solo il la prima sitemap? Che differenza fa? Ho visto che tu le ultime due righe non le hai inserite..grazie mille per la risposta
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search
    Allow: /

    Sitemap: http://.../feeds/posts/default?orderby=UPDATED
    Sitemap: http://.../atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: http://.../atom.xml?redirect=false&start-index=501&max-results=500

    RispondiElimina
  18. Per dovere di informazione ho pubblicato questo post su come si possa personalizzare il file robots.txt poi considerato che Blogger è di Google ho pensato che la scelta migliore fosse quella di non cambiarlo e di lasciarlo con le impostazioni di default
    @#

    RispondiElimina
  19. Carissimo Ernesto, le stringhe che hai suggerito di inserire....
    Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
    Sitemap: http://verypretty-blog.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500

    valgono per tutti indistintamente?
    Io ho solo 37 articoli ancora.... che numero devo mettere alla fine?
    Scusa ma mi sto affacciando adesso a questo problema, non credevo che blogspot avesse bisogno di questi espedienti per far indicizzare gli articoli.... come si fa a vedere quali e quanti articoli sono indicizzati?
    Grazie!

    RispondiElimina
    Risposte
    1. PS: straordinario questo blog! Utilissimo!! Grazie!

      Elimina
    2. Questo articolo l'ho scritto più che altro a titolo informativo. Il mio consiglio però è quello di non modificare il file robots.txt. Le sitemap invece le devi inviare ma agli Strumenti per Webmaster
      http://www.ideepercomputeredinternet.com/2012/03/come-inviare-una-sitemap-google-e-bing.html
      @#

      Elimina
  20. Ciao ernesto, ma quindi consigli di inserire il sitemap sia nel file robot che da strumenti per webmaster?

    RispondiElimina
    Risposte
    1. I consigli SEO sono sempre molto opinabili anche se sono dati da specialisti. Ti posso dire che io ho inviato la Sitemap agli Strumenti per Webmaster mentre ho lasciato il file robots.txt invariato
      @#

      Elimina

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy