Pubblicato il 18/05/11 - aggiornato il  | 24 commenti :

Blogger ha modificato il file robots.txt per la scansione del crawler di Google.

Avevo notato che sugli Strumenti per Webmaster, nella sezione Errori di scansione > Non trovato c'erano degli URL molto strani che producevano collegamenti interrotti. Questo era dovuto al fatto che Blogger intende inserire la nuova funzionalità degli Argomenti Correlati. Per evitare che i blog su Blogger fossero penalizzati da questi broken links, è stato modificato il file robots.txt che dà le indicazioni al crawler di Google per la scansione dei siti.

Dopo aver eseguito l'accesso negli Strumenti per Webmaster e aver selezionato il vostro blog, se andate su Configurazione Sito > Accesso Crawler > Analizza robots.txt vedrete un file di questo genere

file robots.txt blogger

dove alla sitemap ufficiale di Blogger e al comando Disallow: /search per non indicizzare le pagine delle etichette sono stati anche aggiunte le righe

Disallow: /related-content.g
Disallow: /related_content_helper.html

per evitare che il robot di Google consideri errori di scansione questi link mancanti. Questi errori sono infatti spariti dalla sezione Non trovato. Ricordo che gli utenti di Blogger non possono modificare il file robots.txt ma che questo può essere visualizzato all'indirizzo

http://www.ideepercomputeredinternet.com/robots.txt

dove si deve ovviamente cambiare l'URL del blog.



24 commenti :

  1. Ciao parsifal32,
    ho un problema anche io con il file Robots.txt . E' da qualche giorno che ho notato un cambiamento drastico nelle visite del mio blog e oggi ho scoperto che ci sono 352 link Soggetti a restrizioni da robots.txt come riporta nella sezione dei webmaster di google.
    Avendo un blog di blogger non posso modificare il file robots.txt .
    Come mai in non trovo Disallow: /related-content.g e Disallow: /related_content_helper.html ?Come posso rimediare?



    Il file robots.txt del mio sito è questo:
    http://www.hovogliadiamare.com/robots.txt

    C'è un modo per ripristinare la corretta indicizzazione?
    Grazie

    RispondiElimina
  2. @Ho voglia di Amare
    Non ti devi preoccupare del file robots.txt. Non si può modificare ed è lo stesso per tutti i blog su Blogger. Il tuo è esattamente identico a quello di questo blog, puoi controllare
    http://www.ideepercomputeredinternet.com/robots.txt
    http://www.hovogliadiamare.com/robots.txt
    solo le sitemap sono diverse. I link soggetti a restrizioni del file robots.txt sono le pagine delle etichette che Blogger non vuole indicizzare perché sarebbero contenuti duplicati. I link soggetti a restrizioni aumenteranno sempre di più con l'aumento dei post pubblicati e con il numero delle etichette (io ne ho più di tremila!).
    Se hai notato una diminuzione delle visite è per un'altra ragione. Te ne posto alcune
    1)Eri forte in una particolare parola chiave e adesso non lo sei più perché un blog concorrente ha pubblicato un post che si è posizionato meglio rispetto al tuo
    2)Hai troppa pubblicità subito sotto al titolo del post e sei stata penalizzata/o dal nuovo algoritmo
    3)Hai troppi articoli di bassa qualità e hai avuto una penalizzazione dal Panda Update
    4)Hai messo uno sfondo o un widget troppo pesante che ha rallentato il caricamento della pagina

    RispondiElimina
  3. Ernesto,
    adesso che con la grafica e i contenuti sono ben avviata mi sto un po' perdendo nei meandri del SEO e della SERP, che mi sembrano più insidiosi di quelli dell'html ;)
    Questo perchè nonostante io posti di frequente e scriva ogni articolo con cura, continuo ad avere pochi visitatori (60-70 al giorno); non so se questa media sia normale dopo 4 mesi di blogging e un centinaio di articoli postati. (E' normale?)
    La domanda che volevo farti è questa: io ho un archivio dei post per data, uno per categoria e uno per etichette. Secondo te è meglio che io segnali ai file robots di non indicizzare queste tre pagine perchè potrebbero apparire come contenuti duplicati oppure essendo che riporto solo titoli e link dei post questo problema non si pone?
    Grazie, un saluto
    Giuliana

    RispondiElimina
    Risposte
    1. @Dieta ...
      Con Blogger non si può modificare il file robots.txt, è tutto in automatico e le etichette non vengono indicizzate se non quelle più importanti (a insindacabile giudizio di Google). I visitatori in effetti non sono tanti ma sei in un segmento molto competitivo. Mi stupisce che tu abbia i post suddivisi, oltre che per etichette, anche per categorie perché con Blogger non si può fare (non esistono categorie madri come in Wordpress).

      Elimina
    2. In che senso non si può fare?... Intendi dire che è vietato o che non sai come ho fatto a creare la pagina?

      La pagina dove riporto i post divisi per categoria la compilo manualmente (aggiungendo i link dei nuovi post man mano che li pubblico). Le mie categorie corrispondono alle pagine statiche del mio blog, cioè se ad esempio ho creato la pagina statica dove ho raggruppato tutti i post con l'etichetta "cura corpo", allora sotto il titolo di Cura corpo inserisco i link dei post che rimandano a quella categoria. E' un po' come chi ha un blog di ricette e crea un indice per tipologia di ricetta, no?

      Per quanto riguarda i file robots, avevo letto da qualche parte che si poteva inserire in cima alla pagina che non si vuole far indicizzare dai motori di ricerca una stringa (ora non la ricordo esattamente) che dà le relative istruzioni ai robots. Pensavo si potesse usare anche in blogger.

      Elimina
    3. @Dieta ...
      Se hai usato un escamotage per creare una categoria va benissimo. Lascia però perdere i tentativi di modificare il file robots.txt. E' anche nell'interesse di Blogger fare in modo che questo file funzioni il meglio possibile e che indicizzi correttamente i post senza contenuti duplicati quindi lascerei fare tutto a Google.

      Elimina
    4. Va bene, allora lascio tutto com'è.
      Meno male, quando avevi detto "con blogger non si può fare" mi ero spaventata, pensavo di aver combinato chissà che cosa ;)
      Per quanto riguarda i miei pochi lettori giornalieri, io tengo duro e punto sulla qualità dei post e sulla costanza della pubblicazione, oltre che su piccole sottocategorie che vedo mancare in altri siti/blog sulla dieta. So che la concorrenza è piuttosto forte nella mia nicchia, ma se inizio a pensarci troppo mi demoralizzo e chiudo tutto :(
      Sono un po' incapace nell'autopromozione e nella socializzazione con altri utenti, e credo che questo mi penalizzi. Spero che i miei punti forti possano compensare queste mancanze, altrimenti non ne vengo fuori.

      Giuliana

      Elimina
  4. Ciao
    Google mi ha bloccato il dominio di blogger:
    allora si vado su Strumenti per i Webmaster poi Accesso crawler mi da 12 URL bloccati,, e puoi sotto ci scritto:
    User-agent: *
    Disallow: /search
    Allow: /

    Quindi il mio sito non appare più nei risultati di ricerca di google (Prima c'era)
    cosa devo fare ?? grazie

    RispondiElimina
    Risposte
    1. @fouad
      Forse ti riferisci agli URL bloccati dal robots.txt. Glii URL delle etichette non vengono indicizzati per scelta. E' il Disallow: /search . Se accanto a URL bloccati vedi un numero tipo 503 o che inizia con 5 significa che si tratta di un errore del server, che non c'entra nulla con te e che probabilmente è una cosa momentanea.

      Elimina
  5. Ciao Ernesto, volevo chiedere una cosa simile al primo blogger che ha scritto:

    In strumenti webmaster anche a me compaiono solo le prime stringhe mentre mancano quelle che indichi nel post:
    Disallow: /related-content.g
    Disallow: /related_content_helper.html

    LE DEVO AGGIUNGERE? A ME RISULTANO 2.200 URL BLOCCATI NON SONO TANTI?
    POI MI INDICA NELLO STATO 200 (RICHIESTA RIUSCITA)-

    NON DOVREI FARE NULLA?

    GRAZIE COME SEMPRE DELLA TUA COMPETENZA
    DINO


    RispondiElimina
    Risposte
    1. @# Blogger inserì queste due stringhe provvisoriamente circa due anni fa quando furono introdotti i nuovi modelli. Poi si vede hanno risolto in altro modo e le hanno tolte. Il consiglio è di non toccare il file robots.txt. Gli URL bloccati sono normali e aumenteranno sempre di più all'aumentare delle etichette visto che non vengono fatte indicizzare per scelta di Blogger.

      Elimina
  6. Ciao, in questi giorni sono aumentati gli errori del server a dismisura, siamo addirittura a 60 errori 503, non so cosa fare, esiste un'analisi per cercare di capire il problema e risolverlo?

    RispondiElimina
    Risposte
    1. Gli errori del server dipendono da Blogger. Anche a me capita spesso di rilevarli ma non ci si può fare nulla. Anche se hai un dominio personalizzato i DNS puntano comunque verso i server di Google. Vedrai che cesseranno prima o poi. Non ci farei troppo caso
      @#

      Elimina
    2. Grazie della risposta, ma è normale anche se continuano ad arrivarmi mail dal strumenti per webmaster con scritto di rimediare perchè sono incrementati gli errori del server?

      Elimina
    3. Non te lo so dire. A me non è mai successo. Il tuo dominio lo hai acquistato con Blogger oppure con un altro Registrar? Nel secondo caso forse ti conviene cambiarlo.
      @#

      Elimina
    4. Ciao si l'ho acquistato tramite blogger su Godaddy con un dominio .com, non riesco veramente a rimediare a questo errore, ho provato in tutti i modi, le mail in particolare dicono questo:

      1) Over the last 24 hours, Googlebot encountered 67 errors while attempting to access your robots.txt. To ensure that we didn't crawl any pages listed in that file, we postponed our crawl. Your site's overall robots.txt error rate is 12.0%.

      You can see more details about these errors in Webmaster Tools.

      Recommended action
      If the site error rate is 100%:

      Using a web browser, attempt to access http://www.yoursite.com/robots.txt. If you are able to access it from your browser, then your site may be configured to deny access to googlebot. Check the configuration of your firewall and site to ensure that you are not denying access to googlebot.
      If your robots.txt is a static page, verify that your web service has proper permissions to access the file.
      If your robots.txt is dynamically generated, verify that the scripts that generate the robots.txt are properly configured and have permission to run. Check the logs for your website to see if your scripts are failing, and if so attempt to diagnose the cause of the failure.

      If the site error rate is less than 100%:

      Using Webmaster Tools, find a day with a high error rate and examine the logs for your web server for that day. Look for errors accessing robots.txt in the logs for that day and fix the causes of those errors.
      The most likely explanation is that your site is overloaded. Contact your hosting provider and discuss reconfiguring your web server or adding more resources to your website.
      If your site redirects to another hostname, another possible explanation is that a URL on your site is redirecting to a hostname whose serving of its robots.txt file is exhibiting one or more of these issues.

      2) Google detected a significant increase in the number of URLs we could not access. It is likely that your server had an internal error or was busy when attempting to process these requests.

      Recommended action

      Check the Crawl Errors page in Webmaster Tools.
      Check your scripts and script permissions.
      Examine the log files on the server for your site for scripts or pages that might be crashing.
      Consider addressing the load on your server.


      Mi domandavo se tu conoscevi una soluzione a tale problema o se avevi fatto un'articolo aggiornato di recente (che ho già cercato ma non ho trovato) sugli errori del server che mi stanno davvero tormentando.

      Ti ringrazio!

      Elimina
    5. No. Mi spiace non ho fatto nessun articolo da quando GoDaddy non ha più la joint venture con Google . Magari lo potrò fare in seguito se avrò necessità di dover acquistare un dominio. Ovviamente non lo posso acquistare solo per testare
      @#

      Elimina
    6. Grazie e non avresti qualche consiglio su come potrei risolvere tali errori del server?

      Elimina
    7. Non vedo cosa possa fare un utente di Blogger visto che non può accedere ai server di Google :)
      @#

      Elimina
  7. Ciao Ernesto, ti volevo chiedere:

    in stumenti webmaster di google c'è la sezione dati strutturati...e ho visto per la prima volta che tutti gli elementi dati strutturati-hatom me li da tutti con errore (mancanza autore e update)...posso fare qualcosa o è normale?

    La seconda domanda riguarda il profilo google+ personale del mio nome amministratore blog che viene indicizzato mentre quello della pagina google+ del blog molto meno...e andando a fare test con dati strutturati di una qualsiasi pagina del blog mi appare snippet del profilo personale e non snipet del mio blog...è normale anche questo...ci sono modi per fare salire piu pagina rispetto a google+?

    Grazie in anticipo tantissimo

    RispondiElimina
    Risposte
    1. Anche i con questo blog ho dei problemi per lo snippet che non mi viene visualizzato nei risultati di ricerca. È una funzionalità ancora in beta speriamo che migliori. Leggiti questi post
      http://www.ideepercomputeredinternet.com/2012/03/come-mostrare-le-informazioni.html
      http://www.ideepercomputeredinternet.com/2013/07/microdati-blogposting-schema-org-blogger.html
      http://www.ideepercomputeredinternet.com/2012/09/google-authorship-attribuzione-contenuti.html
      @#

      Elimina
  8. Ciao Ernesto, non so se è il post giusto e se puoi aiutarmi...ma avere un parere mi aiuterebbe.

    Ormai da anni ho domino comprato con blogger (che si appoggia a godaddy)

    Ora da qualche mese ho calo visite e contemporaneamente una miriade di errori di scansione 503 (si presentano sempre di un unico giorno ma da qualche mese è costante sta cosa).

    503 dicono che siano provvisori ma ormai io li correggo e ci combatto da più di un mese

    Mi puoi dare qualche indicazione, consiglio o parere?
    Grazie

    RispondiElimina
    Risposte
    1. Ma 503 sarebbero gli errori del server? Perché da un mesetto a questa parte ne rilevo anch'io una marea. A cosa potrebbero essere dovuti? Cioè, quando si ha l'errore del server, quando il sito ci mette troppo a caricare e all'utente compare il messaggio di errore anziché la pagina del sito? Io sinceramente non ho cambiato alcunché prima che iniziassero tutti questi errori del server, e sono anch'io lì a combatterci senza capire perché ne compaiono così tanti...
      Giuliana

      Elimina
    2. Ti posso dire che ci sono stati altri commenti simili al tuo di persone che avevano il tuo stesso problema. Ovviamente non posso darti nessuna dritta in proposito se non quella di sperare che tutto vada a posto da solo
      @#

      Elimina

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy