Pubblicato il 28/03/11e aggiornato il

Come estrarre del testo da un PDF o da una immagine con l'OCR di Google Documenti.

Dopo aver illustrato un metodo semplice per convertire un file PDF in Word con PDF Converter, applicazione di Facebook, facciamo un passo avanti e vediamo come sia possibile estrarre del testo oltre che da PDF anche da immagini che lo contengono. Vi sarà certamente capitato di vederne una con all'interno del testo che vorreste copiare senza però sapere come fare. La tecnologia alla base di questa funzione si chiama OCR (Optical Character Recognition). E' cosa molto utile quando si è scannerizzato un documento e si vuole convertirlo in un file di testo per modificarlo mediante editor o copiarlo da altra parte. Oltre allo strumento Free Online OCR che consente di eseguire queste operazioni sul web, da qualche tempo è a disposizione degli utenti anche un tool potentissimo di Google Documenti. Ne avevo già parlato quando era ancora in versione demo, adesso si può finalmente usufruirne appieno basandoci sulla Guida a OCR di Google Docs.

In questi casi forse la cosa migliore è fare un esempio pratico di come si deve procedere. Dopo aver effettuato uno screenshot di una pagina di questo blog, ho salvato l'immagine in formato PNG. Sono supportati anche i formati GIF, JPG e naturalmente PDF. I PDF sono i classici esempi di file che contengono testo e immagini e che risultano da processi di scannerizzazione reale o virtuale.

Si accede a Google Documenti e si va su Carica, in alto a sinistra

convertire pdf e immagini in testo    

Ho selezionato l'immagine dello screenshot, ma poteva essere anche un PDF, da cui estrarre il testo. La dimensione massima supportata è di 2MB e, nel caso dei PDF, sarà estratto il testo solo dalle prime dieci pagine. Si mette la spunta alla opzione "Converti testo da file PDF o file di immagine nel formato di Google Documenti". Si clicca su Avvia caricamento. Con questa opzione può darsi che dobbiamo aspettare qualche secondo in più ma tutto dovrebbe finire dopo un minuto al massimo. Quando il processo è terminato si clicca sul link del file che abbiamo caricato

estrarre testo da immagini o pdf

Ricordo che le operazioni di upload dei file possono anche essere multiple e fatte attraverso il drag and drop. L'immagine che si è caricata, o il PDF si aprirà allora in un editor simile a questo

immagine e estrazione del testo

Nella parte alta si vedrà il file e in quella bassa il testo che l'OCR è riuscito a estrarre. Il rilevamento della formattazione come il grassetto, il corsivo, la famiglia di caratteri e altri parametri è una cosa piuttosto complicata quindi il risultato dipenderà anche dalla qualità dell'immagine e dalla sua risoluzione oltre che dal tipo di caratteri usati.





Nessun commento :

Posta un commento

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti. Se ti ho aiutato con il post o con le risposte ai commenti condividi su Facebook o su Twitter. Grazie.