Come riconoscere e estrarre testo da immagini e PDF con Google Drive.

Come estrarre e rilevare testo in immagini JPG, PNG e GIF e in file PDF conl'OCR di Google Drive e Google Documenti.

Il riconoscimento di un testo all'interno di una immagine è possibile grazie alla tecnologia OCR (Optical Character Recognition) che rileva i font presenti in una foto, in uno screenshot o anche in un PDF. Per quello che riguarda i PDF si può effettuare la sua conversione in un documento di Word o di Libre Office che en passant serve anche per estrarre il testo presente. Il riconoscimento di testo è quindi una funzionalità da applicarsi sostanzialmente solo alle immagini JPG, PNG e GIF (non animate).

In un precedente articolo dedicato a questo argomento ho illustrato come estrarre testo da una immagine con una applicazione di Windows 10. In questo post vedremo come effettuare la stessa operazione con i tool online presenti su Google Drive.

Per rendere più chiara la procedura ho catturato uno screenshot di un articolo della versione online di un celebre quotidiano cartaceo. Ho salvato la cattura in una immagine di formato JPG. Potevo utilizzare anche il formato PNG. Il primo passaggio da fare è quello di accedere a Google Drive con il nostro account Google.

Si va su Nuovo -> Caricamento di file e si seleziona il file immagine da cui estrarre il testo quindi si va su Apri. Dopo che il caricamento è stato completato si potrà visualizzare la miniatura del file nella cartella Recenti.

Ci si clicca sopra con il destro del mouse quindi si va su Apri con -> Documenti Google. Dopo un rapido processo nel documento creato verrà visualizzata all'inizio l'immagine caricata così come è, mentre più in basso verrà mostrato il testo che è stato estratto e che potrà essere selezionato, copiato e modificato.

Il testo estratto è praticamente senza errori se si escludono alcune parole attaccate. Addirittura è stato mantenuto anche il corsivo della riga della descrizione della immagine. Il riconoscimento del testo in una immagine con la tecnologia di Google Drive è sicuramente lo strumento più potente tra quelli gratuiti che ci sono sul mercato e forse anche tra quelli a pagamento.

Google ci consiglia anche come fare per ottenere risultati ottimali dall'OCR:

Risoluzione: il testo deve avere almeno 10 pixel di altezza.
Orientamento: Se l'immagine non fosse orientata correttamente in verticale occorre ruotarla prima di caricarla su Google Drive.
Linguaggi, tipi di caratteri e set di caratteri: Google Drive rileva la lingua del documento. I migliori risultati si hanno con immagini con caratteri comuni come Arial o Times New Roman.
Qualità dell'immagine: le immagini nitide, luminose e con molto contrasto consentono risultati migliori. Le foto sfocate riducono la qualità del testo e aumentano gli errori.
Dimensioni del file: le dimensioni massime consentite per file di immagini e PDF sono di 2 MB.

Pubblicato il 19/04/17 - aggiornato il | Nessun commento :

Come riconoscere e estrarre testo da immagini e PDF con Google Drive.

Nessun commento :

Posta un commento

Ricevi nuovi post via email: