Cos’è l’OCR e come funziona il riconoscimento del testo
Devi digitalizzare l’articolo di una rivista o un contratto stampato? Puoi scegliere di ricopiare il testo, passando ore ed ore a trascriverlo e poi a correggere gli eventuali errori di stampa, oppure puoi semplicemente convertire il testo in file digitali modificabili in pochi minuti. Ti bastano uno scanner (o una fotocamera digitale) e un software OCR, cioè un programma per il riconoscimento ottico dei caratteri (in inglese ‘Optical Character Recognition’).
Prova il nostro servizio OCR, non hai bisogno di installare nessun software
COSA SIGNIFICA ESATTAMENTE OCR?
Il riconoscimento ottico dei caratteri (in inglese ‘Optical Character Recognition’ – OCR) è detto anche riconoscimento del testo ed è una tecnologia che permette di convertire tipi diversi di documenti, ad esempio documenti scannerizzati, file PDF o foto digitali, in dati modificabili e ricercabili.
Immagina di aver ricevuto un documento cartaceo, magari l’articolo di una rivista, un depliant o un contratto inviato per e-mail come allegato PDF. Uno scanner non è sufficiente ad estrarre le informazioni rilevanti e trasformarle ad esempio in formato Microsoft Word per editarlei. Tutto quello che uno scanner è in grado di fare, infatti, è creare un’immagine del documento, cioè niente di più di un insieme di punti bianchi e neri o colorati (immagine raster). Per poter estrarre e riutilizzare le informazioni contenute in un documento scannerizzato, in una fotografia digitale o in un PDF di sola immagine è necessario un software OCR. Tale programma è in grado di riconoscere i caratteri presenti nell’immagine, unirli per formare delle parole con cui creare quindi delle frasi. Avrai così accesso al contenuto dei documenti originali per poterli poi elaborare.
QUALE TECNOLOGIA SI CELA DIETRO ALL’OCR?
Diamo un’occhiata a come il nostro OCR riconosce i testi. Per iniziare, il programma analizza la struttura dell’immagine del documento. Divide la pagina in elementi, come blocchi di testo, tabelle, immagini, ecc. Le linee sono suddivise in parole e le parole in caratteri. Una volta distinti tutti i caratteri, il programma li confronta con una serie di immagini campione e crea diverse ipotesi su di quale lettera si possa trattare. Sulla base di queste ipotesi, analizza quindi i modi diversi per suddividere le linee in parole e le parole in caratteri. Dopo aver elaborato un elevato numero di probabilità di questo tipo, il programma OCR è infine in grado di prendere una decisione e di mostrare il testo riconosciuto.
Inoltre, offre il supporto del dizionario per molte lingue. Questo permette una seconda analisi degli elementi del testo a livello di parola. Grazie al supporto del dizionario, il programma assicura un’analisi e un riconoscimento dei documenti ancora più precisi e semplifica la successiva verifica dei risultati del riconoscimento.
SU QUALI PRINCIPI SI BASA IL SERVIZIO OCR ?
I sistemi di riconoscimento del testo più avanzati, come l’OCR, mirano all’imitazione del riconoscimento degli oggetti che avviene in natura o anche tra gli animali. Alla base di tali sistemi vi sono tre principi fondamentali: integrità, funzionalità e adattabilità (IPA, dall’inglese: Integrity, Purposefulness, Adaptability).
Sulla base di questi principi, il programma utilizza un metodo di riconoscimento estremamente flessibile ed intelligente, il più vicino possibile al riconoscimento umano.
Dopo anni di ricerca, siamo in grado di implementare i principi IPA descritti sopra nelle sue tecnologie OCR.
COSA HA A CHE FARE L’OCR CON I PDF?
Il formato PDF è oggigiorno nel nostro mondo frenetico, uno standard universale e indispensabile per lo scambio di informazioni…ma sai perchè su alcuni file PDF non è possibile eseguire una ricerca del testo?
COME UTILIZZARE IL SOFTWARE OCR?
Utilizzare la nostra tecnologia OCR è semplice. Il processo consiste generalmente in tre fasi: apertura (scansione) del documento, riconoscimento del documentio e salvataggio nel formato TXT o copia/incolla dei dati direttamente in un’applicazione Office come Microsoft Word, Excel o Adobe Acrobat.
QUALI SONO I VANTAGGI DELL’OCR?
Con l’OCR, i documenti riconosciuti presentano lo stesso layout dell’originale. L’avanzato software OCR permette di risparmiare tempo e fatica quando si ha a che fare con la creazione, l’elaborazione e il riutilizzo di diversi documenti. Grazie all’OCR è possibile scannerizzare i documenti cartacei per poi modificarli o condividerli con colleghi e soci. Si possono estrarre citazioni da libri o riviste per riutilizzarle nella creazione di documenti per il vostro lavoro o lo studio, senza il bisogno di trascrizione. Utilizzando una fotocamera digitale e l’OCR è possible “catturare” il testo da striscioni, poster e tabelloni degli orari e utilizzare le informazioni acquisite. Allo stesso modo, è possibile catturare le informazioni da documenti cartacei e libri, ad esempio quando non si ha a portata di mano o non si può utilizzare uno scanner. Inoltre, il software OCR può essere impiegato per creare archivi PDF ricercabili.
L’intero processo di conversione dei dati da un documento cartaceo, un’immagine o un PDF avviene in meno di un minuto. Il documento finale risultante dal riconoscimento appare esattamente come l’originale!
|
In attivazione il servizio, a breve verrà attivato il sito Internet.
con molti parametri configurabili e API potenti, veloci e sicure, tutto crittografato sul protocollo SSL. |