Progetto:Trascrizioni/Post elaborazione OCR

Marzo 2009

Alcune note sullo stato dell'arte della "post-elaborazione OCR". Si tratta, al momento, di routine python da usare interattivamente da linea di comando, che seguono due "filoni":

Recupero e organizzazione dei dati OCR contenuti nei file djvu.xml di Internet Archive; in tali file le singole parole sono "mappate" per pagina e per coordinate nella pagina, in modo da poter essere evidenziate nel corso di una ricerca di parola. La buona organizzazione dei dati testuali (per pagina, per riga) consente di estrarre testi con qualità superiore a quella del corrispondente file txt, in cui la suddivisione in pagine non è esplicita.
Correzione di errori tipici dell'elaborazione OCR (come le spaziature), ricongiunzione delle parole spezzate a fine riga, eliminazione di eventuale riga di intestazione e numero pagina, eliminazione di caratteri "alieni", correzione di errori ricorrenti.

Le operazioni di cui al punto 2 possono essere eseguite sia sull'output prodotto dalle routine del punto 1, sia sul testo prodotto da altre applicazioni OCR (come quella, ad esempio, prodotta dall'OCR implementato in wikisource).

Maggio 2009

Il progetto è "in sonno", in attesa di approfondimento sui test con software OCR offline, che potrebbero fornire risultati di alta qualità anche in casi "difficili". --Alex brollo (disc.) 09:44, 5 mag 2009 (CEST)