Progetto:Trascrizioni/FineReader 11

Il gruppo dei volontari di it.source dispone, dal 28.11.11, di un pacchetto FineReader 11 (licenza per un solo utente).

FineReader 11 è un pacchetto per l'interpretazione OCR di ottima qualità; la versione 11 propone la notevole novità che può esportare il suo output in file djvu completi (immagini e strato testo). Questo permette di eseguire, in un solo passaggio, una serie di operazioni molto complesse: l'acquisizione delle immagini da numerosi formati di file (pdf, tiff, djvu), l'interpretazione OCR del loro contenuto (con la possibilità di appoggiarsi a dizionari in numerose lingue), e l'output dell'insieme immagini + testo in una varietà di formati (word, html, ecc) ma anche in file djvu, pronti ad essere caricati su Commons e ad essere utilizzati qui come basi per le nostre pagine Indice.

Tenendo conto che si tratta di una licenza personale, e che quindi solo uno dei volontari di it.source avrà la possibilità di operare con il programma nel proprio tempo libero, il numero dei testi che saranno trattati è limitato e sarebbe opportuno selezionare le proposte di acquisizione in base a criteri abbastanza stretti:

  1. che non sia già disponibile un decente file djvu con OCR (es.: è opportuno verificare che il testo non sia già presente su Internet Archive);
  2. che il file dia qualche garanzia che l'OCR risultante sia decente (es.: è opportuno evitare, in questo momento, i testi molto antichi e i testi con cattiva o pessima qualità dell'immagine);
  3. che chi propone l'acquisizione abbia realmente, oltre l'interesse, il tempo materiale necessario a proseguire, in tempi ragionevoli, nelle successive operazioni almeno fino a portare la pagina Indice al livello di SAL 75% (correzione del testo e formattazione).

Proposte di acquisizione con FR 11

modifica

In attesa di organizzare meglio il lavoro, e rispettando i tre criteri sopra elencati, aggiungete pure qui sotto un testo che vi interessa (titolo, data pubblicazione, fonte, nome utente proponente).

  1. ....

Scansioni eseguite e caricate

modifica

Scansioni eseguite da caricare

modifica

Note

  1. La scansione è stata eseguita da file djvu ottenenedo un djvu con OCR di qualità grafica leggermente inferiore; lo strato testo è stato estratto e rimontato sul djvu originale con djvused.exe.
  2. La scansione è stata eseguita da una serie di jpg con scrittura del djvu in un singolo passo (opzione immagini in BN); successivamente le immagini sono state estratte creando una pagina html completa di immagini in toni di grigio, poi modificate con xnview per "fare il bianco".

Note tecniche

modifica
  1. L'interpretazione OCR è buona, in linea con il precedente FR 10
  2. La grafica del djvu è buona, ma non ottimale
  3. Lo strato testo viene prodotto a livello di linea e non di parola (contrariamente agli strati testo dei dile djvu di Internet Archive)
  4. Il carattere di parola spezzata a fine riga è ¬ e non il trattino - (tool postOCR() già aggiornato)
  5. Nel testo in versi, finora scannerizzato, il software introduce alcune righe fittizie intercalate nelle strofe (es: Pagina:La pastorizia.djvu/59 produce:

5otL.i PASTORIZIA ,
A immane Ironco di selvaggio ulivo,
A cui brevi apparian fra le corone
Dell’edera fioreole ambo le corna.
Cara ed acerba ricordanza ancora,
Ddl’amata Siringa, a lui dal collo
Pendea l’umil zampogna; onde molcendo
1/ interno affanno, i gioghi alti e le valli
’ o o <- errore
Di Menalo felice allegrar suole: