Progetto:Trascrizioni/FineReader 11
Questa pagina è inutilizzata o comunque obsoleta ed è mantenuta per scopi storici e di archivio.
O non ha più senso ed è superata, oppure il consenso è diventato poco chiaro. Se vuoi riaprire la discussione sull'argomento, puoi cercare di allargare la partecipazione della comunità con una segnalazione al bar. |
Il gruppo dei volontari di it.source dispone, dal 28.11.11, di un pacchetto FineReader 11 (licenza per un solo utente).
FineReader 11 è un pacchetto per l'interpretazione OCR di ottima qualità; la versione 11 propone la notevole novità che può esportare il suo output in file djvu completi (immagini e strato testo). Questo permette di eseguire, in un solo passaggio, una serie di operazioni molto complesse: l'acquisizione delle immagini da numerosi formati di file (pdf, tiff, djvu), l'interpretazione OCR del loro contenuto (con la possibilità di appoggiarsi a dizionari in numerose lingue), e l'output dell'insieme immagini + testo in una varietà di formati (word, html, ecc) ma anche in file djvu, pronti ad essere caricati su Commons e ad essere utilizzati qui come basi per le nostre pagine Indice.
Tenendo conto che si tratta di una licenza personale, e che quindi solo uno dei volontari di it.source avrà la possibilità di operare con il programma nel proprio tempo libero, il numero dei testi che saranno trattati è limitato e sarebbe opportuno selezionare le proposte di acquisizione in base a criteri abbastanza stretti:
- che non sia già disponibile un decente file djvu con OCR (es.: è opportuno verificare che il testo non sia già presente su Internet Archive);
- che il file dia qualche garanzia che l'OCR risultante sia decente (es.: è opportuno evitare, in questo momento, i testi molto antichi e i testi con cattiva o pessima qualità dell'immagine);
- che chi propone l'acquisizione abbia realmente, oltre l'interesse, il tempo materiale necessario a proseguire, in tempi ragionevoli, nelle successive operazioni almeno fino a portare la pagina Indice al livello di SAL 75% (correzione del testo e formattazione).
Proposte di acquisizione con FR 11
modificaIn attesa di organizzare meglio il lavoro, e rispettando i tre criteri sopra elencati, aggiungete pure qui sotto un testo che vi interessa (titolo, data pubblicazione, fonte, nome utente proponente).
- ....
Scansioni eseguite e caricate
modificaScansioni eseguite da caricare
modifica- Indice:Rivista di Scienza - Vol. III.djvu
- Indice:Rivista di Scienza - Vol. IV.djvu
- Indice:Rivista di Scienza - Vol. V.djvu
- Indice:Scientia - Vol. XI.djvu
Note
- ↑ La scansione è stata eseguita da file djvu ottenenedo un djvu con OCR di qualità grafica leggermente inferiore; lo strato testo è stato estratto e rimontato sul djvu originale con djvused.exe.
- ↑ La scansione è stata eseguita da una serie di jpg con scrittura del djvu in un singolo passo (opzione immagini in BN); successivamente le immagini sono state estratte creando una pagina html completa di immagini in toni di grigio, poi modificate con xnview per "fare il bianco".
Note tecniche
modifica- L'interpretazione OCR è buona, in linea con il precedente FR 10
- La grafica del djvu è buona, ma non ottimale
- Lo strato testo viene prodotto a livello di linea e non di parola (contrariamente agli strati testo dei dile djvu di Internet Archive)
- Il carattere di parola spezzata a fine riga è ¬ e non il trattino - (tool postOCR() già aggiornato)
- Nel testo in versi, finora scannerizzato, il software introduce alcune righe fittizie intercalate nelle strofe (es: Pagina:La pastorizia.djvu/59 produce:
5otL.i PASTORIZIA ,
A immane Ironco di selvaggio ulivo,
A cui brevi apparian fra le corone
Dell’edera fioreole ambo le corna.
Cara ed acerba ricordanza ancora,
Ddl’amata Siringa, a lui dal collo
Pendea l’umil zampogna; onde molcendo
1/ interno affanno, i gioghi alti e le valli
’ o o <- errore
Di Menalo felice allegrar suole: