Progetto:Trascrizioni/Dentro l'OCR: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 5:
# di resa grafica, Internet Archive produce djvu molto compresso, spesso francamente bruttino;
# di dipendenza dal misterioso OCR interno di Windows, su cui si appoggia DjvuToy.
 
== Iniziare a dissodare il problema ==
 
Le fasi per produrre un file djvu finale con strato testo, usando tesseract come "motore OCR" sono:
 
 
* digitalizzazione per immagini del testo cartaceo
** scansione/fotografia digitale delle immagini.
** recupero/utilizzo di scansioni/fotografie fatte da altri e "montate" in file di vari formati (in genere pdf)
* '''normalizzazione delle immagini'''
** divisione di pagine doppie o eliminazione di parte della pagina precedente/seguente nell'immagine
** raddrizzamento
** centratura del contenuto
** normalizzazione dei margini attorno al contenuto
** correzione di eventuali deformazioni a trapezio/a pagina non distesa
** correzione dell'illuminazione disomogenea
** conversione in formato file adatto al montaggio su djvu
** conversione in formato file adatto all'OCR
* estrazione del testo OCR ''mappato, con dettaglio parola'' con tesseract
* conversione delle immagini in pagine djvu: scegliere fra tre opzioni (BN, Foto, Multilayer)
* '''montaggio del testo OCR mappato nelle pagine djvu''' (indipendente dal passaggio precedente)
* montaggio di tutte le pagine djvu in un file djvu monoblocco
 
In grassetto i due passaggi critici: il primo si risolve con il software scantailor, il secondo con uno script di "conversione mappaggio" che di deve costruire da sè, funzione dentro un'applicazione python in bozza, che si chiama jpg2djvu.py perchè effettivamente converte una cartella di immagini jpg in un file djvu con strato testo.