Discussioni indice:Gazzetta Musicale di Milano, 1843.djvu

Struttura e qualità immagini

Ultimo commento: 4 anni fa6 commenti3 partecipanti alla discussione

@Alex brollo, Marco Chemello (WMIT) Questo è il risultato del caricamento del secondo volume della Gazzetta Musicale di Milano. Può funzionare? C'è qualcosa da aggiungere/correggere/modificare? Ho qualche dubbio sulla risoluzione delle immagini, per non avere file giganteschi ho aumentato di un filo la compressione delle immagini (qualità 10 invece del 12 utilizzato per il volume del 1842), forse così però è troppo, che ne pensate? --LutiV (disc.) 16:02, 9 nov 2020 (CET)Rispondi

@LutiV, Marco Chemello (WMIT) Purtroppo non ci siamo. Il djvu è inutilizzabile per l'OCR, e temo anche per la rilettura. Temo che "file giganteschi" siano indispensabili. Come sono le immagini originali da scansione? Direttamente pdf o TIFF? e precisamente come hai ottenuto il djvu? Alex brollo (disc.) 17:19, 9 nov 2020 (CET)Rispondi

@Alex brollo io ho i tiff, ma devo per forza trasformarli in jpg per creare il pdf, altrimenti acrobat non riesce a completare l'operazione. Il djvu l'ho creato online, in effetti il pdf è di gran lunga migliore, carico anche questo su Commons.--LutiV (disc.) 17:30, 9 nov 2020 (CET)Rispondi

@LutiV, Alex brollo Ok proviamo a partire da un pdf di buona qualità. --Marco Chemello (WMIT) (disc.) 17:40, 9 nov 2020 (CET)Rispondi

@LutiV, Marco Chemello (WMIT) In questo caso la risoluzione dell'immagine è critica per l'OCR. Ogni conversione di formato degrada l'immagine; in particolare la conversione in jpg.

L'ideale è passare a Abbyy FineReader direttamente i tiff, e poi usare i tools di FineReader per generare, a scelta, il pdf o djvu con strato testo.

In alternativa, si può assemblare un enorme zip con i tiff originali (ci sono alcune clausole sui nomi dei file e della cartella da rispettare tassativamente, se ti orienti a caricare su archive.org te le specifichiamo) e caricare su archive.org: ma nei casi critici come questo si rischia di sbattere contro limitazioni del sito, meglio fare direttamente con FineReader. Io ce l'ho; si tratta solo di farmi pervenire il blocco di tiff... in una notte di lavoro anche il mio portatile dovrebbe farcela :-)

Prima di tutto, comunque, attendo il caricamento del pdf buono su Commons e vediamo com'è. --Alex brollo (disc.) 17:43, 9 nov 2020 (CET)Rispondi

Ho provato ad usare Abby FineReader, ma la versione gratuita ha il limite a 100 pagine, io ne ho circa 450-500 da processare. Inoltre il tiff è a pagina doppia, quindi prima lo pass con ScanTailor per dividere le pagine, approfittando anche per fare qualche correzione qua e là di orientamento, contrasto ecc. Visto che ne ho 150 di questi volumi, vorrei trovare una soluzione che mi permetta di arrivare a un buon risultato finale in autonomia.

ecco il file File:Gazzetta Musicale di Milano, 1843.pdf

@LutiV Eccellente! Unica finezza: se passi per Scan Tailor, sarebbe utile "croppare" le pagine, eliminando tutto quello che è fuori pagina. La funzione "select content" seguita dal settaggio dei margini fa un lavoro eccellente.... tutti bytes che appesantiscono l'elaborazione. Ma va bene anche così. Stanotte FineReader sgobberà duro :-) Alex brollo (disc.) 14:13, 17 nov 2020 (CET)Rispondi

Abbyy FineReader

Ultimo commento: 4 anni fa3 commenti2 partecipanti alla discussione

@Alex brollo volendo acquistare la licenza di Abbyy FineReader, quale versione consigli? --LutiV (disc.) 10:53, 17 nov 2020 (CET)Rispondi

@LutiV Domanda difficile, io sono rimasto a FineReader 11. Sotto windows mi pare che il prodotto corrispondente sia il ABBYY FineReader PDF 15 Standard; la versione Corporate ha caratteristiche aggiuntive molto interessanti, ma non lo ho mai sperimentate. --Alex brollo (disc.) 14:01, 17 nov 2020 (CET)Rispondi

@Alex brollo ok, grazie mille! Io ho sia Mac che Windows, mi informerò. --LutiV (disc.) 14:05, 17 nov 2020 (CET)Rispondi

WIP

Ultimo commento: 4 anni fa4 commenti2 partecipanti alla discussione

@LutiV FineReader sta lavorando sul pdf (molto buono), ma siamo vicini al limite dalla sua "intelligenza artificiale": stenza a riconoscere correttamente la segmentazione del testo, che bisogna correggere a mano; ci mette un secolo a interpretare il testo e quasi di più a esportarlo. Ci vuole pazienza e olio di gomito....

Non appena avrò un djvu leggibile e con uno strato testo accettabile, lo carico sopra il djvu esistente. Via subito un'illusione: anche avendo FineReader, non basta darglielo in pasto e fine; occorre lavorarci abbastanza, scorrendo pagina per pagina. Alex brollo (disc.) 11:19, 18 nov 2020 (CET)Rispondi

@Alex brollo Ho appena installato la versione Standard di FineReader, inizio a lavorarci in giornata, così da rendermi conto delle problematiche, confido comunque che vada meglio di prima! --LutiV (disc.) 11:25, 18 nov 2020 (CET)Rispondi

@LutiV Benissimo! fallo correre, e poi verifica il risultato, soprattutto fa attenzione alla suddivisione del testo in "blocchi", ne troverai parecchi da correggere. Come tio dicevo, con la Gazzetta siamo ai limiti dell'intelligenza artificiale di FineReader. Ma forse la versione 15 è più intelligente della 11! :-) --Alex brollo (disc.) 14:08, 18 nov 2020 (CET)Rispondi

Dopo due notti di lavoro (una sprecata...) ho assemblato un nuovo djvu con FineReader11, e l'ho caricato come nuova versione del file djvu su Commons. Alle prime verifiche l'OCR sembra buono. Il djvu è molto pesante perchè ho scelto di "disabilitare i livelli" nella esportazione in djvu: visto che adesso hai FineReader, possiamo, se vuoi, andare sui trucchi tecnici specifici...

Sono soddisfatto della risoluzione delle immagini delle pagine: anche con la risoluzione di default (che riduce le immagini alla larghezza di 1024px, in modifica) mi pare che zoomando tutto il testo sia facilmente leggibile, comprese le parti con font piccolo. Non ci speravo. Per singole parole poco leggibili, si può consultare una copia offline del pdf o del djvu caricato, che hanno una risoluzione più elevata (circa 1800px di larghezza); ma penso che sia necessario raramente.

Se FineReader 15 ha le stesse opzioni, quindi, il workflow è:

produrre un pdf della qualità utilizzata per questa scansione;
far correre FineReader;
a lettura finita, salvare il documento FineReader;
scorrere tutte le pagine in FineReader, correggendo eventuali errori di segmentazione del testo e di orientamento della pagina;
ripetere la lettura; non serve salvare di nuovo, una volta che il documento è salvato qualsiasi modifica viene memorizzata immediatamente;
esportare in djvu con opzioni "Disabilita i livelli" e "qualità massima (originale)".
se ti servono chiarimenti su cosa significa "correggere gli errori di segmentazione", chiedi pure. Alex brollo (disc.) 09:07, 19 nov 2020 (CET)Rispondi

Aggiungi argomento