Progetto:Trascrizioni/Struttura DjVu

I file djvu sono costituiti da una sequenza di file, ognuno dei quali rappresenta l'immagine di una pagina, in genere assemblata in un unico file (file "multipagina"), definito "bundled".

Ogni pagina va interpretata come un insieme di strati sovrapposti: uno per il testo, uno o due per l'immagine.

Tipi di struttura pagine

Vi sono quattro tipi di "strati" per l'immagine:

monocromatico BW: file molto compatti anche se ad alta risoluzione (circa 1-2 Mbyte per un libro normale)
foto a piena profondità di colori: file con qualità fotografica, molto grandi se si registrano ad alta risoluzione (decine di mByte per un libro normale)
a pochi colori: file molto compatti, ma adatti solo ai casi dove l'immagine ha pochi colori ben separati
a doppio strato primo piano/secondo piano (foreground-background): dimensioni intermedie, il background è a colori in bassa risoluzione, il foreground è in genere nero ed è usato per rappresentare le parti inchiostrate della pagina (caratteri, disegni). Rappresentano il massimo di compressione possibile conservando un'immagine di sfondo a colori. Dimensioni intermedie fra il monocromatico e il fotografico (alcuni mByte per un libro normale)

Ciascuna di queste varianti ha proprie routine per la compressione e il caricamento sulla pagina djvu; il quarto tipo è particolarmente complesso.

Procedura generale

I passi per la creazione di un djvu bundled completo di immagini + strato testo varia a seconda dei file disponibili.

Avendo un file pdf con strato testo

tentare con pdf2djvu

In caso di insuccesso

passare il pdf a FineReader 11 per la creazione di un OCR e il suo "montaggio"all'interno di un file djvu

Avendo a disposizione un OCR mappato per il file djvu (come avviene su IA)

estrarre le immagini dal pdf con pdftoppm oppure pdfimages
convertirle/elaborarle per renderle adatte a una delle routine DjvuLibre
creare pagine djvu individuali
montarle con djvm
caricare l'OCR

Caso IA, per produrre un djvu di massima qualità (photo)

scaricare il zip _jp2.zip da IA e dezipparlo;
scaricare il _djvu.xml da IA;
convertire le immagini in jpg (ImageMagick, IrfanView);
una a una passare le jpg a c44 di DjvuLibre; vanno bene i parametri -slice di default ¹
montare i djvu individuali ottenuti con djvm di djvuLibre;
editare il _djvu.xml di IA sostituendo negli elementi OBJECT il path locale del file djvu derivato.
lanciare djvuxmlparser di djvuLibre. ²

↑ Attenzione ai nome dei file djvu derivati, devono essere identici (meno l'estensione) ai file jp2 originali! I file non devono essere modificati come dimensioni nè altro (niente divisione pagine, raddrizzamento, ritaglio, ridimensionamento!), se non eventuali modifiche del colore! In caso contrario si perde la mappatura dell'OCR.
↑ Risultato qui: File:Digitami LO10534041.djvu

(continua)

[1] Attenzione ai nome dei file djvu derivati, devono essere identici (meno l'estensione) ai file jp2 originali! I file non devono essere modificati come dimensioni nè altro (niente divisione pagine, raddrizzamento, ritaglio, ridimensionamento!), se non eventuali modifiche del colore! In caso contrario si perde la mappatura dell'OCR.

[2] Risultato qui: File:Digitami LO10534041.djvu

1

2