Aiuto:Gestione file djvu

Aiuto: Gestione dei file djvu

Categoria: Guida alla digitalizzazioneManuale   Guida alla digitalizzazione   Gestione file djvu 

icona simbolo del formato

File DjVu modifica

La tecnologia DjVu permette di creare immagini compresse ma di alta qualità pensate per la lettura di testi.

È stata concepita espressamente per la digitalizzazione in un solo file DjVu di molteplici pagine cartacee con testi e grafica, i cui requisiti sono:

  • file leggeri (elevato numero di scansioni delle pagine)
  • alta risoluzione (leggibilità della scansione)
  • eventuale layer di testo a integrazione dell'immagine

La tecnologia DjVu è dunque fortemente consigliata per l'utilizzo dei testi con immagini delle pagine a fronte (proofread extension), ed è diventata uno standard de facto nei progetti Wikisource.

Siti come Internet Archive fornivano direttamente il DjVu dei libri digitalizzati; attualmente, per i nuovi caricamenti, non viene fornito il file djvu, ma solo lo strato testo del file djvu in formato xml.

Struttura dei file DjVu modifica

Per un approfondimento sulla storia e sulle caratteristiche tecniche dei file DjVu leggi la voce relativa su Wikipedia.

I file DjVu presentano qualche analogia con i file PDF, che possono contenere anch'essi sia testo che immagini, ma hanno il vantaggio di ottenere una compressione delle immagini più efficiente e di essere stati sviluppati in ambiente open source.

Convenzione di denominazione dei file DjVu modifica

I file DjVu da caricare su Commons vanno rinominati con un nome file che sia breve, comprensibile, esaustivo e non ambiguo. La sintassi da utilizzare è la seguente:

«Autore - Titolo, Anno, Volume.djvu»


Dove:

  • Autore: cognome (senza il nome) dell'autore del testo.
  • Titolo: titolo del testo (senza includere il sottotitolo che allungherebbe eccessivamente il nome del file)
  • Anno: anno di edizione (in cifre)
  • Volume: opzionale, solo per i testi che sono costituiti da più volumi.

Ad esempio il file DjVu denominato su Internet Archive come "LafenomenologiadellospiritodiGiorgioGFHegel(1863).djvu" dovrebbe essere rinominato "Hegel - La fenomenologia dello spirito, 1863.djvu"

File DjVu nei namespace Indice: e Pagina: modifica

Con un file DjVu, l'inserimento di testi con le immagini a fronte è molto più semplice e lineare.

Una volta caricato su Commons il file DjVu

NOMEFILE.Djvu

viene creata una pagina speciale File:NOMEFILE.djvu che comprende un sistema di visualizzazione delle diverse pagine del file. Creando su wikisource una pagina indice Indice:NOMEFILE.djvu (o semplicemente Indice:NOMEFILE) la pagina automaticamente aggancia il file DjVu su Commons, e il gioco è fatto.

Il tag Errore: Il tag pagelist può essere usato solo nel namespace Indice: nel campo Sezione indice delle pagine genera automaticamente la tabella dei link a tutte le pagine del file NOMEFILE.djvu.


Conversione da pdf a DjVu modifica

La conversione può essere attuata dal service web Any2Djvu. Il servizio (curato da volontari) accetta in entrata vari tipi di files, e li converte in un file djvu.

Sono accettati sia file locali che file presenti sul web, identificati da un URL.

Esiste inoltre l'opzione di una interpretazione OCR delle immagini, ma funziona decentemente solo per testi in inglese, come precisato nel sito; se convertite testi in altre lingue, o di cattiva qualità grafica, è consigliabile non utilizzarlo, dato che l'elaborazione sarebbe semplicemente molto più lunga ed la trascrizione fornita sarebbe comunque inutilizzabile. Il servizio fornisce in anticipo l'indirizzo del file DjVu di output; siccome l'elaborazione può essere molto lunga, anche alcune ore, è una buona idea salvarlo e verificare, di quando in quando, se il file è stato generato e quindi scaricarlo.

Modifica dei file DjVu modifica

Approfondimento: Gestione file djVu per esperti

Esistono programmi e accessori pensati per elaborare i file DjVu. Essi presuppongono una base di competenze necessaria a non rovinare o rendere inutilizzabili tali file.

Il tag [[File]] e i file DjVu modifica

Il tag File accetta, come parametro opzionale, page=xxx, e tratta la pagina "xxx" indicata dal parametro come un'immagine qualsiasi fra quelle accettate. Purtroppo, il tag <gallery> non accetta tale parametro e quindi non è possibile visualizzare una galleria di immagini delle pagine del file DjVu; l'effetto del tag <gallery> può essere simulato con una tabella di miniature, di cui però occorre scrivere il relativo codice.

Qui un esempio di "pseudo-galleria" da un file DjVu , in cui le immagini sono richiamate con seguente sintassi (da notare il parametro page=):

{|
|-
|[[File:Il cavallarizzo.djvu|page=1|thumb|200px|Pagina 1]]
|[[File:Il cavallarizzo.djvu|page=2|thumb|200px|Pagina 2]]
|[[File:Il cavallarizzo.djvu|page=3|thumb|200px|Pagina 3]]
|[[File:Il cavallarizzo.djvu|page=4|thumb|200px|Pagina 4]]
|-
|[[File:Il cavallarizzo.djvu|page=5|thumb|200px|Pagina 5]]
|[[File:Il cavallarizzo.djvu|page=6|thumb|200px|Pagina 6]]
|[[File:Il cavallarizzo.djvu|page=7|thumb|200px|Pagina 7]]
|[[File:Il cavallarizzo.djvu|page=8|thumb|200px|Pagina 8]]
|}
 
Pagina 1
 
Pagina 2
 
Pagina 3
 
Pagina 4
 
Pagina 5
 
Pagina 6
 
Pagina 7
 
Pagina 8

Ritaglio automatico dei margini modifica

Avviene talora che le immagini delle pagine sono circondate da un ampio margine bianco, che è opportuno eliminare per renderne più agevole la lettura durante la procedura proofread.

Un ottimo programma gratuito che – fra le moltissime funzioni disponibili – è anche in grado di eseguire in modo completamente automatico il (detto anche "crop") ritaglio dei margini bianchi di singole immagini, o di tutte le immagini contenute in una cartella, è XnView.

Estrazione di immagini modifica

Nonostante sia semplice ritagliare le immagini direttamente dai file DjVu, questi sono fortemente compressi e ottimizzati per il testo. Se estrai immagini da un file DjVu, queste risulteranno sfocate e danneggiata dalla compressione. Se non vi è un'altra fonte, estrai l'immagine dal DjVu e applica il template {{bad extraction}} su Commons, in modo da segnalare la bassa qualità del file. Altrimenti, utilizza se riesci una fonte migliore, come delle scansioni del testo in JPG,PNG e TIFF.

Internet Archive modifica

Se il file DjVu viene da Internet Archive, sono spesso presenti file JPG di ottima qualità che sono visibili online (vai su Archive.org nella pagina dei dettagli, e scegli "Read online"). Inoltre questo metodo è più semplice che ritagliare l'immagine dal DjVu, dato che non devi fare screenshot e ritagli dell'immagine, e inoltre la qualità è decisamente migliore.

Google Books modifica

Se il file DjVu viene da uno scan di Google books, il suo PDF ha qualità sufficiente. Si vedano ad esempio queste due immagini:

   
Tratta dal DjVu Tratta dal PDF su cui è stato fatto il DjVu

Dentro il djvu: struttura e manipolazione dello strato testo modifica

Ogni pagina djvu può contenere uno strato testo, comprendente sia il testo vero e proprio della pagina, che annotazioni, che non vengono normalmente visualizzate.

Lo strato testo è organizzato in elementi annidati, di dettaglio man mano più alto (dal testo dell'intera pagina al suingolo carattere), e ciascun elemento è mappato sull'immagine della pagina, ossia sono salvati sia il suo contenuto testuale che le coordinate assolute dell'immagine dell'elemento testuale sulla pagina.

Non sempre il dettaglio possibile viene registrato fino al carattere; in genere il dettaglio maggiore registrato è quello della parola, in alcuni casi della linea.

L'albero degli elementi annidati comunque è sempre completo, da quello di dettaglio minimo (pagina) a quello di maggiore dettaglio.

I livelli sono:

  • pagina
    • colonna
      • regione
        • paragrafo
          • linea
            • carattere

Usando DjView, opzione diplay->hidden text, gli elementi di maggiore dettaglio del testo vengono visualizzati sopra l'immagine, permettendo un rapido sguardo sull'organizzazione del testo.

L'estrazione di tutti i dati relativi al testo può essere effettuata da due diversi programmi a linea di comando DjvuLibre, che producono un output di struttura completamente diversa: djvused.exe e djvutoxml.exe. Essendo a linea di comando, entrambi possono essere integrati in programmi capaci di effettuare chiamate di sistema (es. python).

Rappresentazione xml del testo delle pagine djvu modifica

Oltre alla estrazione del testo in formato "LISP like", eseguita da due routine di DjvuLibre (dsed.exe e djvutxt.exe), esiste la possibilità di estrarlo in formato xml standard. Internet Archive pubblica tale rappresentazione nei file _djvu.xml.

I livelli annidati delle aree mappate sono:

  • PAGE (incluso in un tag PARAM)
    • HIDDENTEXT
      • PAGECOLUMN
        • REGION
          • PARAGRAPH
            • LINE
              • WORD
                • CHAR (trascurabile, poco utilizzato)

Le dimensioni dell'intera immagine della pagina sono registrate nel livello OBJECT e sono espresse in pixel con due attributi width e height.

Le coordinate degli elementi sono esplicitamente registrate solo nell'elemento di maggiore dettaglio (WORD) e sono espresse, per ciascun rettangolo, con le coordinate assolute in pixel, con origine top-left, dell'angolo inferiore sinistro e dell'angolo superiore destro (nell'ordine right, bottom, left, top) come quattro numeri separati da virgole all'interno dell'attributo coords dell'elemento, seguiti da un quinto numero che rappresenta il valore y della linea di base dell'elemento testuale.

Le coordinate dei box di livello superiore sono calcolabili scorrendo tutte le coordinate degli elementi compresi nel box e ricercando i valori minimi e massimi.

I livelli di particolare interesse per un tentativo di interpretazione del tipo di testo all'interno delle varie parti della pagina sono:

  • livello OBJECT: dimensioni totali della pagina, origine delle coordinate (top-left);
  • livello HIDDENTEXT: box contenente l'intero testo della pagina
  • livello PARAGRAPH: paragrafo
  • livello LINE: linee di testo


esempio di codice da Pagina:Albertazzi - Vecchie storie d'amore, 1895.djvu/159
<OBJECT data="file://localhost//tmp/derive/vecchiestoriedam00albe//vecchiestoriedam00albe.djvu" height="3421" type="image/x.djvu" usemap="vecchiestoriedam00albe_0159.djvu" width="1965">
<PARAM name="PAGE" value="vecchiestoriedam00albe_0159.djvu"/>
<PARAM name="DPI" value="400"/>
<HIDDENTEXT>
<PAGECOLUMN>
<REGION>
<PARAGRAPH>
<LINE>
<WORD coords="376,278,408,246,278">D</WORD>
<WORD coords="452,280,519,248,280">UN</WORD>
<WORD coords="558,287,892,250,283">GENTILUOMO</WORD>
<WORD coords="928,295,1243,256,290">VENEZIANO.</WORD>
<WORD coords="1472,316,1564,267,299">I45</WORD>
</LINE>
</PARAGRAPH>
....

Vedi approfondimento in Aiuto:Gestione file djvu/Uso e analisi del testo xml

Manipolazione del testo con djvused modifica

djvused è un potente tool per l'analisi e per la modifica dei file djvu; qui si accennerà soltanto alle opzioni che consentono di estrarre e eventualmente di modificare lo strato testo. Per lo studio di tutte le opzioni vedi http://djvu.sourceforge.net/doc/man/djvused.html (veramente difficile! dopo anni di prove ne uso sì e no un quarto delle possibilità.... ).


....