Aiuto:Gestione file djvu: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m →‎File DjVu: refuso
Riga 137:
 
L'estrazione di tutti i dati relativi al testo può essere effettuata da due diversi programmi a linea di comando DjvuLibre, che producono un output di struttura completamente diversa: '''djvused.exe''' e '''djvutoxml.exe'''. Essendo a linea di comando, entrambi possono essere integrati in programmi capaci di effettuare chiamate di sistema (es. python).
 
== Rappresentazione xml del testo delle pagine djvu ==
Oltre alla estrazione del testo in formato "LISP like", eseguita da due routine di DjvuLibre (dsed.exe e djvutxt.exe), esiste la possibilità di estrarlo in formato xml standard. Internet Archive pubblica tale rappresentazione nei file _djvu.xml.
 
I livelli annidati delle aree mappate sono:
* PAGE (incluso in un tag PARAM)
** HIDDENTEXT
*** PAGECOLUMN
**** REGION
***** PARAGRAPH
****** LINE
******* WORD
******** CHAR (trascurabile, poco utilizzato)
 
Le dimensioni dell'intera immagine della pagina sono registrate nel livello PAGE e sono espresse con due attributi width e height.
 
Le coordinate degli elementi sono esplicitamente registrate solo nell'elemento di maggiore dettaglio (WORD) e sono espresse, per ciascun rettangolo, con le coordinate assolute in pixel, con origine top-left, dell'angolo inferiore sinistro e dell'angolo superiore destro (nell'ordine right, bottom, left, top) come quattro numeri separati da virgole all'interno dell'attributo coords dell'elemento.
 
Le coordinate dei box di livello superiore sono calcolabili scorrendo tutte le coordinate degli elementi compresi nel box e ricercando i valori minimi e massimi.
 
I livelli di particolare interesse per un tentativo di interpretazione del tipo di testo all'interno delle varie parti della pagina sono:
* livello PAGE: dimensioni totali della pagina, origine delle coordinate (top-left);
* livello HIDDENTEXT: box contenente l'intero testo della pagina
* livello PARAGRAPH: paragrafo
* livello LINE: linee di testo
 
.....