Progetto:Trascrizioni/Importazione Gutenberg

Questa pagina riguarda i primi test di importazione di file Gutemberg Project, relativi ai soli casi in cui siano disponibili le scansioni dell'edizione utilizzata per la trascrizione.

I test useranno i file testo UTf-8 e i file html di questo testo:

https://www.gutenberg.org/ebooks/20094

trascrizione di questa edizione:

Indice:Berchet, Giovanni – Scritti critici e letterari, 1912 – BEIC 1754878.djvu

Obiettivo

produrre un testo formattato, codici split compresi, con il massimo recupero possibile dei codici di formattazione, pronto per il lancio di split e relativo caricamento su nsPagina.

Preliminari

utf-8

Anche nel testo utf-8 sono presenti elementi di formattazione:

| |
_ _
__ __
{ }

E' registrato il numero pagina [p..]
Le annotazioni sono rappresentate con un numero intercalato nel testo fra quadre, e successivo paragrafo che inizia con lo stesso codice.
Le righe dei testi in versi iniziano con quattro spazi (ma non sembra un elemento distintivo certo).

Pagina indice sperimentale: Indice:Berchet, Giovanni – Scritti critici e letterari, 1912 – BEIC 1754878.djvu

Sviluppo dell'applicazione: sperimentale (interattiva), utilizza python e routine DjvuLibre (djvutxt, djvused)

html

Attenzione: non tentare di scaricare file con python, il sito riconosce il tentativo e blocca l'IP per 24 ore

Oltre alle formattazioni base, nell'HTML viene fatto uso dei tag h1 - h5 per i testi con font-size diversi da quelòlo base; la spaziatura verticale fra elementi viene ottenuta con css margin-top.

Il testo è costituito da una serie di paragrafi (incostante: con id numerico progressivo).

Le pagina sono marcate con uno speciale span contenente il testo [numero pagina]; il numero pagina è quello originale del libro. Possono essere sostituiti da un codice Match dopo correzione del numero pagina in numero pagina djvu.

La suddivisione in righe è conservata; le parole a fine riga e a fine pagina sono riunite (problema Pt).

I testi in versi sono costituiti da un paragrafo in cui le righe sono suggivise da tag br e iniziano con spazi fissi nbsp.

Test in corso

Indice:Albertazzi - Novelle umoristiche.djvu

(manipolazione html con python (solo parzialmente con beautifulSoup) , caricamento in pagina dummy, match & split)

Importazione del testo GP nel file djvu

Tre opzioni

importazione del testo in blocco unico per pagina (testo selezionabile e copiabile dal djvu ma non visualizzato; impossibile l'evidenziazione di ricerca)
importazione del testo suddiviso per righe (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; impossibile l'evidenziazione delle singole parole ricercate)
importazione del testo suddiviso per parole (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; possibile l'evidenziazione DjView delle singole parole ricercate)

La prima opzione è stata realizzata; la seconda è in fase di sviluppo ed è facilitata dal fatto che i testi Gutenberg conservano la suddivisione in righe del testo. Il match fra testo djvu e testo GP può essere fatto sull'export djvutxt -detail=line; manca però la paginazione, che va aggiunta con opportuni comandi (select...; set-txt; punti di file sequenza; save finale) rendendo il file analogo a quello prodotto da djvused output-txt. Il testo può essere reimportato poi riportato nel djvu con djvused.

Non esiste infatti un'opzione per selezionare, con djvused, diversi livelli di dettaglio testo in output; il dettaglio è sempre il maggiore possibile.