Progetto:Trascrizioni/Importazione Gutenberg
Questa pagina riguarda i primi test di importazione di file Gutemberg Project, relativi ai soli casi in cui siano disponibili le scansioni dell'edizione utilizzata per la trascrizione.
I test useranno i file testo UTf-8 e i file html di questo testo:
trascrizione di questa edizione:
Obiettivo
modifica- produrre un testo formattato, codici split compresi, con il massimo recupero possibile dei codici di formattazione, pronto per il lancio di split e relativo caricamento su nsPagina.
Preliminari
modificautf-8
modificaAnche nel testo utf-8 sono presenti elementi di formattazione:
- | |
- _ _
- __ __
- { }
- E' registrato il numero pagina [p..]
- Le annotazioni sono rappresentate con un numero intercalato nel testo fra quadre, e successivo paragrafo che inizia con lo stesso codice.
- Le righe dei testi in versi iniziano con quattro spazi (ma non sembra un elemento distintivo certo).
Pagina indice sperimentale: Indice:Berchet, Giovanni – Scritti critici e letterari, 1912 – BEIC 1754878.djvu
Sviluppo dell'applicazione: sperimentale (interattiva), utilizza python e routine DjvuLibre (djvutxt, djvused)
html
modifica- Attenzione
- non tentare di scaricare file con python, il sito riconosce il tentativo e blocca l'IP per 24 ore
Oltre alle formattazioni base, nell'HTML viene fatto uso dei tag h1 - h5 per i testi con font-size diversi da quelòlo base; la spaziatura verticale fra elementi viene ottenuta con css margin-top.
Il testo è costituito da una serie di paragrafi (incostante: con id numerico progressivo).
Le pagina sono marcate con uno speciale span contenente il testo [numero pagina]; il numero pagina è quello originale del libro. Possono essere sostituiti da un codice Match dopo correzione del numero pagina in numero pagina djvu.
La suddivisione in righe è conservata; le parole a fine riga e a fine pagina sono riunite (problema Pt).
I testi in versi sono costituiti da un paragrafo in cui le righe sono suggivise da tag br e iniziano con spazi fissi nbsp.
- Test in corso
- Indice:Albertazzi - Novelle umoristiche.djvu
- (manipolazione html con python (solo parzialmente con beautifulSoup) , caricamento in pagina dummy, match & split)
Importazione del testo GP nel file djvu
modifica- Tre opzioni
- importazione del testo in blocco unico per pagina (testo selezionabile e copiabile dal djvu ma non visualizzato; impossibile l'evidenziazione di ricerca)
- importazione del testo suddiviso per righe (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; impossibile l'evidenziazione delle singole parole ricercate)
- importazione del testo suddiviso per parole (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; possibile l'evidenziazione DjView delle singole parole ricercate)
La prima opzione è stata realizzata; la seconda è in fase di sviluppo ed è facilitata dal fatto che i testi Gutenberg conservano la suddivisione in righe del testo. Il match fra testo djvu e testo GP può essere fatto sull'export djvutxt -detail=line; manca però la paginazione, che va aggiunta con opportuni comandi (select...; set-txt; punti di file sequenza; save finale) rendendo il file analogo a quello prodotto da djvused output-txt. Il testo può essere reimportato poi riportato nel djvu con djvused.
Non esiste infatti un'opzione per selezionare, con djvused, diversi livelli di dettaglio testo in output; il dettaglio è sempre il maggiore possibile.