Progetto:Trascrizioni/Importazione Gutenberg

Questa pagina riguarda i primi test di importazione di file Gutemberg Project, relativi ai soli casi in cui siano disponibili le scansioni dell'edizione utilizzata per la trascrizione.

I test useranno i file testo UTf-8 e i file html di questo testo:

trascrizione di questa edizione:

Obiettivo

modifica
  • produrre un testo formattato, codici split compresi, con il massimo recupero possibile dei codici di formattazione, pronto per il lancio di split e relativo caricamento su nsPagina.

Preliminari

modifica

Anche nel testo utf-8 sono presenti elementi di formattazione:

  • | |
  • _ _
  • __ __
  • { }
  • E' registrato il numero pagina [p..]
  • Le annotazioni sono rappresentate con un numero intercalato nel testo fra quadre, e successivo paragrafo che inizia con lo stesso codice.
  • Le righe dei testi in versi iniziano con quattro spazi (ma non sembra un elemento distintivo certo).

Pagina indice sperimentale: Indice:Berchet, Giovanni – Scritti critici e letterari, 1912 – BEIC 1754878.djvu

Sviluppo dell'applicazione: sperimentale (interattiva), utilizza python e routine DjvuLibre (djvutxt, djvused)

Attenzione
non tentare di scaricare file con python, il sito riconosce il tentativo e blocca l'IP per 24 ore

Oltre alle formattazioni base, nell'HTML viene fatto uso dei tag h1 - h5 per i testi con font-size diversi da quelòlo base; la spaziatura verticale fra elementi viene ottenuta con css margin-top.

Il testo è costituito da una serie di paragrafi (incostante: con id numerico progressivo).

Le pagina sono marcate con uno speciale span contenente il testo [numero pagina]; il numero pagina è quello originale del libro. Possono essere sostituiti da un codice Match dopo correzione del numero pagina in numero pagina djvu.

La suddivisione in righe è conservata; le parole a fine riga e a fine pagina sono riunite (problema Pt).

I testi in versi sono costituiti da un paragrafo in cui le righe sono suggivise da tag br e iniziano con spazi fissi nbsp.

Test in corso
Indice:Albertazzi - Novelle umoristiche.djvu
(manipolazione html con python (solo parzialmente con beautifulSoup) , caricamento in pagina dummy, match & split)

Importazione del testo GP nel file djvu

modifica
Tre opzioni
  • importazione del testo in blocco unico per pagina (testo selezionabile e copiabile dal djvu ma non visualizzato; impossibile l'evidenziazione di ricerca)
  • importazione del testo suddiviso per righe (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; impossibile l'evidenziazione delle singole parole ricercate)
  • importazione del testo suddiviso per parole (testo selezionabile e copiabile dal djvu e visualizzabile con display=text da DjView dopo ricerca; possibile l'evidenziazione DjView delle singole parole ricercate)

La prima opzione è stata realizzata; la seconda è in fase di sviluppo ed è facilitata dal fatto che i testi Gutenberg conservano la suddivisione in righe del testo. Il match fra testo djvu e testo GP può essere fatto sull'export djvutxt -detail=line; manca però la paginazione, che va aggiunta con opportuni comandi (select...; set-txt; punti di file sequenza; save finale) rendendo il file analogo a quello prodotto da djvused output-txt. Il testo può essere reimportato poi riportato nel djvu con djvused.

Non esiste infatti un'opzione per selezionare, con djvused, diversi livelli di dettaglio testo in output; il dettaglio è sempre il maggiore possibile.