Progetto:Trascrizioni/Progetto Phe: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 111:
== To do bot ==
* scaricare da Commons il file djvu
* dumparlo e parsare il dump; memorizzare il numero pagine e l'array delle dimensioni delle pagine in un oggetto python {{fatto}}
* liberare una directory djvutxt e per ogni pagina estrarre il txt con djvutxt -page=[numero] -detail=line >tex/[numero].txt {{fatto}}
* caricare il contenuto dei file nell'oggetto python (trasfromato in unicode) {{fatto}}
* aggiornare una lista di oggetti con coppia nome originale file-nome oggetto normalizzato e salvare l'oggetto con il nome normalizzato come pcl {{fatto}}
* cancellare il djvu
 
secondo programma (caricamento pagine):
* dalla lista file ottenere il nome pcl normalizzato e leggere l'oggetto {{fatto}}
* per ogni pagina richiesta:
** verificare che la pagina sia vuota {{fatto}}
** <del>caricare il pure-txt ottenuto per concatenamento delle righe di testo + </del>i dati per datiPagina pronti per il parsing js {{fatto}} (il pure-txt viene calcolato da un js dall'oggetto datiPagina)
 
All'apertura di una pagina:
* riconoscimento dell'area dati grezza {{fatto}}
* parsing, memorizzazione in datiPagina, cancellazione area dati grezza {{fatto}}
 
== Stato dell'arte 11 dicembre 2011 ==
* Funziona uno script python che, dato un djvu con layer testo, esegue l'estrazione e il parsing dei dati e inizializza le pagine Pagina.
* I test sono stati fatti sulla seconda parte di [[Indice:La pastorizia.djvu]] da bot locale, e su [[Indice:Rivista di Scienza - Vol. II.djvu]] da bot su toolserver.
* Nel secondo test sono stati calcolati via python e caricati anche alcuni "parametri pagina":
** altezza "tipica" delle linee
** valore minimo del margine sin e massimo del margine dx
** pattern del margine pagina sin
** pattern del margine pagina dx
 
To do:
# routine caricamento djvu da Commons
# gestione cancellazioni dati intermedi
# interfaccia Python Cgi per l'interazione via web (manuale o automatica)
# inizio test formattazione automatica
## centrato
## righe vuote