Progetto:Trascrizioni/Caricamento OCR per capitoli/Aiuto

Operazioni preliminari prima di lanciare uploader6.py

modifica
  1. deve essere presente su Commons un file djvu di nome File:Nome.djvu con strato OCR.
  2. deve essere presente la corrispondente pagina Indice:Nome.djvu.
  3. la pagina Indice:Nome.djvu deve contenere un pagelist ben compilato.
  4. la pagina Indice:Nome.djvu deve contenere un campo Sommario compilato con una sequenza completa ed esatta di template Indice sommario. E' opportuno che la suddivisione dell'opera sia un grossi blocchi multipagina (vedi ad esempio Il Tesoro (Latini)).
  5. deve esistere una pagina Discussioni indice:Nome.djvu
  6. la pagina Discussioni indice:Nome.djvu può contenere una sezione memoRegex riempita con il tool salva regex e circoscritta in un tag nowiki.
  7. la pagina Discussioni indice:Nome.djvu deve contenere una sezione RigaIntestazione circoscritta da due tag <inizio> e <fine> in tutti i casi in cui RigaIntestazione non è "normale" (numero pagina e basta a destra sulle pagine dispari, fronte e a sinistra sulle pagine pari, retro).

E dopo lanciato uploader6....?

modifica

@Xavier121, Aubrey Dopo lanciato uploader6.py su Indice:Latini - Il Tesoro, 3, 1880.djvu lo script ha creato le pagine Il Tesoro/Libro VI... e tutte le altre comprese nel campo Sommario della pagina Indice. Idem per gli altri Indici dell'opera.

Il testo di ciascuna sezione si presenta come un grosso blocco, con il codice pronto per eseguire lo Split; tuttavia, prima di lanciare lo split, è opportuna qualche correzione. Le correzioni possono essere eseguire sia direttamente nella pagina, che copiando il codice sul proprio elaboratore di testi esterno preferito (idea non nuova ma di attualità per merito di @Lino Marco), sia con semplici Trova e Sostituisci, che con ricerche/sostituzioni regex; la cosa importante è prestare molta cura a non modificare il codice Split, che è critico. Il dettaglio delle correzioni è libero, volendo si potrebbe arrivare alla vera e propria rilettura; ma il processo diventerebbe molto lungo. L'idea è di limitarsi a una serie di sostituzioni di massa degli scannos più comuni e all'aggiunta di un po' di codice (es. poem, oppure il codice per le annotazioni, le centrature dei titoli, la "pulizia delle monnezze" identificabili a colpo d'occhio.

Terminata - al livello scelto - la ripulitura di massa, si salva il testo e si lancia split.