Discussioni aiuto:Match and Split: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Creata nuova pagina: == M&S: contro-osservazioni teoriche == Mi sembra quasi di aver capito. Ma siccome sono bastian contrario, vediamo di rattoppare un pochino, p...
 
Nessun oggetto della modifica
Riga 12:
Pensi che possa funziare? --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 00:28, 6 ott 2010 (CEST)
: :-) OK, pensi che possa funziare. Ovviamente è una questione di efficenza: l'attuale M&S è fenomenale per le pagine "lunghe", potrebbe essere un pochino noioso per le pagine "corte", tutto sta a trovare il punto in cui il fastidio di elaborare ancora sia inferiore al fastidio di ripetere il matching n. volte. A occhio: poesie->paginona, prose->M&S liscio. [[Indice:Opere varie (Manzoni).djvu]] ha tutte le varianti, es. Adelchi è in buon candidato per fare da cavia per il "paginone". Fra l'altro, il "paginone" è la via maestra per costruire un book pdf... ma prima ho un paio di cosette da fare. --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 19:44, 6 ott 2010 (CEST)
 
== La procedura inversa M&S in un'opera inesistente ==
 
Nonostante la procedura M&S sia creata per la trascrizione inversa, è possibile, e forse vantaggioso, utilizzare la procedura in modo "creativo" anche per i casi in cui ''una versione testuale già pronta non esiste ancora''.
 
Le premesse per questa possibilità sono che esista, o sia scaricabile in qualche modo, un testo "in blocco" (ad esempio può essere utilizzato il file .....djvu.txt disponibile su IA), e che, ovviamente, sia anche disponibile un file djvu con layer di testo.
 
Il sistema si basa su queste due osservazioni:
# le procedura Match e Split sono del tutto indipendenti l'una dall'altra;
# la procedura Match segmenta il testo in pagine, inserendo un particolare codice nel punto di inizio di ogni pagina;
## eseguito il match, si ottiene semplicemente un testo con intercalati titoli di sezione di secondo livello, che contengono il link alla pagina. In questa fase (prima di lanciare lo Split) il testo ''può essere liberamente modificato'', facendo attenzione a non toccare i "titoli di sezione speciali".
# La procedura Split fa due cose:
## copia il testo, pagina per pagina, nelle pagine linkate dal codice;
## nel testo da cui sono state copiate le pagine sostituisce la testo il codice di transclusione puntato sulle stesse pagine.
 
Quindi la procedura "inversa" consiste in:
# caricare il testo in blocco in una pagina Ns0 provvisoria
# far partire Match
# dopo che il Match è concluso, "aggiustare" quanto più possibile il testo (molto comodo estrarlo e procedere su un buon programma di elaborazione testi); il vantaggio è che piccoli scannos ricorrenti possono essere corretti in blocco con un solo edit, e inoltre che può essere aggiunto codice in testa alle pagine, subito sotto il codice Match, con la certezza che non confonderà il programma e che sarà ricopiato esattamente tal quale nella pagina.
 
Un primo test preliminare è stato fatto qui:[[Don_Chisciotte_della_Mancia/TestoSecondaParte]], elaborando in blocco circa 250 pagine su 650, ma non si è trattato di un test "raffinato", in quanto non è stata eseguita la "pre-elaborazione post-match". La procedura potrebbe, se ben attuata, consentire anche l'introduzione dei tl|Ns0 e quindi permettere, in una seconda fase, la costruzione automatica delle pagine Ns0 dei vari capitoli; è molto probabile che risulti anche piuttosto semplice l'inserimento quasi automatico dei tl|RigaIntestazione (che dovrebbero essere messi in testa alle singole pagine, e che potrebbero essere spostati all'interno dell'header noinclude da Alebot).
Ritorna alla pagina "Match and Split".