Aiuto:Strumenti per la rilettura: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
Nessun oggetto della modifica
Riga 14:
 
== postOCR ==
{{Aiuto:Strumenti per la rilettura/postOCR}}
;Cosa fa:
La funzione postOCR esegue una serie di semplici correzioni del testo, eliminando molti dei piccoli difetti caratteristici dei testi che provengono da un OCR (denominati '''scannos'''). La funzione è in via di revisione e miglioramento; è opportuno utilizzarla solo nelle prime fasi della correzione e formattazione, usandola invece con cautela su testo già [[Aiuto:Formattazione|formattato]].
 
Mentre le prime versioni non riconoscevano le zone del testo dove è necessario conservare gli a capo"perchè indispensabili alla corretta formattazione, la versione attuale riconosce, e risparmia, gli a capo significativi per il codice wiki. E' quindi consigliabile NON lanciare la funzione sull'OCR grezzo, ma applicare subito, su tale testo, alcuni codici di formattazione, in modo da permettere allo script di agire "a ragion veduta".
 
E' quindi opportuno aggiungere subito, prima di lanciare la correzione postOCR, i seguenti codici:
# i tag poem per delimitare i versi; gli acapo compresi fra poem saranno rispettati;
## '''Aggiornamento''': se datiPagine è stato compilato per l'opera in lavoro ed è stato precisato '''tipo:poesia''', '''postOcr racchiude l'intero testo in una coppia di poem prima di procedere a qualsiasi elaborazione'''.
# i tag che all'inizio di una riga indicano un elemento di una lista e precisamente * e # (usati per le liste) e ; e : (utlizzati per i dialoghi); gli acapo immediatamente precedenti saranno rispettati;
# i tag relativi alle tabelle in formato wiki (ogni elemento della tabella inizia con un carattere { o |); anche in questo caso gli acapo saranno rispettati.
## '''Aggiornamento''': Il tool non agisce sui testi "sinsibili" come il contenuto di template, link, tag html e simili e quindi può essere usato anche su pagine già formattate.
 
;Approfondimento
La funzione deriva da analoga funzione predisposta per i testi in inglese ed è stata parzialmente adattata agli ''scannos'' tipici dei testi italiani; può essere ulteriormente perfezionata e tutti gli utenti sono incoraggiati ad annotare e segnalare (nel [[Wikisource:Bar|bar generale]] o nel [[Wikisource:Domande tecniche|bar tecnico]]) errori ricorrenti che potrebbero essere integrati nella funzione.
 
Le correzioni più importanti che la funzione postOCR esegue sono:
# aggiunta di un tag poem in testa e in coda al testo, se datiPagine dell'opera è compilato e contiene tipo:poesia;
# eliminazione degli acapo singoli a fine riga; automaticamente disabilitato se il testo contiene un tag poem. Suggerimento: ''inserire il tag poem immediatamente, non appena caricato l’eventuale OCR della pagina''.
# riunione delle parole spezzate a fine riga (escludendo le zone poem, le liste e le tabelle);
# correzione degli spazi adiacenti alla punteggiatura;
# trasformazione degli apostrofi da tipografici a dattilografici (con conservazione degli apostrofi che costituiscono markup wiki per ottenere il corsivo e il grassetto e rispetto del testo dentro lin, template ecc.).
# correzione di ''scannos'' frequenti nei testi italiani (è in corso il caricamento degli errori più comuni)
# richiamo della funzione RigaIntestazione, con un'opzione ''toggle=false'' (vedi [[#RigaIntestazione]]).
# '''Aggiornamento''': richiamo delle "sostituzioni opera-specifiche" inserite nel campo regex di datiPagine, se presente.
 
È opportuno controllare rapidamente, dopo lanciata la funzione, che non siano stati commessi errori; per facilitare il controllo è opportuno lanciare la funzione ''prima della rilettura e formattazione'', in modo che eventuali errori possano essere corretti immediatamente, ma dopo aver aggiunto i tag poem, "teatro", tabelle.
 
Nella prossima versione, gli apostrofi all'interno dei link e template saranno rispettati.
 
== RigaIntestazione ==