Discussioni indice:I Fioretti di San Francesco, A. Cesari, 1860.djvu
Suggerimenti per la rilettura
modificaIl testo dei Fioretti proviene da Match and Split di edizione leggermente differente. Alcune differenze sono state corrette via bot/via elaborazione offline, ma occorre prestare attenzione al testo e alla punteggiatura; anche il punto di fine pagina è spesso errato (sempre nel caso di parole spezzate).
Se durante la rilettura emergono differenze sistematiche, è opportuno registrarle con memoRegex. Alex brollo (disc.). 16:49, 16 giu 2024 (CEST)
Ripensamento
modifica@OrbiliusMagister Le differenze fra edizione proofread e precedente sono state sottovalutate a un'analisi approssimativa e riguardano non solo la punteggiatura, ma parecchie parole (sia per composizione in lettere che nell'uso delle maiuscole/minuscole). Vanno sperimentate alternative (uso dell'OCR del file djvu e uso del tool OCR Google accoppiato con eis). --Alex brollo (disc.). 06:59, 22 giu 2024 (CEST)
- Fatte un po' di pagine, non c'è dubbio: l'OCR Google è nettamente più facile da correggere del testo proveniente dal M & S. Probabilmente il risultato varia da caso a caso: si tratta di provare. --Alex brollo (disc.). 06:57, 23 giu 2024 (CEST)
memoRegex
modifica{"é":["","è","g"], "^s$":["(regex)","{{Sezione note}}","gm"], "santo\\ Francesco":["","san Francesco","g"], "ebbono":["","ebbero","g"], "imperò\\ che":["","imperocchè","g"], "rispuose":["","rispose","g"], "però\\ che":["","perocchè","g"], "frat’":["","Frate ","g"], "^» ":["(regex)","","gm"], "{{ind\\|([^}]+)}}":["(regex)","{{indentatura|testo=''$1''}}","gm"], "{{Sc\\ \\|([^}]+)}}":["(regex)","{{indentatura|testo=''$1''}}","gm"], "Digitized|by|Google":["(regex)","","gm"], "ó":["(regex)","ò","gm"], "^c (.+)":["(regex)","{{Ct|c=cap|$1}}","gm"], "\\ \\.":["",".","g"], "\\n([;,:])":["(regex)","$1","g"]}