Discussioni indice:Bernardino da Siena - Prediche volgari I.djvu

Ultimo commento: 16 giorni fa, lasciato da Alex brollo in merito all'argomento OCR incorporato o OCR ex novo?

memoRegex

modifica

{"^ind (.+)":["(regex)","{{indentatura|testo=''$1''}}","gm"], "^c (.+)":["(regex)","{{ct|f=120%|v=1|t=3|$1}}","gm"], "^c1 (.+)":["(regex)","{{ct|f=100%|v=1|''$1''}}","gm"], "^r$":["(regex)","{{RigaIntestazione}}","gm"], "ché":["","chè","g"], "\\ F\\ ":[""," l'","g"], "1’":["","l'","g"], "eh’":["","ch’","g"], "<<":["","«","g"], "\\-\\ ":["","— ","g"], "\\ ''\\ ":[""," ''","g"], "né\\ ":["","nè ","g"], "\\^\\\\d\\ <ref>":["","<ref>","g"], "^\\d <ref>":["(regex)","<ref>","gm"], "é\\ ":["","è ","g"], "giògne":["","giógne","g"], "\\ E'":[""," È","g"], "\\(\\ ":["","(","g"], "hé":["","hè","g"], "\\ Co.. ([PS]...)":["(regex)"," ''Cod. $1'' ","g"], "^s$":["(regex)","{{Sezione note}}","gm"], "giudìci":["","giudicî","g"], "^. <ref>":["(regex)","<ref>","gm"]}


Note di formattazione

modifica
  • Alcune prediche (I-XI; XXIV) derivano da Match and split; le altre derivano da precaricamento dell'OCR "ripulito" da alcuni errori ricorrenti.
  • Il numero romano della predica, e il sottotitolo, sono formattati con Ct e Indentatura. Per ottenere una formattazione omogenea sono state registrate alcune sostituzioni regex attivabili inserendo queste sigle + spazio immediatamente prima del testo, e poi eseguendo postOCR:
    • c -> formatta i numero romano predica
    • c1 -> formatta il sottotitolo, se centrato (breve);
    • ind -> formatta il sottotitolo se con indentatura inversa (lungo)
  • Raccomandazione: inserire sempre un RigaIntestazione, anche vuoto, in header.


OCR incorporato o OCR ex novo?

modifica

Una prima occhiata alle pagine che non derivano da M & S (dalla pag. 317 in poi) è estremamente deludente: lo strato OCR del djvu è zeppo di errori, nonostante un tentativo di ripulitura. L'OCR prodotto dal gadget Google sembra molto, molto migliore. Chi si azzarda a trascrivere è fortemente invitato a verificare. Non occorre usare il nuovo tool "Trascrivi il testo", è sufficiente (e molto poù sbrigativo se si usa eis) usare il vecchio gadget Preferenze->Accessori, gruppo Strumenti di modifica per il namespace Pagina.

Fino alla pag. 315, invece, le differenze ci sono, ma sono modeste; le differenze principali sono nella separazione dei paragrafi e nella mancanza della maggior parte delle note. Merita anche attenzione l'uso degli accenti acuto e grave. Alex brollo (disc.). 16:59, 10 lug 2024 (CEST)Rispondi

Ritorna alla pagina "Bernardino da Siena - Prediche volgari I.djvu".