Versione delle 17:25, 29 apr 2019 modifica Nemo bis (discussione \| contributi) 751 modifiche m refuso ← Differenza precedente		Versione delle 17:44, 29 apr 2019 modifica annulla Nemo bis (discussione \| contributi) 751 modifiche m →‎Sviluppi possibili: refuso Differenza successiva →
Riga 78: * pre-elaborazione dell'OCR prima del confronto. Niente impedisce di correggere immediatamente delle piccole sbavature dell'OCR prima ancoda di confrontarlo con il testo di riferimento (come fa il tool postOCR): verifica spaziatura attorno alla punteggiatura, piccoli errori OCR ricorrenti (classico il "clic" per "che"), ecc. * miglioramento dell'analisi delle discordanze. Attualmente lo script ragiona in termini di singole parole, non riconosce gli errori che sono determinati da erronea separazione di parole da parte di spazi o altri separatori. Non individua nèné corregge, ad esempio, "Tira boschi" nè "T!raboschi" invece di "Tiraboschi" (sia lo spazio che l'esclamativo sono "separatori") nè corregge "Infatti" invece di "In fatti". * esclusione di correzioni improprie. Lo script correggerebbe "conghietture" se trovasse "congetture" nel testo di riferimento, e vista la politica di itwikisource sarebbe quasi certamente un errore; analogo problema in tutti i casi di ortografia "modernizzata". * al momento il testo OCR è quello dell'OCR di un djvu, quindi è necessario disporre di un djvu; niente impedisce di estendere il confronto a pdf (con strato testo) vs. testo, testo vs. testo, e altre combinazioni come djvu vs. pdf.

Aiuto:Match and Fix: differenze tra le versioni