Versione delle 11:27, 22 feb 2019 modifica Alex brollo (discussione \| contributi) Amministratori dell'interfaccia, Amministratori 300 928 modifiche →‎Meccanismo della correzione per confronto con il testo di riferimento ← Differenza precedente		Versione delle 11:30, 22 feb 2019 modifica annulla Alex brollo (discussione \| contributi) Amministratori dell'interfaccia, Amministratori 300 928 modifiche →‎Sviluppi possibili Differenza successiva →
Riga 79: * pre-elaborazione dell'OCR prima del confronto. Niente impedisce di correggere immediatamente delle piccole sbavature dell'OCR prima ancoda di confrontarlo con il testo di riferimento (come fa il tool postOCR): verifica spaziatura attorno alla punteggiatura, piccoli errori OCR ricorrenti (classico il "clic" per "che"), ecc. * miglioramento dell'analisi delle discordanze. Attualmente lo script ragiona in termini di singole parole, non riconosce gli errori che sono determinati da erronea separazione di parole da parte di spazi o altri separatori. Non individua nè corregge, ad esempio, "Tira boschi" nè "T!raboschi" invece di "Tiraboschi" (sia lo spazio che l'esclamativo sono "separatori") nè corregge "Infatti" invece di "In fatti". * esclusione di correzioni improprie. Lo script correggerebbe "conghietture" se trovasse "congetture" nel testo di riferimento, e ~~potrebbe~~vista ~~non~~la ~~essere~~politica ~~corretto~~di itwikisource sarebbe quasi certamente un errore; analogo problema in tutti i casi di ortografia "modernizzata". * al momento il testo OCR è quello dell'OCR di un djvu, quindi è necessario disporre di un djvu; niente impedisce di estendere il confronto a pdf (con strato testo) vs. testo, testo vs. testo, e altre combinazioni come djvu vs. pdf. * memorizzazione di un file di log, in cui siano registrate, pagina per pagina, tutte le correzioni effettuate. Al momento le correzioni vengono visualizzate mentre il programma corre, ma non sono conservate.

Aiuto:Match and Fix: differenze tra le versioni