Aiuto:Match and Fix: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 79:
* pre-elaborazione dell'OCR prima del confronto. Niente impedisce di correggere immediatamente delle piccole sbavature dell'OCR prima ancoda di confrontarlo con il testo di riferimento (come fa il tool postOCR): verifica spaziatura attorno alla punteggiatura, piccoli errori OCR ricorrenti (classico il "clic" per "che"), ecc.
* miglioramento dell'analisi delle discordanze. Attualmente lo script ragiona in termini di singole parole, non riconosce gli errori che sono determinati da erronea separazione di parole da parte di spazi o altri separatori. Non individua nè corregge, ad esempio, "Tira boschi" nè "T!raboschi" invece di "Tiraboschi" (sia lo spazio che l'esclamativo sono "separatori") nè corregge "Infatti" invece di "In fatti".
* esclusione di correzioni improprie. Lo script correggerebbe "conghietture" se trovasse "congetture" nel testo di riferimento, e potrebbevista nonla esserepolitica correttodi itwikisource sarebbe quasi certamente un errore; analogo problema in tutti i casi di ortografia "modernizzata".
* al momento il testo OCR è quello dell'OCR di un djvu, quindi è necessario disporre di un djvu; niente impedisce di estendere il confronto a pdf (con strato testo) vs. testo, testo vs. testo, e altre combinazioni come djvu vs. pdf.
* memorizzazione di un file di log, in cui siano registrate, pagina per pagina, tutte le correzioni effettuate. Al momento le correzioni vengono visualizzate mentre il programma corre, ma non sono conservate.