Aiuto:Match and Fix: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m refuso |
m →Sviluppi possibili: refuso |
||
Riga 78:
* pre-elaborazione dell'OCR prima del confronto. Niente impedisce di correggere immediatamente delle piccole sbavature dell'OCR prima ancoda di confrontarlo con il testo di riferimento (come fa il tool postOCR): verifica spaziatura attorno alla punteggiatura, piccoli errori OCR ricorrenti (classico il "clic" per "che"), ecc.
* miglioramento dell'analisi delle discordanze. Attualmente lo script ragiona in termini di singole parole, non riconosce gli errori che sono determinati da erronea separazione di parole da parte di spazi o altri separatori. Non individua
* esclusione di correzioni improprie. Lo script correggerebbe "conghietture" se trovasse "congetture" nel testo di riferimento, e vista la politica di itwikisource sarebbe quasi certamente un errore; analogo problema in tutti i casi di ortografia "modernizzata".
* al momento il testo OCR è quello dell'OCR di un djvu, quindi è necessario disporre di un djvu; niente impedisce di estendere il confronto a pdf (con strato testo) vs. testo, testo vs. testo, e altre combinazioni come djvu vs. pdf.
|