Aiuto:Match and Fix: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 59:
:account bot attivo
 
== Meccanismo della correzione per confronto con yilil testo di riferimento ==
L'algoritmo di correzione, discretamente complesso, è basato sulla libreria python <code>difflib</code> e su alcune routine originali di Match and Split.
 
Immaginiamo che l'OCR contenga il testo:
<code>Adoperandosi cosi a vantaggio de’ Modencsi (vedi anche volume II, pag. 123), il Tiraboschi non altrimente si conduceva</code>
 
e che il testo di riferimento contenga il testo:
<code>Adoperandosi così a vantaggio de' Modenesi, il Tiraboschi (vedi nota 5) non altrimenti si conduceva</code>
 
L'algoritmo "vede" che le sequenze ''Adoperandosi'', ''a vantaggio de'', ''il Tiraboschi non'', ''si conduceva'' coincidono; "vede" che invece non coincidono ''così'', ''Modenesi'', ''vedi anche volume II pag 123'', ''vedi nota 5'', ''altrimente''. Ragionandoci decide che è giusto sostituire ''cosi'' con ''così'', ''Modencsi'' con ''Modenesi'', ''altrimente'' con ''altrimenti'', mentre è giusto ignorare la diversità nell'apostrofo e, il ''vedi nota 5'' e ''vedi anche volume II pag 123''.
 
Corregge quindi in:
<code>Adoperandosi così a vantaggio de’ Modenesi (vedi anche volume II, pag. 123), il Tiraboschi non altrimenti si conduceva</code>
 
In pratica, la struttura e la punteggiatura dell'OCR ''vengono conservate'', mentre vengono sostituite singole parole non corrispondenti dei due testi, purchè ''intervallate a sequenze corrispondenti''. Eventuali testi del tutto diversi fra OCR e testo di riferimento vengono semplicemente ignorati. Questo significa che non è indispensabile che l'OCR e il testo di riferimento provengano dalla stessa edizione; possono, ad esempio, avere un corredo di note del tutto diverso e sostanziali differenze nella punteggiatura. In entrambi i casi farà fede l'OCR.