Versione delle 16:02, 20 feb 2019 modifica Alex brollo (discussione \| contributi) Amministratori dell'interfaccia, Amministratori 300 205 modifiche →‎Avvertenze per l'uso e dipendenze ← Differenza precedente		Versione delle 16:09, 20 feb 2019 modifica annulla Alex brollo (discussione \| contributi) Amministratori dell'interfaccia, Amministratori 300 205 modifiche →‎Meccanismo della correzione per confronto con yil testo di riferimento Differenza successiva →
Riga 59: :account bot attivo == Meccanismo della correzione per confronto con ~~yil~~il testo di riferimento == L'algoritmo di correzione, discretamente complesso, è basato sulla libreria python <code>difflib</code> e su alcune routine originali di Match and Split. Immaginiamo che l'OCR contenga il testo: <code>Adoperandosi cosi a vantaggio de’ Modencsi (vedi anche volume II, pag. 123), il Tiraboschi non altrimente si conduceva</code> e che il testo di riferimento contenga il testo: <code>Adoperandosi così a vantaggio de' Modenesi, il Tiraboschi (vedi nota 5) non altrimenti si conduceva</code> L'algoritmo "vede" che le sequenze ''Adoperandosi'', ''a vantaggio de'', ''il Tiraboschi non'', ''si conduceva'' coincidono; "vede" che invece non coincidono ''così'', ''Modenesi'', ''vedi anche volume II pag 123'', ''vedi nota 5'', ''altrimente''. Ragionandoci decide che è giusto sostituire ''cosi'' con ''così'', ''Modencsi'' con ''Modenesi'', ''altrimente'' con ''altrimenti'', mentre è giusto ignorare la diversità nell'apostrofo e, il ''vedi nota 5'' e ''vedi anche volume II pag 123''. Corregge quindi in: <code>Adoperandosi così a vantaggio de’ Modenesi (vedi anche volume II, pag. 123), il Tiraboschi non altrimenti si conduceva</code> In pratica, la struttura e la punteggiatura dell'OCR ''vengono conservate'', mentre vengono sostituite singole parole non corrispondenti dei due testi, purchè ''intervallate a sequenze corrispondenti''. Eventuali testi del tutto diversi fra OCR e testo di riferimento vengono semplicemente ignorati. Questo significa che non è indispensabile che l'OCR e il testo di riferimento provengano dalla stessa edizione; possono, ad esempio, avere un corredo di note del tutto diverso e sostanziali differenze nella punteggiatura. In entrambi i casi farà fede l'OCR.

Aiuto:Match and Fix: differenze tra le versioni