E' disponibile un recente strumento per l'OCR delle immagini delle pagine, accessibile dal pulsante "Trascrivi il testo". Consente l'interpretazione, molto rapida, dell'immagine di una pagina in quattro modalità:

  • Tesseract OCR
  • Google OCR
  • Transkribus OCR
  • Opzioni avanzate

Le prime due opzioni eseguono un'interpretazione con settaggi di default del rispettivo motore OCR.

La terza opzione lancia un motore specifico per l'interpretazione dei testi in caratteri gotici.

La quarta opzione apre una pagina che permette di perfezionare i settaggi del motore OCR (scelta della lingua, se diversa da quella di default (italiano, quando si opera da it.wikisource; tipo di segmentazione della pagina; eventuale interpretazione di una sola area della pagina).

Differenze fra Tesseract OCR e Google OCR modifica

Confrontando l'output di tesseract OCR e Google OCR (opzioni 1 e 2), si notano varie differenze. In generale, Google è più preciso nell'identificazione dei caratteri speciali, ma rispetta di meno la sequenza delle parole nella pagina; avviene abbastanza spesso uno spostamento di frammenti di testo dalla loro posizione originale.

Le differenze fra i due motori sono ancora più elevate se si attiva la quarta opzione (Opzioni avanzate), poichè i due motori hanno un diverso insieme di possibilità di settaggio fine.

Ambiente di lavoro: modifica standard, nuovo "Modifica in sequenza", eis modifica

Nell'ambiente di modifica nsPagina standard e nell'ambiente "Modifica in sequenza", viene interpretata la pagina correntemente in modifica. Al contrario, nell'ambiente eis, il tool "Trascrivi il testo" non riceve il numero pagina corrente, e quindi continua ad operare sulla pagina iniziale della sezione corrente di eis. Il pulsante "Copia url" di eis consente di salvare negli appunti l'url dell'immagine della pagina corrente, da incollare nella pagina "Opzioni avanzate".

In ambiente eis, le operazioni da fare per accedere a Opzioni avanzate è:

  • click su Copia url;
  • attivazione di Opzioni avanzate e selezione delle opzioni (la pagina OCR si apre in una scheda diversa da quella nspagina e può essere lasciata aperta per l'OCR delle pagine successive; le opzioni selezionate restano attive)
  • incollare l'url memorizzato in Appunti nel campo "Url dell'immagine", sostituendo l'url precedente; enter;
  • nel caso che l'interpretazione con le opzioni selezionate non sia soddisfacente, modificare le opzioni e cliccare "Reascrivi tutta la pagina" o, alternativamente, utilizzare lo strumento di selezione di un'area e cliccare "Trascrivi un'area";
  • copiare il testo trascritto con "Copia negli appunti";
  • tornare su eis e incollare il testo trascritto.

(continua)