Progetto:Trascrizioni/Progetto Opal, Internet archive, wikisource

La serie di operazioni per trasformare un libro antico in un libro digitale comprende tre passi fondamentali:

  • la scansione delle immagini;
  • l'elaborazione delle scansioni in vari formati e l'interpretazione del testo con il migliore OCR disponibile;
  • la correzione del testo prodotto dall'OCR e la sua formattazione in un buon html

In questi passaggi occorre che siano condivisi, ed eventualmente trasferiti, i metadati che identificano il libro nel miglior modo possibile; gli elementi essenziali sono quelli base delle citazioni biliografiche, ossia:

  • autore/i (creator)
  • titolo (title)
  • editore (printer)
  • città della stampa (city)
  • anno di stampa (year).

A questi metadati è opportuno che ne vengano aggiunti altri; ma tutti questi metadati essenziali hanno una caratteristica unica: nella quasi totalità dei casi, il libro stesso è la fonte dei metadati.

Il caso Opal modifica

Opal offre le immagini delle scansioni dei libri che raccoglie (vedi dettagli qui: Progetto:Trascrizioni/Opal.

Internet archive offre la possibilità di elaborare le scansioni ottenendo una varietà di file derivati contenenti, fra l'altro, un eccellente strato testo da OCR.

Wikisource attinge ad uno, o più, file derivati per eseguire il proofreading e la formattazione del testo ottenendo alla fine una versione html esportabile.

Il processo può essere funzionalmente unificato per iniziativa di volontari di wikisource: da tempo, alcuni utenti di wikisource caricano su IA i testi Opal di loro interesse, e ne scaricano e utilizzano il divu con strato testo OCR derivato, caricandolo su Commons e collegando il djvu ad una pagina Indice.

Un passo successivo dell'unificazione del processo è in corso, e consiste nello standardizzare e automatizzare più possibile l'elaborazione delle scansioni (caricamento e derivazione su Internet Archive); già esiste un ottimo strumento per il caricamento da Internet Archive a Commons: http://tools.wmflabs.org/ia-upload . L'importanza dell'automazione non sta tanto nel risparmio di tempo (si tratta in sostanza di pochi minuti risparmiati per un'opera che richiederà moltissime ore, talora settimane o mesi, per essere conclusa) quanto nella accuratezza del trasferimento dei metadati e ancor più nella riduzione della frustrazione che un utente non esperto sente, di fronte a un compito complesso, semplice solo per chi lo sa già fare. Questa frustrazione può essere tale da scoraggiare l'utente dall'avviare il caricamento, e in alcuni casi può perfino indurlo ad abbandonare del tutto il progetto.

La situazione nel marzo 2014 modifica

  • Gran parte dei testi provenienti da Opal sono raccolti nella collezione opallibriantichi di InternetArchive; amministra la collezione un membro di it.wikisource.
  • il caricamento dei file e dei metadati avviene in automatico con il tool itsource, operante da Tool Labs, sulla base di elenchi di opere adatte (non interattivamente);
  • è possibile aggiungere ai dati di Internet Archive un link a wikisource per le opere di cui è in corso, o è concluso, il proofreading.

Lavori da fare modifica

  1. rintracciare su IA tutte le opere provenienti da Opal e chiedere che l'utente IA che le ha caricate le assegni alla collezione opallibriantichi;
  2. identificare, fra le opere di opallibriantichi, quelle in cui c'è una pagina Indice su it.wikisource e aggiungerne il link.