Da molto tempo usiamo Opal come fonte preziosa e privilegiata; sono in corso test per semplificare e "darci dentro" nel caricamento su Internet Archive dei testi Opal, insieme ai metadati disponibili, agevolando il successivo caricamento su Commons e quindi su wikisource.

Architettura del sito e caratteristiche dei file modifica

I testi Opal sono disponibili come pdf, in genere a doppia facciata; il contenuto è costituito da pure immagini, a colori, di alta qualità.

I testi sono suddivisi in tre raccolte:

Le pagine elenco sono generate da server e i link alle singole opere non sono link piani, ma query al server. Le opere sono contenute materialmente in tre diverse sottopagine, e sono costituite da un file pdf ilcui nome è composto generalmente da "image", oppure "img" seguiti da un numero e/o da una sigla convenzionale. Nel nome del file pdf non c'è traccia esplicita nè del titolo dell'opera, nè dell'autore.

Esempio, prendiamo il primo dei testi che compare nell'elenco "teatro italiano...":

  • Accademia degli Intronati, Siena. Gl'ingannati. Commedia. In Siena : Matteo Florimi, 1611

Il link è collegato al nome, ma non compare in alcun modo se non viene cliccato, e il tasto destro del mouse (che su un link normale mostra varie opzioni, fra le quali "Salva link con nome") non funziona.

Forzando con qualche trucco, si scopre che il server genererà un url di questo tipo:

  • http://www.opal.unito.it/psixsite/Teatro italiano del XVI e XVII secolo/Elenco opere/image1.pdf

puntando quindi a Teatro italiano del XVI e XVII secolo/Elenco opere/image1.pdf che è quello che serve per raggiungere il file, proprio come basta l'ID di Internet Archive per costruire il link completo dell'opera.

Il template {{OPAL}}, con due parametri (il primo, la raccolta: narrativa|teatro|miscellanea; il secondo, il nome del file senza l'estensione .pdf) permette di costruire il link completo e diretto, una volta conosciuto il nome image.... e la raccolta a cui appartirene.

Esempio:

Metadati librari disponibili modifica

I metadati disponibili per ogni opera su Opal sono contenuti nella riga di testo che compare negli elenchi delle opere. Sono suddivisi in campi che possono essere catturati singolarmente dall'html della pagina di elenco:

  • autore
  • titolo
    • link al file
      • raccolta (teatro|narrativa|miscellanea)
      • nome del file pdf
  • sottotitolo
  • città di pubblicazione
  • editore
  • anno di pubblicazione

Struttura dei file pdf di Opal modifica

  1. i pdf contengono le immagini delle pagine scansionate a colori e a alta risoluzione; vengono generati all'atto della scansione (non sono disponibili immagini singole in tiff)
  2. nella quasi totalità delle opere ogni immagine contiene due facciate verso e recto. In una minoranza di opere le scansioni contengono le singole pagine. Nei due casi la procedura di caricamento su IA varia radicalmente.
  3. in molte opere le pagine sono ben allineate e centrate nell'immagine; in altre opere sarebbe necessaria una rotazione e una centratura dell'immagine prima del taglio
  4. i testi voluminosi sono suddivisi in vari file pdf
  5. la prima pagina contiene generalmente il verso della copertina e il frontespizio


Progetto di caricamento dei testi Opal su Internet Archive modifica

Nel corso del marzo-aprile 2014, è stato avviato un progetto informale di caricamento sistematico di opere di Opal su IA, ancora in corso, con esplorazione di varie convenzioni e con elaborazione di script su Tool Labs.

Al momento (maggio 2014) questi sono i risultati:

  1. è stata aperta una collezione IA dedicata, opallbriantichi, che raccoglie tutti i testi di IA caricati da Opal;
  2. la collezione è amministrata da un wikisourciano (Alex brollo); l'amministratore di una collezione ha la facoltà di editare gli item della collezione, anche se caricati da altri, purchè chi li carica li assegni alla collezione;
  3. esiste una convenzione molto precisa per l'assegnazione dell'ID dell'item su IA, strettamente connessa al nome originale del file pdf su Opal, il che consente di ricavare l'uno dall'altro in modo inequivoco;
  4. sono stati elaborati script per il caricamento da Opal a IA, che coprono tutti i casi (file pdf a pagina singola e a pagina doppia; testi in pdf unico o in pdf multipli);
  5. è stato stabilito un set di metadati standard, adottato in tutti i caricamenti (tranne E&O).
  6. al 12 maggio 2014, la collezione comprende 1051 testi, gran parte dei quali selezionati sulla base del doppio criterio di valore biliotecario (precedenza ai testi più rari e antichi) e di qualità delle scansioni (centratura e orientamento delle immagini).
Aggiornamento
di fatto l'amministrazione della collezione è passata a Ruggeri.