Wikisource:OAI-PMH
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting o Protocollo per il raccoglimento dei metadati dell'Open Archive Initiative) è un protocollo sviluppato dall'Open Archives Initiative come infrastruttura di comunicazione fra archivi digitali. È utilizzato per raccogliere (o collezionare) i metadati dei documenti in un archivio affinché i servizi possano essere costruiti utilizzando metadati da più archivi. Una implementazione dell'OAI-PMH deve supportare metadati rappresentati in Dublin Core, ma può supportare altre rappresentazioni.
Il protocollo è spesso chiamato semplicemente protocollo OAI. E' perlopiù utilizzato in ambito Open access.
FunzionamentoModifica
L' uscita OAI è Special:ProofreadIndexOai.
I verbi si richiamano con il suffisso ?verb=
.
Sono:
- Identify
- ListRecords = fai la lista dei record (cioè dei libri)
- ListSets
- ListMetadataFormats
- ListIdentifiers
Il prefisso &metadataPrefix=
permette di specificare lo schema di metadati da usare.
- prp_qdc = Qualified Dublin Core
- oai_dc = Simple Dublin Core
I set hanno il prefisso &set=
.
Esempi:
- l'uscita OAI della categoria dei libri al 100%, cioè tutti i libri riletti e corretti dalla comunità si richiama con:
https://it.wikisource.org/wiki/Special:ProofreadIndexOai?verb=ListRecords&metadataPrefix=prp_qdc&set=edizioni_wikisource
SetsModifica
I sets sono basati sulle Categorie e possono essere configurati (da un amministratore) su Mediawiki:Proofreadpage_index_oai_sets. La pagina contiene un array JSON del tipo:
{
"test": { //spec of the set ie its ID
"name": "Test", //The set name
"category": "tests_list", //The category to use, without the "Category:" prefix
"description": "A test set." //Description of the set, optional
}
}
- Pagina di configurazione
https://it.wikisource.org/wiki/MediaWiki:Proofreadpage_index_data_config
Il codice generato è:
<record>
<header>
<identifier>
oai:it.wikisource.org:prpIndex/De%27_matematici_italiani_anteriori_all%27invenzione_della_stampa.djvu
</identifier>
<datestamp>2012-08-27T19:51:56Z</datestamp>
<setSpec>edizioni_wikisource</setSpec>
</header>
<metadata>
<prp_qdc:qdc xmlns:prp_qdc="http://mediawiki.org/xml/proofreadpage/qdc/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://mediawiki.org/xml/proofreadpage/qdc/ //it.wikisource.org/wiki/Speciale:ProofreadIndexOaiSchema/qdc">
<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>
<dc:format xsi:type="dcterms:IMT">text/html</dc:format>
<dc:format xsi:type="dcterms:IMT">image/vnd.djvu</dc:format>
<dc:creator>Bartolomeo Veratti</dc:creator>
<dc:title xml:lang="it">De' matematici italiani anteriori all'invenzione della stampa</dc:title>
<dc:publisher xml:lang="it">Tipografia degli Eredi Soliani</dc:publisher>
<dcterms:spatial xml:lang="it">Modena</dcterms:spatial>
<dcterms:issued xsi:type="xsi:decimal">1860</dcterms:issued>
<dc:language xsi:type="dcterms:RFC5646">it</dc:language>
</prp_qdc:qdc>
</metadata>
</record>
Conversione in EPUBModifica
Il tool che converte i libri in EPUB è disponibile all'indirizzo
http://wsexport.wmflabs.org/tool/book.php
Quali libri sono indicizzati?Modifica
"Proofread Page" è il nome del software che permette di trascrivere un testo con la scansione a fronte (è un'estensione di MediaWiki).
Quindi, l'uscita OAI-PMH c'è solo per quei libri che hanno subito il trattamento "proofread page", cioè sono stati digitalizzati, caricati e trascritti pagina per pagina. I vari libri di Wikisource presi, per esempio, da Liber Liber (come si faceva nei primi anni, fino al 2007) non sono presenti in quest'uscita OAI-PMH. Per tutti quei libri lì non ci sono "metadati strutturati", ma solo una struttura all'interno dei template di Wikisource (quindi, per andarli a prendere, uno dovrebbe fare un crawler/bot/script che cerchi i metadati giusti nelle pagine giuste). In questo caso, ha senso usare le API o i dump e i vari script.