Discussioni progetto:Letteratura/Biblioteca delle tradizioni popolari siciliane
Prime annotazioni....
modifica@Barbaforcuta Ok si comincia. Hai qualche preferenza riguardo tempi e modalità del lavoro o mi lasci carta bianca? A parte i volumi il cui testo è presente su Liberliber, che sarebbe un delitto non utilizzare, io procederei con un "caricamento modestamente pre-elaborato" dell'OCR.
Mi piacerebbe comunque che tu stesso annunciassi telegraficamente l'avvio del progetto in Bar, giusto per avvisare la comunità e per raccogliere eventuali osservazioni. --Alex brollo (disc.). 14:33, 18 mag 2022 (CEST)
- Oh bella.... tutti i pdf della serie sono già stati caricati su Commons (meno il 22). Safrebbe un peccato ricaricarli, ci rifletto un po', e intanto preparo una versione pdf del volume 22. Alex brollo (disc.). 16:44, 18 mag 2022 (CEST)
- Ti lascio carta bianca; a maggior ragione per i tempi, considerato che devo portare a conclusione un testo che mi aspettavo più interessante di quanto non sia. :-( Barbaforcuta (disc.) 22:46, 18 mag 2022 (CEST)
- Oh bella.... tutti i pdf della serie sono già stati caricati su Commons (meno il 22). Safrebbe un peccato ricaricarli, ci rifletto un po', e intanto preparo una versione pdf del volume 22. Alex brollo (disc.). 16:44, 18 mag 2022 (CEST)
Nomi File e Indici
modifica@OrbiliusMagister, Barbaforcuta Tutti i file sono stati caricati con il nome base Biblioteca delle tradizioni popolari siciliane (IA afm3499.0001.001.umich.edu).pdf
, nel quale cambia, per i vari volumi, solo l'id IA ed in particolare lo 0001 (0001, 0002....0025).
Noi usiamo uno standard diverso, cognome autore - titolo....
e per il primo volume ho tentato di creare l'indice Indice:Pitrè - Canti popolari siciliani I, 1891.pdf, creando su Commons c:file:Pitrè - Canti popolari siciliani I, 1891.pdf, un redirect verso c:File:Biblioteca delle tradizioni popolari siciliane (IA afm3499.0001.001.umich.edu).pdf. Purtroppo non funziona bene: ad esempio da nsPagina il link a nsIndice punta a un'inesistente Indice:Biblioteca delle tradizioni popolari siciliane (IA afm3499.0001.001.umich.edu).pdf, semplicemente avevo equivocato sul funzionamento del redirect.
A questo punto ci sono due tre possibilità principali:
- accettare i nomi file di Commons e spostare Indice e Pagine al nome corrispondente;
- rinominare i file su Commons dando loro nomi standard per itwikisource;
- ignorare del tutto i pdf già caricati e caricare ex novo i 25 djvu (gran parte già presenti su IA; alcuni derivati dai pdf IA con pdf2djvu; uno, il vol. 22, fatto ex novo dalle immagini caricate su IA ma di cui IA ha fallito l'elaborazione)
Io sarei orientato ad applicare la soluzione 1, ma attendo un parere. Mi attira molto anche la soluzione 3, che rimuoverebbe ogni problema sui nomi file e indici e migliorerebbe il recupero dell'OCR in nsPagina. Faccio una prova con il volume 2 della collana. --Alex brollo (disc.). 14:16, 19 mag 2022 (CEST)
- Per quanto vale il mio parere, anche a me sembra più lineare la soluzione 3. Lagrande (disc.) 14:26, 20 mag 2022 (CEST)
- L'ideale sarebbe rinominare, ma se la qualità dei file caricati non vale la pena (OCR), sono d'accordo a ricaricare e cancellare quelli presenti. --Paperoastro (disc.) 14:38, 20 mag 2022 (CEST)
- @Lagrande, Paperoastro Grazie! Mi sono deciso per la soluzione 3. Il problema dell'OCR è strano. Lo stesso testo OCR viene incorporato da IA sia nel pdf che nel djvu; tuttavia, nella fase di recupero dell'OCR dal pdf, le cose non funzionano bene, in particolare vengono aggiunti molti acapo molto fastidiosi, anche all'interno del testo di una singola riga. Boh? Con il djvu non succede. Quindi.... Indice:Pitrè - Canti popolari siciliani I, 1891.djvu e Indice:Pitrè - Canti popolari siciliani II, 1891.djvu. :-) Alex brollo (disc.). 15:31, 20 mag 2022 (CEST)
- L'ideale sarebbe rinominare, ma se la qualità dei file caricati non vale la pena (OCR), sono d'accordo a ricaricare e cancellare quelli presenti. --Paperoastro (disc.) 14:38, 20 mag 2022 (CEST)