Marco Chemello (BEIC)
Ciao Marco Chemello (BEIC), un saluto di benvenuto su Wikisource, la biblioteca libera!
Per iniziare la tua collaborazione, leggi come prima cosa cos'è Wikisource, la pagina delle linee guida ed i manuali contenuti nella sezione aiuto. Se hai domande, dubbi o curiosità non esitare a chiedere al Bar, a un amministratore o a qualsiasi utente vedessi collegato seguendo le ultime modifiche.
Buon lavoro e buon divertimento da tutti i wikisourciani.
Su Wikisource, i "progetti tematici" sono uno strumento per coordinare il lavoro degli utenti che si occupano di un dato argomento - ad esempio come formattare i testi e segnalare le fonti utilizzate. Tutti i dettagli nella pagina "Portale:Progetti". |
Chissà se....
modifica.. alla BEIC potrebbe interessare un software per la correzione interattiva offline dello strato testo OCR di un file djvu? Ci sto lavorando da tempo, ma richiede ben altro che le mie limitate capacità, e soprattutto richiede che a qualcuno serva veramente (per ora l'ho sviluppato come "sfida personale"). E' settato in modo da funzionare particolarmente bene con la struttura OCR di default prodotta da IA. --Alex brollo (disc.) 16:19, 12 gen 2016 (CET)
- Benvenuto anche da parte mia --Accurimbono (disc) 17:36, 12 gen 2016 (CET)
Opere di Galileo Ferraris
modificaMi pare che siano state scansionate da BEIC. Ma al momento non le trovo su Commons. E' possibile (senza fretta) caricarle su Commons? Si tratta di uno dei maggiori scienziati italiani.
Grazie e ciao, --Accurimbono (disc) 17:38, 11 feb 2016 (CET)
- L'importante è che vengano caricate in un futuro prossimo. Io personalmente non riesco a prendermi l'impegno di trascriverle.
- Grazie, ciao, --Accurimbono (disc) 09:09, 17 feb 2016 (CET)
Scrittori d'Italia Laterza
modificaCaro Marco, una domanda forse già risposta: ma gli scrittori d'Italia non avevano già un bellissima trascrizione pagina per pagina? Me li ricordo su bibliotecaitaliana.it... --Aubrey (disc.) 15:05, 7 set 2017 (CEST)
- @Aubrey Credo che non ci siano più (quel sito mi sembra un po' abbandonato a se stesso). Giro la questione a Federica e Valeria. --Marco Chemello (BEIC) (disc.) 15:28, 7 set 2017 (CEST)
- Ciao @Aubrey, Marco Chemello (BEIC), Valeria De Francesca (BEIC) il sito di biblioteca italiana (progetto del quale Beic era partner) è indicato come "in manutenzione", l'ultimo aggiornamento risale al 2013, la collezione è accessibile e sembra ci sia tutto, i titoli che ho controllato a campione hanno una trascrizione, non so se il lavoro sia stato poi completato :) --Federica Viazzi (BEIC) (disc.) 15:50, 7 set 2017 (CEST)
- Grazie per la risposta. Quello che non capisco è se il testo è accessibile: prima del 2013, ricordo vaghissimamente che @OrbiliusMagister mi fece vedere che se prendevi la URL della scansione di una pagina, bastava sostituire come estensione TXT invece di JPG e avevi il testo trascritto... Al momento, in questo nuovo sito non vedo la trascrizione, ma se si potesse tirare fuori (anche se parziale) sarebbe un aiuto enorme, dato che potremmo pre-caricare il testo di molti libri. --Aubrey (disc.) 16:44, 7 set 2017 (CEST)
- @Aubrey, Federica Viazzi (BEIC), Valeria De Francesca (BEIC) Forse i testi delle trascrizioni (se esistono, sono indicati dei link ai dei file txt) sono accessibili attraverso Internet Archive? Nel qual caso li potremmo senz'altro sfruttare. --Marco Chemello (BEIC) (disc.) 03:36, 8 set 2017 (CEST)
- Quali trascrizioni intendi, Marcok? Sto tentando di navigare il vecchio sito della Biblioteca digitale Italiana archiviato dalla Wayback Machine, ma non trovo quello che cerco... Ad ogni modo, forse è più facile vedere se nel vostro db trovate cose che finiscono in txt... Aubrey (disc.) 14:28, 8 set 2017 (CEST)
- Se non ho sbagliato qualcosa, IA si ferma a questo livello del sito, non è andato a salvare le pagine singole per ogni libro. Io ricordo distintamente che c'erano le pagine da esplorare, JPG per JPG, ma se nella URL cambiavi l'estensione da "jpg" a "txt", c'era un'ottima trascrizione. E' quello che vorrei ritrovare. --Aubrey (disc.) 14:33, 8 set 2017 (CEST)
- Sicuro Aubrey che non fosse semplicemente lo strato testo OCR del pdf? Quello c'è ancora, nei pdf BEIC, e può essere estratto oppure incorporato in un djvu derivato con pdf2djvu (e poi estratto dal djvu). IA ignora (penso) l'eventuale strato testo e (penso) lo ricostruisce comunque. Io, in ogni caso, preferisco usare il testo ottenuto in fase di creazione pagina con i normali meccanismi mediawiki.Alex brollo (disc.) 16:22, 8 set 2017 (CEST)
- Sinceramente no, non sono sicuro. Ma mi pareva molto molto accurato per l'epoca, per cui tenterei cmq di scoprire se avevano trascritto umanamente o meno. --Aubrey (disc.) 16:56, 8 set 2017 (CEST)
- Sicuro Aubrey che non fosse semplicemente lo strato testo OCR del pdf? Quello c'è ancora, nei pdf BEIC, e può essere estratto oppure incorporato in un djvu derivato con pdf2djvu (e poi estratto dal djvu). IA ignora (penso) l'eventuale strato testo e (penso) lo ricostruisce comunque. Io, in ogni caso, preferisco usare il testo ottenuto in fase di creazione pagina con i normali meccanismi mediawiki.Alex brollo (disc.) 16:22, 8 set 2017 (CEST)
- Se non ho sbagliato qualcosa, IA si ferma a questo livello del sito, non è andato a salvare le pagine singole per ogni libro. Io ricordo distintamente che c'erano le pagine da esplorare, JPG per JPG, ma se nella URL cambiavi l'estensione da "jpg" a "txt", c'era un'ottima trascrizione. E' quello che vorrei ritrovare. --Aubrey (disc.) 14:33, 8 set 2017 (CEST)
- Quali trascrizioni intendi, Marcok? Sto tentando di navigare il vecchio sito della Biblioteca digitale Italiana archiviato dalla Wayback Machine, ma non trovo quello che cerco... Ad ogni modo, forse è più facile vedere se nel vostro db trovate cose che finiscono in txt... Aubrey (disc.) 14:28, 8 set 2017 (CEST)
- @Aubrey, Federica Viazzi (BEIC), Valeria De Francesca (BEIC) Forse i testi delle trascrizioni (se esistono, sono indicati dei link ai dei file txt) sono accessibili attraverso Internet Archive? Nel qual caso li potremmo senz'altro sfruttare. --Marco Chemello (BEIC) (disc.) 03:36, 8 set 2017 (CEST)
- Grazie per la risposta. Quello che non capisco è se il testo è accessibile: prima del 2013, ricordo vaghissimamente che @OrbiliusMagister mi fece vedere che se prendevi la URL della scansione di una pagina, bastava sostituire come estensione TXT invece di JPG e avevi il testo trascritto... Al momento, in questo nuovo sito non vedo la trascrizione, ma se si potesse tirare fuori (anche se parziale) sarebbe un aiuto enorme, dato che potremmo pre-caricare il testo di molti libri. --Aubrey (disc.) 16:44, 7 set 2017 (CEST)
- Ciao @Aubrey, Marco Chemello (BEIC), Valeria De Francesca (BEIC) il sito di biblioteca italiana (progetto del quale Beic era partner) è indicato come "in manutenzione", l'ultimo aggiornamento risale al 2013, la collezione è accessibile e sembra ci sia tutto, i titoli che ho controllato a campione hanno una trascrizione, non so se il lavoro sia stato poi completato :) --Federica Viazzi (BEIC) (disc.) 15:50, 7 set 2017 (CEST)
La citazione che cercate è in questa pagina. Purtroppo il tutto si è perso nel rinnovo del sito, ma ricordo che non era un OCR ma una trascrizione molto molto accurata. Per compensare almeno in parte il danno ricordo che praticamente tutto il Leon Battista Alberti caricato qui viene dall'edizione curata da Cecil Grayson, per cui un bel po' di Match & Split può essere condotto caricando quei volumi. - εΔω 17:50, 13 set 2017 (CEST)
- Grazie mille Edo. Peccato perchè Internet Archive ha salvato le immagini ma non le trascrizioni... Ma magari chi ha salvato il sito ha fatto un backup del vecchio database? Forse si riescono a trovare, anche se non a mettere online? Aubrey (disc.) 20:22, 18 set 2017 (CEST)
Gioberti
modificaIo proverei a riorganizzare la struttura ns0 di Gioberti e successivi altri due Indici, creando un unico testo Del rinnovamento civile d'Italia suddiviso in libri e capitoli, ignorando la suddivisione in volumi. Adottando la struttura con relazione uno-a-molti un ns0 - più indici si incontrano alcune difficoltà, ma secondo me il risultato viene più pulito. Stessa cosa per le novelle di Bandello, suddivise in cinque volumi. La prova del nove sarà il funzionamento corretto del corposo Indice analitico finale, che ho appena finito di sistemare e che - per come è pensata la versione attuale del potente template Pg - dovrebbe "reggere". --Alex brollo (disc.) 08:16, 26 set 2017 (CEST)
- @Valeria De Francesca (BEIC), Federica Viazzi (BEIC) che ne pensate della proposta di Alex? Vi complica troppo le cose? Per quanto mi riguarda va bene. --Marco Chemello (BEIC) (disc.) 12:12, 26 set 2017 (CEST)
- @Alex brollo, Federica Viazzi (BEIC), per me va bene, anche se per la verità finora non siamo mai andate oltre lo step di creazione delle pagine indice: le pagine ns0 sono al di là delle colonne d'Ercole per ora! In che modo dobbiamo regolarci per i sommari delle pagine indice? Hovisto la modifica su Gioberti, ma non mi è chiara la teoria dietro la pratica! :P--Valeria De Francesca (BEIC) (disc.) 12:31, 26 set 2017 (CEST)
- @Valeria De Francesca (BEIC), Federica Viazzi (BEIC) Dai facciamo un team: a me spesso non è chiara la pratica che consegue alle teoria.... Comunque, il momento della ideazione/compilazione del campo Sommario è estremamente critico, in quanto si determina la struttura dell'opera in ns0. Per fortuna sono possibili i ripensamenti, basta conoscere la teoria... :-) --Alex brollo (disc.) 18:29, 26 set 2017 (CEST)
- @Alex brollo, Federica Viazzi (BEIC), per me va bene, anche se per la verità finora non siamo mai andate oltre lo step di creazione delle pagine indice: le pagine ns0 sono al di là delle colonne d'Ercole per ora! In che modo dobbiamo regolarci per i sommari delle pagine indice? Hovisto la modifica su Gioberti, ma non mi è chiara la teoria dietro la pratica! :P--Valeria De Francesca (BEIC) (disc.) 12:31, 26 set 2017 (CEST)
Problema djvu
modificaSono in contatto, via Phabricator, con Sam Wilson, per migliorare IA Uploader; ho buone speranze che gran parte dei problemi saranno risolti, in quanto mi sembra siano risolvibili; purtroppo non posso partecipare alla revisione del codice, ma solo suggerire dei problemi "teorici".
Ma volevo segnalarti un secondo problema, con la preghiera di discuterne con il gruppo BEIC.
Succede che per alcuni vostri caricamenti su IA il testo ci sia già su IA, e fornito anche di un ottimo djvu pronto.
Esempio: Poeti minori del settecento (IA) (vostro, senza djvu) esiste come Poeti minori del settecento, vol I (IA) e c'è pure Poeti minori del settecento, vol II (IA), collezione Robarts, scansioni superlative a colori e djvu presente pronto da caricare su Commons.
Che fo? Stavo per caricare il djvu Robarts ma mi sono fermato: mi sembra di tradire il vostro lavoro. E se anche lo caricassi.... con che nome file dovrei caricarlo? Caricarlo con il nome che attriuisce la scansione a BEIC (il vostro "nome file standard") mi sembra una seria imprecisione: la scansione è quella della vostra edizione ma di certo non quella del vostro volume. --Alex brollo (disc.) 06:50, 6 nov 2017 (CET)
- Caro @Alex brollo, noi (anche per semplicità operativa) abbiamo intenzione di caricare tutti i file in pdf e djvu su Commons e IA (anche quando ce ne siano già altri sullo stesso libro di altra provenienza), ma naturalmente riteniamo giusto che la comunità di Wikisource scelga e giudichi in base alla qualità migliore, quindi non ci aspettiamo che tutti i file che carichiamo vengano effettivamente utilizzati su Wikisource. Al peggio, se prima creiamo un indice per un file e solo dopo ci si rende conto che il file migliore è un altro, immagino che con un copia-e-incolla tu possa comunque recuperare buona parte del lavoro fatto prima di cancellare la pagina. Noi abbiamo intenzione di contribuire anche sui titoli della collana con file diversi dai "nostri". Quindi non farti problemi. ;) --Marco Chemello (BEIC) (disc.) 11:39, 6 nov 2017 (CET)
- Non ci sono grandi problemi a copiare/spostare le pagine (via bot, non a mano!) da un Indice ad un altro. Immaginavo la vostra politica e la condivido: già avere una bella collezione BEIC IA, e poter semplicemente linkare il loro eccellente visualizzatore, è un obiettivo sia intelligente che economico. OK: se trovo scansioni eccellenti di opere della collana Scrittorui d'Italia, creo la pagina Indice da quelle, ovviamente con un nome file differente dal vostro schema per non confondere le cose; e nella tabellona inserisco il link alla pagina Indice da altra fonte, lasciando invece ai vostri caricamenti i campi pdf, djvu e IA. Approfitterò piuttosto, per il djvu "da altra fonte" su Commons, dei vostri metadati relativi all'edizione, autori ecc. Comincio con gli autori minori del '700. --Alex brollo (disc.) 17:22, 7 nov 2017 (CET)
Poeti minori del Settecento
modificaE' in due volumi. Esiste un 33b? --Alex brollo (disc.) 08:57, 8 nov 2017 (CET)
- @Alex brollo trasferisco la discussione in Discussioni_Wikisource:Scrittori_d'Italia, così chi tra noi se ne sta occupando potrà intervenire. --Marco Chemello (BEIC) (disc.) 09:21, 8 nov 2017 (CET)
Problema con I Marmi - vol. I
modificaMi sono accorto che nel I volume dei Marmi c'è un problema di scansione nelle pagine 240-241-242 (pagine djvu 246-247-248): manca la scansione della pagina 240 e al posto della 242 c'è l'immagine ripetuta della pagina 241. Il problema è già presente nel pdf base originale. A chi posso chiedere la scansione delle due pagine mancanti? Nel frattempo ho messo SAL 50% alle pagine fallate (il testo intanto l'ho recuperato da altra edizione presente su archive.org). --Alex brollo (disc.) 00:06, 17 set 2020 (CEST)
- @Alex brollo Grazie e scusa dell'attesa, ti ho girato una mail con le scansioni mancanti. --Marco Chemello (BEIC) (disc.) 15:39, 27 ott 2020 (CET)
- Benissimo grazie! Entro poco (ma non subitissimo....) me ne occupo. --Alex brollo (disc.) 17:18, 27 ott 2020 (CET)
- Aimè, sono stato poco chiaro: ok per la pagina 240, ma mi manca anche la 242.... Fai con calma, ho scaricato la pagina 240, nei due formati, attendo la 242 prima di procedere. --Alex brollo (disc.) 17:26, 27 ott 2020 (CET)
- @Alex brollo Ok faccio presente la cosa a @Marcella Medici (BEIC) e vediamo di risolvere. --Marco Chemello (BEIC) (disc.) 09:31, 28 ott 2020 (CET)
- Aimè, sono stato poco chiaro: ok per la pagina 240, ma mi manca anche la 242.... Fai con calma, ho scaricato la pagina 240, nei due formati, attendo la 242 prima di procedere. --Alex brollo (disc.) 17:26, 27 ott 2020 (CET)
- Benissimo grazie! Entro poco (ma non subitissimo....) me ne occupo. --Alex brollo (disc.) 17:18, 27 ott 2020 (CET)