Discussioni progetto:Letteratura/Zibaldone
Archivi |
|
Ricominciamo dalla situazione di oggi
modifica- Zibaldone, frutto del brutale caricamento da LiberLiber, in stand-by e scollegato con i volumi proofread;
- Indice:Zibaldone di pensieri I.djvu e successivi fino a Indice:Zibaldone di pensieri VII.djvu. completato il caricamento dellle pagine; da effettuare il caricamento dell'Indice, Indice parziale e Polizzine a parte;
- Pensieri di varia filosofia e di bella letteratura completo per la parte del testo leopardiano, mancano gli indici.
Faccio pulizia e ordine nel mio PC e poi, con l'aiuto di qualche volenteroso, vorrei immaginare un ruolo diverso per Alebot, "di rifinitura", a partire dalle correzioni del testo greco. --Alex brollo (disc.) 12:17, 2 ott 2009 (CEST)
Limature
modificaSto lavorando su uno script che lima le pagine di Ziba (al momento si sta ripassando il Volume I).
Fa varie cosette:
- sistema alcune punteggiature, soprattutto quelle delle citazioni; non tutte, ma parecchie;
- espande alcune abbreviazioni (p.e., v.):
- verifica la corretta numerazione del Pensieri;
- verifica la corretta spaziatura fra righe del Pensieri.
Spero che sia utile; non mi sembra che abbia fatto grandi pasticci. Se vedete anomalie,o avete suggerimenti per ulteriori correzioni automatiche, fatemi un fischio. Vi ricordo che adesso l'ancora al pensiero viene visualizzata come numero pagina/numero pensiero; ma si tratta di una visualizzazione di lavoro, le ancore possono essere visualizzate facilmente come asterischi semplicemente mettendo qualcosa di diverso dalla parola "vedi" nella pagina Utente:Alex brollo/ZbPensiero. --Alex brollo (disc.) 07:37, 8 ott 2009 (CEST)
Revisione Infotesto
modificaHo cominciato a rivedere gli Infotesti degli indici (sorgente Opal piuttosto che IA) e a collegare direttamente gli Indici a Pensieri di varia filosofia e di bella letteratura, ridirigendo i dati di collegamento con il precedente Zibaldone sia a livello di Intestazioni, che a livello di link interni. Una revisione di qualcun altro non sarebbe una cattiva idea (ma ho comunque segnali che Edo segue la cosa). --Alex brollo (disc.) 13:37, 19 ott 2009 (CEST)
Update limature
modificaInsieme al fido Alebot ci siamo ripassati vari volumi di Ziba, limando link e template, come descritto sopra. Ripassati i volumi I, II, III, VI, VII; adesso è "in cura" il IV e poi mancherà solo il V. E dopo? non vi nascondo che sento una leggera nausea.... dopo vediamo.
Segnalo che ci sarà da aggiungere in varie pagine testuali un tl|Sezione note. Quasi assenti in alcuni volumi, le note sono frequenti in altri, e non ho trovato un "trucco" per inserire il Sezione Note via bot solo dove serve. Qualche suggerimento? --Alex brollo (disc.) 00:05, 1 nov 2009 (CET)
- Lascia stare, faremo a manina, nel passaggio al 75%. Poi prenditi una pausa, che te la sei meritata! --Aubrey McFato 17:22, 1 nov 2009 (CET)
- Attaccato il V volume: l'ultimo :-) --Alex brollo (disc.) 22:51, 3 nov 2009 (CET)
- Mi accodo ad Aubrey: dalle Ultime modifiche non distinguo più chi sia il bot o l'utente . - εΔω 23:55, 3 nov 2009 (CET)
- Già. Mi rendo conto della mia "invasività", negli giorni... ho perfino pensato di agire, da umano, con l'account Alebot, per non sommergere "Ultime modifiche". Con l'andar del tempo, io e Alebot abbiamo raffinato la collaborazione... e la velocità di revisione delle pagine (limitatamente all'attività di "aprire la strada a Alebot") è stata un po' impressionante. Ma adesso è finita. :-) --Alex brollo (disc.) 10:12, 5 nov 2009 (CET)
- Mi accodo ad Aubrey: dalle Ultime modifiche non distinguo più chi sia il bot o l'utente . - εΔω 23:55, 3 nov 2009 (CET)
FineReader: indici e polizzine caricati!
modificaSto provando l'OCR FineReader, ne sono completamente entusiasta e me lo regalerò per Natale. Ho scaricato la versione trial (vale per 15 giorni o per 50 salvataggi di pagine), e gli ho fatto interpretare tutti gli indici (indici, polizzine ecc). Ho adottato una procedura "veloce" copiaincollando dalle pagine di edit alle pagine source i puri testi, senza formattazione nè correzioni, lasciando quindi il SAL al 25%.... ma gli errori sono veramente pochi. --Alex brollo (disc.) 23:56, 11 dic 2009 (CET)
Indici
modificaMi piacerebbe mantenere il semplice corsivo adottato dalle edizioni di riferimento per coerenza. Non vi piace la divisione in colonne anche sul namespace principale (mi scuso se ho perso qualche puntata!)? Il /br risolve lo spazio bianco nel tag poem? Fantastico. Ma avete visto cosa succede eliminando il template Pt nella pagine de Le rane di Aristofane? In transclusione si riesce a mantenere collegate le righe senza spazi bianchi. Torre ha già espresso un parere favorevole, forse è il caso di rivedere alcune procedure lunghe e laboriose per semplificare il lavoro nelle versione proofread. --Xavier121 11:08, 15 dic 2009 (CET)
- Viste Le rane, sono d'accordo. Ogni tanto sviluppo delle idee per verificare "se si può fare", ma questo non significa affatto che sia opportuno e efficiente, poi, farlo. :-) --Alex brollo (disc.) 13:26, 18 dic 2009 (CET)
- Quanto agli indici, sono stati un bel rompicapo. Ne valeva la pena: i link interni sono un plus straordinario della nostra edizione... Ho un paio di crucci, ve li sottopongo... dopo. --Alex brollo (disc.) 13:26, 18 dic 2009 (CET)
- Come avete immaginato, Alebot mi aiuta nella trasformazione del testo dei link in veri Zblink. FineReader è stato eccellente nell'interpretazione dei numeri, punteggiatura e spazi, ma comunque c'erano (nella punteggiatura e spaziatura) un bel po' di errorini. In più la buonanima di Giacomo aveva usato una nozione molto compatta, altamente organizzata, per i suoi link...ecco la lista dei "formati" originali:
- 1234. punta alla pagina 1234
- 1234,1. punta al pensiero 1 della pagina 1234
- 1234,1.2.3. punta ai pensieri 1,2,3 della pagina 1234
- 1234-6. punta alle pagine dalla 1234 alla 1236
- 1234,1-3. punta ai pensieri dall'1 al 3 della pagina 1234
- 1234,2-1236. punta al testo che parte dal pensiero 2 della pagina 1234 fino a tutta la pagina 1236
Talora nell'OCR mancano le spaziature e c'è qualche errore fra virgola e punto con questo bel risultato:
- 1234,1234,1-3.1234.1.2.3,1234,1.
- La regola che ho usato, per non impazzire, è: tutti i ZbLink, sia nella versione a fronte, che nella versione testuale, puntano alla versione testuale. Spero che siate d'accordo.
- Presto dovrò attivare i link dell'indice editoriale Le Monnier, alla fine del VII volume proofread. Questi puntano alle pagine fisiche dei vari volumi dal I al VII. Io suppongo che sia ragionevole utilizzare una convenzione esattamente inversa a quella precedente ossia: tutti i link dell'indice editoriale, sia nella versione a fronte, che nella versione testuale, puntano alla versione a fronte. E qui chiedo il vostro parere! --Alex brollo (disc.) 21:51, 18 dic 2009 (CET)
- Uno script ha "interpretato" le pagine dell'indice editoriale alla fine del volume VII e ha costruito e caricato in pochi minuti qualche migliaio di link attivi. Non ha riconosciuto tutto... ma un bel po'. --Alex brollo (disc.) 01:28, 24 dic 2009 (CET)
Zibaldone settembre 2011: dove siamo
modifica(discussione spostata dal bar)
Ho ripreso in mano gli indici di Zibaldone, su ottimo suggerimento di Edo.
Quando mi ci sono messo, due anni fa, ero audace ma inesperto; tuttavia qualche buon colpo l'ho assestato (in realtà,mi ci sono fatto le ossa...).
Ipotizzando che qualcuno stia pensando ad affrontare la rilettura difinitiva, facciamo in po' il punto.
- RigaIntestazione: ok al 99%. La lettura automatica delle pagine ha fallito in rari casi (quelli in cui tutta la pagina Pagina contiene sono parte di un'unica pagina). I rilettori dovranno correggere a mano RigaIntestazione.
- Parole greche: sono riuscito nell'intento di costruire un buon algoritmo di conversione (il precedente produceva vari errori). Mi ritrovo nel mio pc una buona versione di tutte le pagine LiberLiber, in cui ciascuna parola greca è tradotta da Athenian o Symbol in unicode. Problema: temo che l'impresa di "innestare" le parole greche nelle pagine degli Indici sia un'impresa molto difficile. Potrei però caricare i paragrafi che contengono testo greco da qualche parte, in modo da consentire al rilettore un comodo copia-incolla: ma dove metterle? Nella pagina Discussione della pagina? Nella pagina stessa, "nascosti" dentro un commento html? Nelle vecchie pagine ns0 di Zibaldone?
- Qualcuno di voi ha provato il gadget AutoreCitato. Il gadget si appoggia a un dizionario per la conversione nome breve->nome completo. Farò un'estrazione di massa dei template AutoreCitato già inseriti per aggiornare il dizionario.
- Non sono soddisfatto della qualità grafica delle immagini. A quel tempo avevo solo DjvuSolo; adesso abbiamo djvuToy che è tutt'un'altra musica. Devo rifare daccapo gli algoritmi di "taglio pagine", produrre immagini tiff invece che jpg, e ricostruire i file djvu. Ci metterò qualche giorno.
Commenti? Proposte? Idee? La discussione la lasci qui in evidenza, poi magari la spostiamo al suo posto (Discussioni progetto:Letteratura/Zibaldone) --Alex brollo (disc.) 18:20, 18 set 2011 (CEST)
- Commento: La sola possibilità di usufruire di scansioni meglio leggibili è una enorme facilitazione per tutti i rilettori: ricordo che le prime scansioni dei sette volumi erano assai migliori di quelle attuali.
- Più passa il tempo più percepisco la presenza di Zibaldone come pleonastica rispetto all'edizione di Carducci: capisco anch'io che un'edizione moderna è più carina, ma più avanziamo con il proofread più l'odore di possibili copyviol aumenta più un doppione di un testo di quattromilaepassa pagine falsa le nostre statistiche. Mi rendo conto di esprimere un parere eretico ma se ritente ignoratelo.
- Per il greco sai che puoi contare sul mio aiuto. - εΔω 19:28, 18 set 2011 (CEST)
- Le prime scansioni erano in BN e provenivano da Google. Poi abbiamo deciso di utilizzare le scansioni a colori, OPAL. Tuttavia ci sarebbe voluta più esperienza per fare la conversione; mea culpa, a quei tempi - quanto tempo sembra sia passato... preistoria! Ne abbiamo fatta di strada... :-) - sembrava magico riuscirla a fare a prescindere alla qualità, e invece la qualità è l'elemento critico, perchè è funzionale alla rilettura. Ci riprovo.
- Tormenta anche me l'edizione Flora/Binni-Ghidetti. Cancellarla sarebbe saggio: d'un colpo si fa fuori quasiasi dubbio di copyviol. Tuttavia mi rendo conto, rileggendo, che sarebbe un peccato perdere l'enorme numero di refusi e sviste che emerge dal confronto dei due testi. Questa mole di preziose informazioni potrebbe essere conservata non solo nella cronologia (che saprirà?, non sparirà? ecc.), ma nelle note dell'infotesto delle pagine discussione. Sarebbe un lavoro utile? --Xavier121 22:44, 18 set 2011 (CEST)
- Idea: potrei ricaricare il mio testo LiberLiber (Flora/Binni-Ghidetti), nuova estrazione con un po' di formattazione e con greco OK, pronto a essere copiaincollato a mano, sopra il vecchio Zibaldone (potrei anche ricaricare le sole pagine con testo greco, sono circa 1200 e ho modo di individuarle) in modo che siano un aiuto alla rilettura. Oppure potrei caricare gli stessi testi nelle pagine discussione delle pagine Indice, però... non chiedetemi il perfetto allineamento del testo; potrei arrivare a caricare le intere pagine di Leopardi contenute, intere o in parte, nelle pagine Pagina (es: se la pagina Pagina contiene la fine della pagina 1234 e l'inizio della pagina 1235, in Discussioni pagina potrei caricare i testi interi delle due pagine 1234 e 1235). --Alex brollo (disc.) 23:54, 18 set 2011 (CEST)
- Tormenta anche me l'edizione Flora/Binni-Ghidetti. Cancellarla sarebbe saggio: d'un colpo si fa fuori quasiasi dubbio di copyviol. Tuttavia mi rendo conto, rileggendo, che sarebbe un peccato perdere l'enorme numero di refusi e sviste che emerge dal confronto dei due testi. Questa mole di preziose informazioni potrebbe essere conservata non solo nella cronologia (che saprirà?, non sparirà? ecc.), ma nelle note dell'infotesto delle pagine discussione. Sarebbe un lavoro utile? --Xavier121 22:44, 18 set 2011 (CEST)
Aggiornamento gadget AutoreCitato
modificaSono stati aggiunti ai dati del gadget AutoreCitato tutti gli autori finora inseriti in Zibaldone. Ricordo che il gadget, per gli autori che "conosce", sostituisce a un template AutoreCitato a un parametro un template AutoreCitato a due parametri (es: {{AutoreCitato|Dante}} -> {{AutoreCitato|Dante Alighieri|Dante}}) rendendo molto meno "server-expensive" la gestione del template.
Riconversione pdf OPAL -> Djvu
modificaLa conversione da PDF Opal a Djvu è laboriosa per due motivi:
- ha senso se si conserva il colore (altrimenti sarebbe preferibile la versione Internet Archive in BN, proveniente da Google);
- occorre "splittare" le pagine, perchè ogni pagina PDF di Opal rappresenta due facciate.
Sono a buon punto nella trasformazione del PDF in una collezione di facciate singole tiff con uno script python che invoca nconvert.exe (che a sua volta si appoggia su ghostscript) e immediatamente "splitta" l'immagine tiff in due facciate, memorizzando i due file in una cartella. Lo splitting è eseguito da routine PIL (Python Imaging Library).
Non sono ancora del tutto soddifatto dell'ultimo passo, ossia la conversione dei file tiff in djvu con DjvuToy; è difficile trovare un compromesso fra la necessità di produrre immagini molto più leggibili di quelle attuali, senza aumentare troppo la dimensione del file djvu. --Alex brollo (disc.) 11:28, 20 set 2011 (CEST)
- Mi sembra che su commons la dimensione di un file da caricare non sia un problema reale, o sbaglio? - εΔω 11:56, 20 set 2011 (CEST)
- Sembrano tanti, ma per libri di 500 pagine significa che ogni pagina non può avere più di 200 kbyte. Se non si comprime, si sfora. Ma sembra che Xavier abbia trovato una soluzione. (vedi sotto). --Alex brollo (disc.) 14:12, 20 set 2011 (CEST)
- Non si possono superare i 100MB. Comunque posso dedicarmi alla sistemazione dei file OPAL. Ho trovato il sistema di splittare direttamente da PDF Opal in Tiff (rispettivamente prima pagine pari, poi dispari), ricomponenedo poi direttamente la pagine singole TIFF in un nuovo PDF compresso/alta qualità da far invidia al djvu. Provate a confrontare l'ultimo test effettuato su questo testo (qui originale Opal) --Xavier121 13:35, 20 set 2011 (CEST)
- A parte il fatto che il pdf è "deprecato" (formato chiuso), sta il fatto che è possibile usarlo. Prova, Xavier! Però fai molta attenzione: è assolutamente necessario che la sequenza pagine sia allineata a quella dell'attuale Indice. Questo richiede che siano aggiunte alcune pagine vuote, mi pare all'inizio. Aggiungerle a un djvu è una cosa di un attimo, aggiungerle a un pdf è tutt'altro paio di maniche (proprio perchè il formato è chiuso). --Alex brollo (disc.) 14:09, 20 set 2011 (CEST)
- Quanto ti vengono grosse? Per fare i djvu, io ho un ottimo programma a lavoro, che poteri far correre per una nottata. Volendo, posso spenderci un attimo. --Aubrey McFato 14:24, 20 set 2011 (CEST)
- Il pdf super compresso raggiunge dimensioni simili al djvu, tuttavia, proprio in virtù dello spazio massimo concesso da commons cerco di non lesinare mai sulla qualità delle immagini. Giusto per intenderci: nulla vieta, una volta ottenuto il file di Opal a pagina singola, di trasformare il pdf in djvu. Quello che vorrei capire sulla qustione formato chiuso è in che circostanze si debba sempre procedere alla realizzazione dei .djvu: per usi futuri su altre piattaforme? Per inserire layer con Sal 100%? Quando abbiamo testi già pronti in .txt, in cui si può fare agevolmente uno split senza match, è necessario ottenere il .djvu? anche quando di pessima qualità grafica se pescato da google? Personalmente, nella rilettura, le pagine a colori, con una risoluzione del carattere discreta (non grassetto spinto strafotocopiato alla google), mi rende più agevole il lavoro. La sicurezza poi di inviare una mail al buon Ruggeri quando scopriamo un errore di impaginazione, mi fa dormire tranquillo. Comunque restano mie personali considerazioni. Se la comunità decreta il djvu formato standard, seguiremo quella strada. Nel mio caso, con gli strumenti messi a punto in questi mesi, dovrò prevedere un passaggio in più. Non lo vedo un gran problema :) --Xavier121 15:51, 20 set 2011 (CEST)
- Quanto ti vengono grosse? Per fare i djvu, io ho un ottimo programma a lavoro, che poteri far correre per una nottata. Volendo, posso spenderci un attimo. --Aubrey McFato 14:24, 20 set 2011 (CEST)
- Per ora il compromesso che ho ottenuto (buona leggibilità, ma djvu con un "brutto fondo") pesa circa 50-70kByte per pagina. Direi che fino a 100 kBy/pagina potrebbe essere accettabile. Per ottenere questo risultato ho dovuto però partire da tiff a risoluzione piuttosto bassa (100 dpi); se aumento i dpi, poi devo aumentare la compressione. Posso mandarti un po' di tiff a varie risoluzioni per fare qualche test? Il problema è che i tiff ad alta risoluzione sono pesantucci (svariati mega a pagina). Con che formati in input e con che risoluzioni hai avuto buoni risultati?
- Xavier, fermati un attimo. Caricare pdf significa spostare tutte le pagine.... e modificare tutte le pagine ns0. Se Aubrey ce la fa, un buon djvu sarebbe MOLTO meglio. In ogni caso: se tu produci tiff non ha senso comprimerli in un pdf per poi ristrarre dei tiff da passare al software che crea il djvu.
- Il problema principale dei pdf di Ruggeri, nella trasformazione djvu, è il basso contrasto fra fondo e caratteri. Alla fine, le lettere sono rese in parte dallo strato foreground, in parte dallo strato background; a meno di utilizzare il formato "Photo" a strato unico, che però fa schizzare in alto il peso delle pagine. D'altronde, non è facile aumentare il contrasto senza "annerire" le parti in ombra delle pagine e senza modificare (rendendolo molto sgradevole) il colore di background. Sto facendo varie prove nelle ultime due serate, è un bel quiz. --Alex brollo (disc.) 15:56, 20 set 2011 (CEST)
- Io solitamente lavoro con TIFF da 30 mega l'uno (ma in casi speciali anche 100M). Poi faccio dei djvu in modalità fotografia a 300dpi (cioè la risoluzione max in cui è stata fatta la scansione: adesso sto lavorando su scansioni di manoscritti di Aldrovandi e sono a 400dpi). In realtà, mi viene in mente ora che non ho mai esplicitato questo dubbio: perchè la gente si ostina a fare i djvu con i vari layer (a parte questioni di spazio?)? La modalità forografia preserva intatta l'immagine, e pur non avevndo layer di sorta riesce comunque ad avere il livello di testo (se uno ce lo incolla sopra come solitamente faccio). In questo modo uno ha una bella immagine ed un bell'OCR mappato sopra, e mi pare la situazione migliore. Se però abbiamo paura che sfori i famosi 100 mega di Commons, la questione è diversa. --Aubrey McFato 16:16, 20 set 2011 (CEST)
- Io posso ottenere il pdf rispettando la nostra impaginazione (aggiungere o togliere pagine non è un problema). Non cambierà nulla né in NsPagina né in Ns0. Se volete faccio una prova stasera sulle prima 150 pp. del volume I e spedisco il risultato ad Alex via dropbox (anche ad Aubrey se apre un account su DB). P.S. @Alex. I TIFF che ottengo dal pdf OPAL sono in qualità PDF OPAL, quindi si possono ricomporre in un pdf alta qualità pagina singola o possono essere lavorati da un software che restituisce djvu. Ora che ho conosciuto djvutoy, sperimenterò anche questa seconda soluzione mettendo a confronto i due files. Attivate la caselle di DB e vedrete i miei esperimenti, a stasera :) --Xavier121 16:49, 20 set 2011 (CEST)
- Scusate l'intromissione. Solo una richiesta ad Aubrey che si chiede perché la gente si ostino a usare tre layer. Io sono uno di quelli e l'ho fatto perché nella mia ignoranza credevo servisse per il testo. Visto che invece no, per cortesia mi linki dove trovare le istruzioni (forse mi sono sfuggite?) oppure -a parte se vuoi- mi spieghi la tua soluzione? Grazie! Se poi capisco la procedura proverò a renderla meno invisibile. --Silvio Gallio (disc.) 08:35, 21 set 2011 (CEST)
- Quando scrivevo tutti, non intendevo voi quanto quelli di Internet Archive. Io stesso poi me ne sono accorto tardi. La questione è: io non so quanto i 3 layer aiutino per il testo, credo praticamente nulla, perchè è il software OCR che poi lo estrae, e quello a noi interessa. Io ho scoperto che anche in modalità Photo (1 layer) si può incollare il testo OCR su un djvu, per cui è il caso migliore, ottima immagine + livello testo. In DjvuToy, la funzione Maker ti da delle opzioni, seleziona Photo (1 layer) e vedrai che va bene. Poi però va fatto l'OCR in qualche modo (ma anche nei casi precedenti, a più layer, giusto?). --Aubrey McFato 09:13, 21 set 2011 (CEST)
- Scusate l'intromissione. Solo una richiesta ad Aubrey che si chiede perché la gente si ostino a usare tre layer. Io sono uno di quelli e l'ho fatto perché nella mia ignoranza credevo servisse per il testo. Visto che invece no, per cortesia mi linki dove trovare le istruzioni (forse mi sono sfuggite?) oppure -a parte se vuoi- mi spieghi la tua soluzione? Grazie! Se poi capisco la procedura proverò a renderla meno invisibile. --Silvio Gallio (disc.) 08:35, 21 set 2011 (CEST)
- Io posso ottenere il pdf rispettando la nostra impaginazione (aggiungere o togliere pagine non è un problema). Non cambierà nulla né in NsPagina né in Ns0. Se volete faccio una prova stasera sulle prima 150 pp. del volume I e spedisco il risultato ad Alex via dropbox (anche ad Aubrey se apre un account su DB). P.S. @Alex. I TIFF che ottengo dal pdf OPAL sono in qualità PDF OPAL, quindi si possono ricomporre in un pdf alta qualità pagina singola o possono essere lavorati da un software che restituisce djvu. Ora che ho conosciuto djvutoy, sperimenterò anche questa seconda soluzione mettendo a confronto i due files. Attivate la caselle di DB e vedrete i miei esperimenti, a stasera :) --Xavier121 16:49, 20 set 2011 (CEST)
- Io solitamente lavoro con TIFF da 30 mega l'uno (ma in casi speciali anche 100M). Poi faccio dei djvu in modalità fotografia a 300dpi (cioè la risoluzione max in cui è stata fatta la scansione: adesso sto lavorando su scansioni di manoscritti di Aldrovandi e sono a 400dpi). In realtà, mi viene in mente ora che non ho mai esplicitato questo dubbio: perchè la gente si ostina a fare i djvu con i vari layer (a parte questioni di spazio?)? La modalità forografia preserva intatta l'immagine, e pur non avevndo layer di sorta riesce comunque ad avere il livello di testo (se uno ce lo incolla sopra come solitamente faccio). In questo modo uno ha una bella immagine ed un bell'OCR mappato sopra, e mi pare la situazione migliore. Se però abbiamo paura che sfori i famosi 100 mega di Commons, la questione è diversa. --Aubrey McFato 16:16, 20 set 2011 (CEST)
- I layer multipli permettono, in sostanza, un trucco: quello di comprimere con tecniche completamente diverse, e indipendenti, le immagini delle parole e il fondo. Con questo trucco, si ottiene una compressione molto più spinta, mantenendo però un ottimo dettaglio del testo. Problema: la cosa riesce bene quanto il fondo e le lettere hanno una nettissima differenza di "scurezza". Nel caso di immagini un po' palliducce, come quelle dello Zibaldone di OPAL, la distinzione parole/sfondo non funziona benissimo; alcune parti delle parole (sui margini) vengono interpretate come "sfondo". La cosa si vede benissimo con DjView, opzione Display, dove gli strati si possono visualizzare separatamente. La modalità Photo, invece, usa un algoritmo di compressione non selettivo e ne risultano files più pesanti.
- Un'altra precisazione. Se il djvu contiene un layer testo, il software proofread MediaWiki estrae il testo del djvu, non attiva l'OCR. Se nel djvu non c'è layer testo, effettivamente non c'è vantaggio al di fuori di quello della compressione superiore, e della possibilità - come fanno gli amici di en.source - di eliminare completamente il fondo di default.
- Una curiosità: niente impedisce di "montare", nello stesso file djvu, pagine singole ottenute con sistemi di compressione diversi; esempio, di mescolare immagini di pagine a tre layer (o in BN) con immagini di pagine a layer singolo. --Alex brollo (disc.) 13:19, 21 set 2011 (CEST)
- A parte il fatto che il pdf è "deprecato" (formato chiuso), sta il fatto che è possibile usarlo. Prova, Xavier! Però fai molta attenzione: è assolutamente necessario che la sequenza pagine sia allineata a quella dell'attuale Indice. Questo richiede che siano aggiunte alcune pagine vuote, mi pare all'inizio. Aggiungerle a un djvu è una cosa di un attimo, aggiungerle a un pdf è tutt'altro paio di maniche (proprio perchè il formato è chiuso). --Alex brollo (disc.) 14:09, 20 set 2011 (CEST)
- Non si possono superare i 100MB. Comunque posso dedicarmi alla sistemazione dei file OPAL. Ho trovato il sistema di splittare direttamente da PDF Opal in Tiff (rispettivamente prima pagine pari, poi dispari), ricomponenedo poi direttamente la pagine singole TIFF in un nuovo PDF compresso/alta qualità da far invidia al djvu. Provate a confrontare l'ultimo test effettuato su questo testo (qui originale Opal) --Xavier121 13:35, 20 set 2011 (CEST)
PDF & DJVU
modifica1) Prima prova con pdf super compatto alta qualità: circa 16 MB; ogni volume dovrebbe oscillare tra i 55 e i 60 MB, ampiamente dentro il limite di Commons. Procedo con la conversione dei TIFF di Opal direttamente in djvu attraverso DjvuToy. --Xavier121 22:14, 20 set 2011 (CEST)
2) Esito brillante: DjvuToy ha restituito un djvu compattissimo e di alta qualità (i parametri impostati sono quelli di base: compressione normal; color image 75%; content: photo - 1 layer). Aumentando la qualità si dovrebbe avere una foto perfetta dell'originale (ma già così è ottimo). Pienamente soddisfatto, invio prove su DB. :) --Xavier121 22:27, 20 set 2011 (CEST)
- Mi pare veramente buono. Io ho completato la prima prova, con una strada del tutto diversa, la risoluzione è soddisfacente ma il tuo file è più contrastato. Aubrej entra già nella cartella DB djvu files. :-)
- Carico nella stessa cartella il file Zibaldone di pensieri I.djvu che, per finire la prova, ho già caricato su Commons. Per ora le nuove immagini le vedete entrando nelle pagine in modifica (in visualizzazione appaiono ancora le vecchie). Attenzione, le pagine fino a inizio indice (fino alla 27 del file djvu collegato all'Indice sono completamente rimescolate, bisogna sistemarle una a una. --Alex brollo (disc.) 23:03, 20 set 2011 (CEST)
- Ottimo anche il tuo. Che risoluzione hai usato? Vogliamo provare con Djvutoy parametri a bassa compressione aumentando la qualità al massimo e vedere fin dove si può arrivare con i limiti imposti da Commons? Direi che dopo queste prove si può stabilire uno standard e iniziare il nuovo caricamento dei files djvu. --Xavier121 01:13, 22 set 2011 (CEST)
- Ho estratto brutalmente i tiff a 150 dpi dopodichè li ho caricati in djvu con il vecchio DjvuSolo. Il file risultante è di oltre 40 Mby, quindi non c'è più molto margine. Vuoi provare a completare una conversione di uno dei volumi successivi? E poi: riesci a far qualcosa con python? Mi piacerebbe che tu potessi usare quel miniscript pdf2tif.py che ho aggiunto in dropbox, fa in un colpo solo conversione pdf->tiff, "croppaggio", "splittaggio" e creazione di nomi sensati per i file tiff, mi piacerebbe regalarlo a Ruggeri. Se mi incoraggi cercherò di modificare lo script in modo che possa essere lanciato da riga di comando; alla fine il lancio potrebbe ridursi a un'istruzione tipo python pdf2tif.py nomefilepdf da_pagina a_pagina. --Alex brollo (disc.) 07:30, 22 set 2011 (CEST)
- Sarebbe una cosa fantastica. Io avevo iniziato, possiamo riprendere da lì. Mi servono solo le istruzioni: programmi giusti da scaricare, gli script da inserire ecc. Il mio problema attuale con i miei sistemi è lo splittaggio e l'intitolazione da eseguire prima su pagine pari poi su dispari ecc. Su un testo breve si può ancora fare ma su i lunghi stiamo freschi... Per quanto riguarda lo spazio, aumentando la qualità al limite di djvutoy non dovremmo superare i famosi 100 MB (dovremmo essere tra i 60 e i 70), però la riproduzione rispetto all'originale Opal sarebbe perfetta. Quando hai un minuto ci mettiamo sotto come ai bei tempi :) --Xavier121 09:25, 22 set 2011 (CEST)
- Bene, allora "micimetto" a trasformare lo script python da accrocchio-che-posso-usare-solo-io a script che può usare anche qualcun'altro. Appena l'ho rimaneggiato lo metterò in una pagina anche qui. Nel frattempo ti elenco le cose che dovresti aver installato (immaginando che tu lavori sotto windows, se sei sotto linux dovrai verificare):
- Ho estratto brutalmente i tiff a 150 dpi dopodichè li ho caricati in djvu con il vecchio DjvuSolo. Il file risultante è di oltre 40 Mby, quindi non c'è più molto margine. Vuoi provare a completare una conversione di uno dei volumi successivi? E poi: riesci a far qualcosa con python? Mi piacerebbe che tu potessi usare quel miniscript pdf2tif.py che ho aggiunto in dropbox, fa in un colpo solo conversione pdf->tiff, "croppaggio", "splittaggio" e creazione di nomi sensati per i file tiff, mi piacerebbe regalarlo a Ruggeri. Se mi incoraggi cercherò di modificare lo script in modo che possa essere lanciato da riga di comando; alla fine il lancio potrebbe ridursi a un'istruzione tipo python pdf2tif.py nomefilepdf da_pagina a_pagina. --Alex brollo (disc.) 07:30, 22 set 2011 (CEST)
- Ottimo anche il tuo. Che risoluzione hai usato? Vogliamo provare con Djvutoy parametri a bassa compressione aumentando la qualità al massimo e vedere fin dove si può arrivare con i limiti imposti da Commons? Direi che dopo queste prove si può stabilire uno standard e iniziare il nuovo caricamento dei files djvu. --Xavier121 01:13, 22 set 2011 (CEST)
- Python
- XnView e correlato nconvert.exe: http://www.xnview.com/
- PIL (Python Imaging Library): http://www.pythonware.com/products/pil/
Ho un dubbio su:
- ghostscript (le routine indispensabili in realtà dovrebbero essere già incorporate in XnView) --Alex brollo (disc.) 11:07, 22 set 2011 (CEST)
- Grazie, caro. Mi ci rimetto e scarico tutto l'occorrente, ti faccio un fischio in serata se ci sei. Veramente sono passato a Lion ma sul portatile sono ancora old style Windows... :) --Xavier121 15:52, 22 set 2011 (CEST)
- Ahhhh... ecco perchè ti ho sentito un po' evasivo sul software che usavi.... senza il tuo SO dei tuoi tool per maneggiamento PDF non ce ne facciamo nulla. No, io resto radicato e abbarbicato a Windows XP ficnhè posso, non perchè sia il migliore, ma perchè è così diffuso. Sì, temo che dovendo operare manualmente anche in poche fasi del processo, un libro da 500 pagine sia pesantuccio, sei libri da 500 pagine siano una tragedia. Tu vai avanti con gli esperimenti con piccole opere Opal, lascia pure Zibaldone ai miei script rudimentali ma "indifferenti al numero delle pagine da maneggiare". --Alex brollo (disc.) 16:40, 22 set 2011 (CEST)
- Guarda che non te la cavi così!!! :) Stavolta devo imparare... --Xavier121 23:20, 22 set 2011 (CEST)
- OK. :-)
- Diamoci un appuntamento serale, apriamo una chat e verifichiamo intanto che la tua installazione di python, XnView con nconvert, e PIL siano ok. Anzi: apri una finestra "tipo DOS" (metodo più veloce con Windows XP: Esegui ->cmd).
- Guarda che non te la cavi così!!! :) Stavolta devo imparare... --Xavier121 23:20, 22 set 2011 (CEST)
- Ahhhh... ecco perchè ti ho sentito un po' evasivo sul software che usavi.... senza il tuo SO dei tuoi tool per maneggiamento PDF non ce ne facciamo nulla. No, io resto radicato e abbarbicato a Windows XP ficnhè posso, non perchè sia il migliore, ma perchè è così diffuso. Sì, temo che dovendo operare manualmente anche in poche fasi del processo, un libro da 500 pagine sia pesantuccio, sei libri da 500 pagine siano una tragedia. Tu vai avanti con gli esperimenti con piccole opere Opal, lascia pure Zibaldone ai miei script rudimentali ma "indifferenti al numero delle pagine da maneggiare". --Alex brollo (disc.) 16:40, 22 set 2011 (CEST)
- nella finestra scrivi: python e dai enter. Dovrebbero comparire un paio di righe di informazioni su python e il prompr dovrevve diventare >>>. Ok? Allora python c'è. :-) Fatto
- dal prompt python scrivi: import Image. Enter. Non succede niente, dopo uno o due secondi ricompare il prompt python senzasegnali di errore? Allora le routine PIL sono a posto. Fatto
- adesso torna al prompt windows con ctrl+z. Scrivi: nconvert -help. Enter. Compare una lunghissima lista di cose aliene? Allora nconvert è ok. --Alex brollo (disc.) 23:46, 22 set 2011 (CEST) Fatto
- E adesso? :) --Xavier121 22:09, 23 set 2011 (CEST)
Altro nuovo trucco: Variabili.js
modificaUna novità che è nata nel tempo trascorso dall'ultima fase di rilettura è la possibilità di creare un "oggetto dati opera" e un elemento dell'oggetto è il dato regex, che permette di "personalizzare" il gadget postOCR aggiungendo delle sostituzioni specifiche per l'opera. Appena ricomincio a editare, terrò sveglia l'attenzione per eventuali sostituzioni ripetitive (a memoria, Diz. ->dizionario; Gloss. ->Glossario; v. -> verso) che vanno elencate e integrate nei datiOpera. --Alex brollo (disc.) 23:21, 20 set 2011 (CEST)
Richiesta parere: feedback please!
modificaRiprendo un avviso che rischia di "perdersi nel rumore": Ho scritto qualche giorno fa:
«Mi sono "lanciato", ho caricato in 4 sandbox alcuni blocchi di 100 pagine consecutive Utente:Alex brollo/Zibaldone 1600-1699,Utente:Alex brollo/Zibaldone 1700-1799, Utente:Alex brollo/Zibaldone 1800-1899, Utente:Alex brollo/Zibaldone 4000-4099 il testo acchiappato da LiberLiber e ho provato a editare pagine che non avevano il greco. Funziona molto bene. Se ci provate, copiaincollate direttamente da visualizzazione: non serve copiare le singole parole, si può copiaincollare l'intero paragrafo che le contiene. Ripetendo il procedimento per l'intera opera, tutto il "vecchio zibaldone" potrebbe essere salvato in una cinquantina di paginoni. --Alex brollo (disc.) 05:51, 19 set 2011 (CEST)»
|
Che ne dite? Lancio il bot e carico, a pezzi di 100 pagine, l'intero testo? E se lo faccio, dove pensate che sia opportuno mettere questi testi "di servizio", escluso il ns0: forse nel nsWikisource? --Alex brollo (disc.) 15:52, 21 set 2011 (CEST)
- Non ne ho idea, forse in Discussione Pensieri di varia filosofia ecc.? --Xavier121 16:12, 21 set 2011 (CEST)
- Intanto che attendo qualche suggerimento, continuo a caricare in sottopagine di Utente:Alex brollo. Poi non si sta molto a spostare. Io sto per iniziare la rilettura in modo sistematico (obiettivo: SAL 75%) e i testi edizioni Flora con il greco "a posto" mi saranno utili. Creo i 10 blocchi fino a 1000. --Alex brollo (disc.) 20:23, 21 set 2011 (CEST)
- Come si vede dai "link rossi", le pagine riassuntive (a blocchi di cento) sono state spostate in Progetto:Letteratura/Zibaldone/Zibaldone e sue sottopagine (nella pagina indicata c'è l'elenco dei link). --Alex brollo (disc.) 09:07, 30 set 2011 (CEST)
- Intanto che attendo qualche suggerimento, continuo a caricare in sottopagine di Utente:Alex brollo. Poi non si sta molto a spostare. Io sto per iniziare la rilettura in modo sistematico (obiettivo: SAL 75%) e i testi edizioni Flora con il greco "a posto" mi saranno utili. Creo i 10 blocchi fino a 1000. --Alex brollo (disc.) 20:23, 21 set 2011 (CEST)
Strategia rilettura Zibaldone
modificaVi propongo il mio (personale) programma di lavoro per Zibaldone.
- Completare correzione (fino a SAL 75%) di Indice:Zibaldone di pensieri I.djvu. Nel farlo, riprenderò mano con le convenzioni e i vari "exoterismi" che sono stati necessari per impostare lo scheletro di questo lavoro veramente complicato, e ammetto che alcuni dettagli al momento non mi sono del tutto chiari. Finita la rilettura del primo volume, dovrei avere le idee chiare. Chi vuol dare una mano è ovviamente benvenuto; ma io comunque procederò in modo regolare nella sequenza delle pagine "sotto il SAL 75%".
- Ottima idea. Nel passaggio al 75% (o al 100%) stiamo anche attenti al fatto che i link interni (i ZbPagina) spesso sono attaccati alla parola precedente, e ci vorrebbe uno spazio (io lo metto prima del primo section). --Aubrey McFato 10:06, 23 set 2011 (CEST)
- Completata la prima correzione, scriverò tutto quello che avrò rinfrescato con la pratica su una/qualche pagina di aiuto in modo che i rilettori non siano costretti a un faticosissimo "reverse engineering" per capirci qualcosa. Con queste pagine di aiuto, suppongo che la rilettura diventi meno ostica e spiacevole, e che qualcuno in più si azzardi anche a lavorare nel difficile passaggio SAL 25%/50% -> SAL 75%. Nel frattempo terrò gli occhi aperti per vedere se si può infilare qualche correzione automatica specifica nei gadget di rilettura.
- A questo punto (primo indice SAL 75%, pagine di aiuto fatte) si potrà forse proporre Zibaldone come "rilettura del mese aggiuntiva". Nel frattempo i più ardimentosi lavoreranno per portare a SAL 75% il volume successivo.
Che ve ne pare? Io ho già iniziato ad attuare il punto 1. --Alex brollo (disc.) 21:58, 22 set 2011 (CEST)
- Ottima idea. Mi pare che la formattazione e il layout delle pagine sia veramente fatto bene, con qualche piccola modifica (e magari una passata di bot) diveta perfetto. Finito il primo, anche io lo metterei in rilettura, facciam il botto. Aubrey McFato 10:06, 23 set 2011 (CEST)
- Grazie Aubrey. Una raccomandazione: annotati in modo paranoide le modifiche che suggerisci, un'espressione come qualche piccola modifica mi provoca un attacco d'ansia.. ;-) --Alex brollo (disc.) 11:15, 23 set 2011 (CEST)
- in realtà, una semplicissima, se è come penso. Lo ZbLink è sempre un link in grassetto? Si risolve in due secondi netti, se è così. Per il resto, se hai messo i grassetti in tutte le rigaintestazione, siamo a cavallo. Aubrey McFato 11:39, 23 set 2011 (CEST)
- Grazie Aubrey. Una raccomandazione: annotati in modo paranoide le modifiche che suggerisci, un'espressione come qualche piccola modifica mi provoca un attacco d'ansia.. ;-) --Alex brollo (disc.) 11:15, 23 set 2011 (CEST)
- Mi pare di aver capito, ho ritoccato il Template:ZbLink e i grassetti grassettano. Nel frattempo, caricata la nuova varsione a migliore definizione del file djvu per Indice:Zibaldone di pensieri II.djvu. Non manca molto per attaccare il secondo volume! --Alex brollo (disc.) 01:47, 26 set 2011 (CEST)
- Hai capito, solo che adesso bisogna un po' ricontrollare le altre pagine, quelle in cui il vecchio ZbLink andava bene e visualizzava lo spazio giusto, più quelle in cui io avevo aggiunto uno spazio prima del section. Ma sono cose minori e non ci perderei il sonno. Possiamo lasciarle al rilettore. Aubrey McFato 15:34, 26 set 2011 (CEST)
Il punto al 30 settembre 2001
modifica- Indice:Zibaldone di pensieri I.djvu è al SAL 75%.
- Sono stati ricaricati con migliore risoluzione i due file File:Zibaldone di pensieri II.djvu e File:Zibaldone di pensieri III.djvu, è pronto per il caricamento (manca solo l'allineamento) File:Zibaldone di pensieri IV.djvu
- Non è stato ancora aggiornata "come si deve" la variabile DatiOpera per le sostituzioni di errori ricorrenti via funzione postOCR. Chi rilegge potrebbe annotarsele? Io ho trovato:
- "in somma" ->"insomma";
- voci varie del verbo "Proccurare" da sostituire con "Procurare";
- "Religione"->"religione", "Cristianesimo"->"cristianesimo" ed altre parole con iniziale maiuscola da convertire in minuscola (cosa delicata perchè non costante).
- la cancellazione della pagine di Zibaldone è quasi completata (siamo oltre la pagina 4000). --Alex brollo (disc.) 09:00, 30 set 2011 (CEST)
Problemi aperti:
- i link interni puntano tutti su ns0, per semplicità, anche se vengono attivati su nsPagina; questo viola le nostre convenzioni (che prevedono che i link interni da nsPagina puntino su nsPagina, e i link transclusi in ns0 puntino in ns0). Mi riservo di pensarci. Per i link sparsi nel testo non ci sono problemi; ci sono invece problemi per le pagine dell'indice, dove occorrerebbe usare una marea di templates e potremmo "sforare" il limite di 500 templates/pagina. Forse si potrebbe evitare l'uso dei template con un meccanismo js ma: è giusto prevedere obbligatoriamente l'uso di js per chi consulta le opere wikisource? --Alex brollo (disc.) 09:05, 30 set 2011 (CEST)
Bibbia, grande maestra...
modificaSe sono riuscito a impostare un sistema per gestire il terribile problema di linkare i singoli versetti di Bibbia (sono circa 36000, a occhio) nelle pagine Pagina, senza trucchi (transclusione, js) e senza inganni, ma con agili template, perchè non dovrei riuscire a linkare i singoli pensieri di Zibaldone nelle pagine Pagina, visto che sono solo circa 10000 :-) ?--Alex brollo (disc.) 01:49, 12 ott 2011 (CEST)
Problema nell'indicizzazione
modificaCome ho detto nel messaggio precedente, la partecipazione al Progetto:Bibbia ha permesso di risolvere quello che sembrava insolubile: trasformare i link rappresentati con il template ZbLink in link "a due vie", capaci di collegare la pagina Pagina quando stanno nel nsPagina, e la pagina ns0 quando sono transclusi in ns0.
Mi spiego meglio con un esempio. Tenete conto che il template ZbLink può puntare sia a una pagina originale del manoscritto, che a uno specifico capoverso contenuto nella pagina. L'autore ha usato una notazione estremamente precisa ed accurata per discinguere i due casi. Aprite la pagina Pagina:Zibaldone di pensieri I.djvu/32 in un'altra scheda/finestra senza "mollare" questa, e seguitemi.
La voce "Caccia" è linkata a una pagina rappresentata come 2204,1. I numeri in carattere grassetto rappresentano la pagina originale del manoscritto; i numeri piccoli il numero del capoverso all'interno della pagina. I due numeri, 2204 e 1, vengono passati come parametri 1 e 2 a ZbLink con il codice: {{ZbLink|2204|1}}. Ora, siccome in ns0 il nome della pagina è proprio il numero del manoscritto, è facilissimo far puntare il template a Pensieri di varia filosofia e di bella letteratura/2204; e se nella pagina c'è l'ancora al capoverso, di valore #2204/1, è facile anche puntare il link esattamente al capoverso: Pensieri di varia filosofia e di bella letteratura/2204#2204/1. Ci siamo fin qui?
Il problema serio era: ma in che volume, e in che pagina del volume, dovrebbe puntare {{ZbLink|2204|1}} quando è in nsPagina? Bene, adesso il template ZbLink sa in quale volume e in quale pagina c'è il capoverso 1 della pagina 2204. Sta nella pagina 177 del volume IV, e là il link vi porterà se lo pigiate da Pagina:Zibaldone di pensieri I.djvu/32. Sono circa due anni che penso a come farlo senza mandare i server in palla, e adesso ci sono riuscito. :-)
Ci siete fin qui? Una cibalgina può aiutare? Adesso viene il difficile.
Problema: perchè in Pagina:Zibaldone di pensieri I.djvu/32 alcuni link sono rossi? Perchè 3426,1 punta nel vuoto a una "pagina non esistente"?
Andiamo a Pensieri di varia filosofia e di bella letteratura/3426 e vediamo che viene transclusa da Pagina:Zibaldone di pensieri V.djvu/387, seguiamo il linketto verso la pagina e ci entriamo. Cosa troviamo? Troviamo che la pagina 3426 ha sì un capoverso, uno solo, ma che il capoverso, nella pagina a stampa, non è segnato con un asterisco; non essendo segnato con un asterisco, non è stata applicato (correttamente, fidandosi del curatore dell'opera Giosuè) il template ZbPensiero; non essendo stato applicato il template, l'ancora non esiste, Alebot non l'ha trovato, e non ha registrato nulla che si riferisca al capoverso 1 della pagina 3426. Risultato: link rosso. Eppure l'intenzione dell'autore era chiarissima: 3426,1 è collegato alla voce analitica Canto e suono, e il capoverso 1 della pagina 3426 parla proprio di canti e suoni. Evidentemente, pochi avevano seguito con precisione quel riferimento. Ci voleva un bot per scovare il problema.
Edo, sei arrivato fin qui? Adesso arriva il problema proofread. Aggiungiamo un template ZbPensiero con asterisco visibile, anche se nella stampa non c'è traccia dell'asterisco, correggendo l'opera con un "contributo originale di wikisource"? Costruisco una variante di ZbPensiero che semini un'ancora, ma invisibile? Che fo? Certo, quei link rossi devono sparire. :-( --Alex brollo (disc.) 00:46, 13 ott 2011 (CEST)
- I miei 2 cents: nascondiamo ZbPensiero col pt, senza che ti complichi la vita con possibili varianti del template? --Xavier121 03:11, 13 ott 2011 (CEST)
- Ma un parametro |noast che dica al template di non mostrare l'asterisco...? --151.75.24.231 09:07, 13 ott 2011 (CEST)
- @Xavier: no, aimè l'ancora dev'esserci anche in ns0, non posso eliminarla del tutto con Pt. @anonimo: sì. penso anch'io che questa sia la soluzione; ma qualcosa deve esserci a cui "attaccare" l'ancora del template § che sta dentro ZbLink. Magari uno spazio; aspettiamo anche cosa dice il capo ;-) . --Alex brollo (disc.) 10:43, 13 ott 2011 (CEST)
- Meccanismo noast (passato come secondo parametro) implementato e funzionante, grazie anonimo! --Alex brollo (disc.) 12:09, 13 ott 2011 (CEST)
- @Xavier: no, aimè l'ancora dev'esserci anche in ns0, non posso eliminarla del tutto con Pt. @anonimo: sì. penso anch'io che questa sia la soluzione; ma qualcosa deve esserci a cui "attaccare" l'ancora del template § che sta dentro ZbLink. Magari uno spazio; aspettiamo anche cosa dice il capo ;-) . --Alex brollo (disc.) 10:43, 13 ott 2011 (CEST)
- Ma un parametro |noast che dica al template di non mostrare l'asterisco...? --151.75.24.231 09:07, 13 ott 2011 (CEST)
Silenzio assenso
modificaSe nessuno ha nulla da obiettare, comincerò ad aggiungere "capoversi invisibili", con il parametro noast, bluificando i link rossi degli indici. --Alex brollo (disc.) 15:08, 14 ott 2011 (CEST)
- Se vuoi, mentre procedo con la rilettura degli indici, posso aggiungere i "capoversi invisibili", spiegami solo che codice usare :) --Xavier121 10:44, 15 ott 2011 (CEST)
- Voglio, voglio...
- In una pagina indice trovi un link rosso. In un'altra scheda tieni aperto Pensieri di varia filosofia e di bella letteratura. Vai nella pagina di Pensieri e individui il capoverso non "marcato"; segui il link alla pagina Pagina, e aggiungi al posto giusto il template ZbPensiero con un terzo parametro noast, oppure correggi il ZbPensiero errato.
- Esempio: in pagina Pagina:Zibaldone di pensieri I.djvu/28, il primo link rosso è 666.1; vado in pagina Pensieri di varia filosofia e di bella letteratura/666, mi rimanda a Pagina:Zibaldone di pensieri II.djvu/134, e vedo l'errore: il ZbPensiero ha il codice {{ZbPensiero|665/1}} ed è sbagliato, va corretto in {{ZbPensiero|666/1}} perchè cade in pag. 666.
- IMPORTANTISSIMO: registra da qualche parte l'inserimento o la correzione (in questo caso, la versione sbagliata e quella giusta) associata al numero volume + numero di pagina Pagina, perchè fatta la correzione occorre correggere anche il terribile template indicizzatore (in questo caso, Template:ZbLink/1), fallo tu stesso se te la senti, ma bisogna essere cauti... ;-)
- Nell'esempio, entro in Template:ZbLink/1, trovo il codice |665/1=II.djvu/134, correggo 665 in 666 ed è fatta. --Alex brollo (disc.) 12:00, 15 ott 2011 (CEST)
- Ho provato qualche modifca nelle paginePagina e nel ZbLink/1, ma i link restano rossi: il tutto deve poi essere rifrullato da Alebot? --Xavier121 01:11, 16 ott 2011 (CEST)
- I due dati andavano in altre sottopagine ZbLink, rispettivamente ZbLink/6 e ZbLink/7. Ogni sottopagina ZbLink contiene i dati di 500 pagine: ZbLink/0 fino a 499, ZbLink/1 fino a 999... eccetera. "Comanda" il parametro 1 del tl|ZbLin; la formula che "sceglie" la sottopagina è #expr:({{{1|0}}}-({{{1|0}}} mod 500))/500; per 1234, essendo 234 il resto di 1234/500, il risultato è (1234-234)/500=1000/500=2 e quindi va in ZbLink/2. Laborioso per un umano, istantaneo per un computer... --Alex brollo (disc.) 06:00, 16 ott 2011 (CEST)
- Ok, grazie Alex, mi ci metto con più attenzione. --Xavier121 22:17, 16 ott 2011 (CEST)
- I due dati andavano in altre sottopagine ZbLink, rispettivamente ZbLink/6 e ZbLink/7. Ogni sottopagina ZbLink contiene i dati di 500 pagine: ZbLink/0 fino a 499, ZbLink/1 fino a 999... eccetera. "Comanda" il parametro 1 del tl|ZbLin; la formula che "sceglie" la sottopagina è #expr:({{{1|0}}}-({{{1|0}}} mod 500))/500; per 1234, essendo 234 il resto di 1234/500, il risultato è (1234-234)/500=1000/500=2 e quindi va in ZbLink/2. Laborioso per un umano, istantaneo per un computer... --Alex brollo (disc.) 06:00, 16 ott 2011 (CEST)
- Ho provato qualche modifca nelle paginePagina e nel ZbLink/1, ma i link restano rossi: il tutto deve poi essere rifrullato da Alebot? --Xavier121 01:11, 16 ott 2011 (CEST)
Annotazione su ZbLink
modificaAttenzione: al momento l'orribile ambaradan di cui sopra funziona per i link ai capoversi, ma non per i link alle pagine linkate senza capoverso. Devo fare un'altra "passata di bot", abbiate pazienza! --Alex brollo (disc.) 06:22, 16 ott 2011 (CEST)
- Fatto Adesso ZbLink si comporta correttamente (SE&O) anche nel caso di collegamento con una pagina, e non solo con pagina+capoverso. Sempre grazie a Bibbia.... :-) --Alex brollo (disc.) 11:45, 19 ott 2011 (CEST)
- Visto che c'ero, ho associato anche a ZbPagina un'ancorella § così seguendo il link da ZbLink compare l'azzurrino anche sugli identificatori delle pagine in nsPagina. --Alex brollo (disc.) 12:21, 20 ott 2011 (CEST)
Rime di Gabriello Chiabrera
modificaInnanzitutto chiedo scusa se ho sbagliato discussione ma, avendo trovato l'ispirazione dal Zibaldone credo che questa sia quella più adatta.
Rileggendo il Zibaldone, ho letto che faceva riferimento ad una poesia di Chiabrera e mi sono chiesto se su source c'era, così da linkarne il contenuto, ma invece non c'era. Ho cercato un po' in giro ed ho trovato questo Volume contenente le canzoni di Chiabrera. Non dico nulla, so che il lavoro è troppo, io stesso non riuscirei a lavorarci in questo momento. Ma volevo scriverlo da qualche parte, che prima o poi non si sa mai. Samuele 20:30, 19 ott 2011 (CEST)
- Le segnalazioni di opere citate da opere già su source sono sempre utili. Un suggerimento: verifica sistematicamente se l'opera è già caricata su IA. Nel caso di Chiabrera, ce ne sono diverse: qui.
- Caso vuole che ho giusto bisogno di un'opera "vergine" per sistemare i tool di "importazione intelligente dai djvu" che ho cominciato a dissodare per Bibbia. E mi interessava proprio un'opera mista prosa/poesie. Ci dò un occhio.... --Alex brollo (disc.) 12:17, 20 ott 2011 (CEST)
- Sia Io che Edo (credo), siamo in possesso dell'edizione Binni-Ghidetti dello Zibaldone e del suo prezioso indice analitico (più dettagliato per riferimenti a capoversi di poesie), quindi non sarà mai difficile fare una ricerca per linkare a tutta la nostra biblioteca. Già adesso siamo in grado di fare ricerche mirate e di collegare testi; è una questione di tempo. La lacuna su Chiabrera sarebbe grave (abbiamo effettivamente poco), ma rapportato allo stato in cui versano i maggiori, e viste le forze in campo, la situazione è più che accettabile. --Xavier121 12:32, 20 ott 2011 (CEST)
- Sì, a pensarci bene un'opera maggiore, dalla struttura pagina realmente complessa, su cui sperimentare trucchi djvu, potrebbe essere la Divina Commedia. Sistemo gli attrezzi, e poi ci provo. --Alex brollo (disc.) 16:49, 20 ott 2011 (CEST)
- Carissimi, io a Chiabrera (ma anche a Metastasio, Zeno, Calzabigi, Maffei ecc.) e ci pensavo da mooolto tempo, se non altro perché la permanenza su Source mi sta risvegliando la voglia di togliere dall'oblio tanti di quei poveri autori che prima la critica illuminista, poi quella romantica poi quella crociana poi quella strutturalista hanno relegato o ai margini o proprio al di fuori del panorama letterario.
- L'unica questione che mi affligge (oltre alla cronica mancanza di tempo) è la ricerca di edizioni il più complete o autorevoli possibile, o al limite le prime edizioni complete. Questo però richiede un discreto lavoro offline che magari porta a localizzare un'edizione su googleBooks in cui su tre volume se ne trova uno con metà pagine illeggibili. Spero di aver chiarito il problema: a volte benedico alcune scelte bold dettate dalla serena incoscienza proprio perché spezzano la mia irritante immobilità. - εΔω 16:58, 20 ott 2011 (CEST)
- Sì, a pensarci bene un'opera maggiore, dalla struttura pagina realmente complessa, su cui sperimentare trucchi djvu, potrebbe essere la Divina Commedia. Sistemo gli attrezzi, e poi ci provo. --Alex brollo (disc.) 16:49, 20 ott 2011 (CEST)
- Sia Io che Edo (credo), siamo in possesso dell'edizione Binni-Ghidetti dello Zibaldone e del suo prezioso indice analitico (più dettagliato per riferimenti a capoversi di poesie), quindi non sarà mai difficile fare una ricerca per linkare a tutta la nostra biblioteca. Già adesso siamo in grado di fare ricerche mirate e di collegare testi; è una questione di tempo. La lacuna su Chiabrera sarebbe grave (abbiamo effettivamente poco), ma rapportato allo stato in cui versano i maggiori, e viste le forze in campo, la situazione è più che accettabile. --Xavier121 12:32, 20 ott 2011 (CEST)
- Niente da fare con Divina Commedia, la nostra versione di Buti non ha text layer. Mi tocca ripiegare su Chiabrera. ;-) Alex brollo (disc.) 17:39, 20 ott 2011 (CEST)
- Se vuoi posso caricarti su IA l'ottimo commento di Scartazzini... --Xavier121 22:39, 20 ott 2011 (CEST)
- Per ora la cosa è astratta, un testo vale l'altro. ;-) Ma chiudo l'OT: annoterò i passi in avanti e i passi indietro in una sottopagina di Progetto:Trascrizioni/Strato testo dei file djvu. --Alex brollo (disc.) 12:59, 21 ott 2011 (CEST)
- Se vuoi posso caricarti su IA l'ottimo commento di Scartazzini... --Xavier121 22:39, 20 ott 2011 (CEST)
Segnalazione link a capoverso nel testo
modificaHo preso atto che allì'interno del testo i link ai capoversi hanno una "forma" diversa di quelli degli indici. Es. "Vedi pag. 345, primo capoverso" oppure "pag. 345, ultimo". Si risolvono con ZbLink e parametro visualizza; nel primo caso, "Vedi pag. {{ZbLink|345|1|visualizza='''345''', primo capoverso}}" che viene reso "Vedi pag. 345, primo capoverso", nel secondo tocca andare a verificare che numero ha l'ultimo capoverso. :-(. --Alex brollo (disc.) 09:03, 21 ott 2011 (CEST)
Il punto: dicembre 2012
modificaMi sono dedicato con tutte le energie a portare le pagine di Zibaldone (tutti i volumi, dal III al VII) a SAL 75%. Ieri sono arrivato all'ultima pagina dell'ultimo volume.
Non nascondo che si tratta di un SAL 75% un po' limitato; infatti, nel furioso ripasso, mi sono concentrato su link, autoreCitato, rigaIntestazione, note e altri "esoterismi", trascurando fastidiose, piccole differenze nel testo (sostanzialmente la punteggiatura e alcune abbreviazioni). Per quanto riguarda la versione ns0, ho fortunatamente trovato un trucco per aggiungere i moltissimi tl|Sezione note mancanti e ho sistemato alcuni errori di transclusione; ovviamente verrà fuori qualche altro errore, segnalatemeli a vista.
Ho anche ristrutturato le pagine indice in ns0, in modo che non venissero mai superati i limiti nel numero di template per pagina, e quindi ogni link alle pagine potesse usare il tl|Testo. In pratica, per le annate con numerose pagine, le ho suddivise in ulteriori sottopagine a "blocchi" di 200 pagine per sottopagina.
Restano comunque vari problemi, che cercherò di affrontare pian piano.
- Indice Le Monnier. Disgraziatamente, l'interessantissimo indice alla fine del VII volume punta sul volume/numero di pagina del volume. Purtroppo, ogni pagina del volume corrisponde a una (raramente), a due o a tre pagine originali e quindi non è facile trasformare l'indicazione stampata in un link a una specifica pagina ns0. Proverò a vedere se, costruita un'immagine "virtuale" di tutte le pagine, c'è modo di risolvere il problema.
- Errori nella numerazione dei Pensieri. Tutti gli indici originali leopardiani fanno riferimento a pagina + "pensiero", e mi illudevo che ogni "pensiero" fosse stato correttamente evidenziato con il famoso asterisco nella stampa. Speravo quindi che, avendo posta molta attenzione nella numerazione progressiva dei pensieri/asterischi per la costruzione di ancore, alla fine tutti i link degli indici originali leopardiani puntassero nel punto giusto e fossero quindi "blu". Aimè, così non è. Molti link sono rossi; in parte per errori miei, ma moltissimi per errori nella versione stampata. Anche qui ho cominciato a pensare a "strategie informatiche" ma il problema è tutt'altro che semplice.
- Testo greco. La risoluzione delle immagini non è sufficiente alla decodifica del greco politonico. I testi greci sono stati estratti con fatica dalla versione LiberLiber, e poi sottoposti a conversione Athenian->Unicode; nel volume VI e VII ce ne sono un'infinità, andrebbero fatti dei controlli campionari.
- AutoreCitato. La politica di applicazione è stata "ondeggiante", alla fine ho usato una "marcatura intensiva", ma nei precedenti volumi la marcatura è stata limitata; inoltre c'è il problema filosofico: "Crusca", inteso ovviamente come vocabolario, va considerato un testoCitato o un autore? Idem per "Alberti". --Alex brollo (disc.) 11:40, 6 dic 2012 (CET)
- Bella domanda. Lui intende un vocabolario preciso, che però nel tempo avrà assunto delle modifiche. Direi che se abbiamo la sua edizione di riferimento è TestoCitato, altrimenti Autore. Per l'Alberti non capisco. Aubrey McFato 10:02, 7 dic 2012 (CET)
- Anche "Alberti" è il nome dell'autore di alcuni dizionari, e quindi Leopardi indicando "Alberti" come "la Crusca" si riferisce al contenuto delle loro opere. Tuttavia esiste una convenzione tipografica per cui quando viene citato il nome di un'opera è usato il corsivo, mentre quando viene citato un autore si usa (in base a qualche criterio che mi sfugge) il carattere normale oppure il maiuscoletto. "Crusca" e "Alberti" non compaiono mai in corsivo, quindi ho desunto che Leopardi citasse indirettamente l'opera citando il suo autore: conclusione, ho usato AutoreCitato. Vi sono inoltre due opere (il lessico e i glossari) citati sempre senza altri riferimenti; ovviamente li ho ignorati. --Alex brollo (disc.) 13:51, 11 dic 2012 (CET)
- Bella domanda. Lui intende un vocabolario preciso, che però nel tempo avrà assunto delle modifiche. Direi che se abbiamo la sua edizione di riferimento è TestoCitato, altrimenti Autore. Per l'Alberti non capisco. Aubrey McFato 10:02, 7 dic 2012 (CET)
- Dal dump di itwikisource mi son fatto due copie, una di tutte le pagine Pagina, l'altra di tutte le pagine ns0. Questo dovrebbe consentirmi rapide verifiche di tutta una serie di possibili errori. Penso che scaricherò anche una copia dell'html di LiberLiber e cercherò di analizzarlo a fondo. Per un po' sarò occupato offline.... fatemi un fischio se avete bisogno di qualcos'altro. --Alex brollo (disc.) 01:11, 7 dic 2012 (CET)
Passo 1 : pagine
modifica- costruire routine per allineare la mia copia a eventuali modifiche in base ai controlli elencati sotto Fatto
- automatizzare l'allineamento in base all'analisi di UltimeModifiche.
- costruire due funzioni che restituiscono il numero pagina di Le Monnier dato il numero pagina djvu e inverso. Fatto
- verificare che in RigaIntestazione non vi siano campi numero pagina originale Leopardi vuote e correggere Fatto
- aggiungere al dizionario (chiave: volume, pagina djvu) un campo pagina libro e pagine leopardi corrispondenti (calcolate con la funzione 2) e un secondo campo con la lista delle pagine leopardiane contenute (estratte da RigaIntestazione) Fatto
- estrarre tutti i link dalle pagine Indice Le Monnier (pag. 474-596 del vol. VII; Fatto
Passo 2 : autori citati
modifica- creare, dall'Indice di le Monnier, un elenco completo delle voci; Fatto
- selezionare dall'elenco gli autori citati;
- appaiare gli autori citati con la migliore fonte (nsAutore, it.wikipedia, altre wikipedie, Treccani, altro);
Passo 3 : pensieri
modifica- verificare che le ancore ai Pensieri in ogni pagina siano coerenti con i valori delle pagine leopardiane contenute nella pagina
- verificare la numerazione corretta dei pensieri
Normalizzazioni sì o no?
modificaCiao ragazzi, non mi linciate se si tratta di discussioni che avete già fatto e chiuso. Oggi per telefono un amico che si occupa di Leopardi mi segnalava che consultando la trascrizione, c'erano delle discrepanze con il testo scannerizzato, in particolare delle normalizzazioni delle forme (ha notato accenti gravi che diventano acuti, ha notato "appoco appoco" che diventa "a poco a poco". Siccome manco da troppo tempo, e ho perso un po' la mano (e non ho mai partecipato a trascrizione/rilettura dello Zibaldone), vi giro l'osservazione che ha fatto il mio amico: ma la normalizzazione è stata fatta in base a criteri? Potreste linkare la linea guida che sono troppo pigro per mettermela a cercare da solo?? Prometto che torno attivo. --Demart81 (Comunicazioni, insulti ecc.) 21:18, 23 gen 2013 (CET)
- Nessun linciaggio, figuriamoci. Ci sono discrepanze con il testo scannerizzato perché al file djvu della versione di Carducci è stata associata la trascrizione in formato testo di LiberLiber, che riporta l'edizione Binni-Ghidetti, una versione moderna che ha applicato molte normalizzazioni assai diverse o ignorate da Carducci. Il grosso sforzo attualmente è proprio quello di uniformare la trascrizione al djvu, dato che Carducci ha usato le sue convenzioni particolari per accenti acuti, preposizioni, e soprattutto abbreviazioni. Insomma vale la regola generale: nel dubbio si riproduce quello che compare nell'immagine della pagina.
- Semmai la bella notizia è un'altra: grazie al lavorone di Alex Brollo tutta la parte di template e collegamenti che rendono pienamente navigabile e ipertestuale tale testo è già stata guardata e può essere tranquillamente ignorata. - εΔω 22:11, 23 gen 2013 (CET)
- Ah! Quindi la rilettura è solo da farsi a testo! Beh, la notizia è di quelle che sollevano. Intanto ho notato che per alcuni accenti la trascrizione è fedele, quindi sì, è intuibile che si tratta di errori non imputabili a chi ha caricato il testo, d'altra parte sarebbe assurdo e improbo chiedere di caricare un testo di quelle dimensioni a manina. --Demart81 (Comunicazioni, insulti ecc.) 22:16, 23 gen 2013 (CET)
Sans Serif sì o no?
modificaMi trovo a giocherellare con le pagine con testo greco non controllato e c'è pure lo Zibaldone. Noto che i numeri di pagina sono composti nella versione cartacea in un carattere sans serif. Che ne dite se lo cambiamo in fase di rilettura anche nella nostra edizione? Oppure è una fatica di Sisifo? --Demart81 (Comunicazioni, insulti ecc.) 17:52, 14 ago 2015 (CEST)
- @Demart81 Mi pare che ci sia sotto un template.... in questo caso sarebbe assai semplice. Dò una guardata. --Alex brollo (disc.) 19:10, 16 ago 2015 (CEST)
- @Demart81 I numeri compaiono in header e nei link alla pagina ns0; in altri termini, non vengono mai transclusi. IMHO fatica sprecata. --Alex brollo (disc.) 20:21, 16 ago 2015 (CEST)
- Ok, allora rileggo e metto il SAL. --Demart81 (Comunicazioni, insulti ecc.) 22:14, 16 ago 2015 (CEST)