Il sussidiario

I file djvu

Qui da noi, in Wikisource, uno dei formati più utilizzati per i file dei testi è l'ormai famoso DjVu (si pronuncia "déjà vu").

È un formato appositamente sviluppato per per l'editoria, la cui caratteristica più simpatica (e utile!) è la grande possibilità di compressione delle immagini di testo, senza perdita di qualità. Quanto di meglio per le necessità che abbiamo di presentare testi leggibili senza richiedere apparati ultrapotenti.

Le opere che aspirano ad avere la stellina di qualità delle Edizioni Wikisource (Fonte indicata, testo completo, formattato correttamente, riletto usando la fonte cartacea) hanno bisogno di riportare a fronte l'immagine della fonte cartacea. Per questa ragione l'uso del formato djvu è diventato molto importante e largamente diffuso.

Tools per lavorare i file djvu

DjView

Un visualizzatore per i file .djvu è reperibile a questo indirizzo: http://sourceforge.net/projects/djvu/files/OldFiles/
Il visualizzatore si chiama DjView.exe e può essere eseguito semplicemente facendo un doppio click su di esso.
Scaricare il file ed eseguirlo. Verrà creata una cartella chiamata DjVuLibre. Tranquilli: l'installazione è una pura "scompattazione", non ci sono "rovistamenti" del sistema.
Dentro la cartella DjVuLibre ci sono le "routine" per modificare i file. Si tratta di file .exe che sono programmi che possono essere chiamati individualmente, attraverso una console di sistema (una finestra con il vecchio prompt C:>) oppure attraverso un file .bat oppure da una chiamata scritta in un programma qualsiasi.
Per non dover sistemare i parametri di sistema, si suggerisce di scaricare i file .djvu su cui si deve operare direttamente dentro la cartella djvuLibre, fianco a fianco dei file .exe

DjVuToy

Un tool - tradotto dal cinese in un pidgin english ma abbastanza intuitivo - è questo:

http://www.comicer.com/stronghorse/software/exe/DjVuToy_eng.zip

È stata creata - Eccola QUI - una sintetica guida per le principali funzioni. Il tool è WIP quindi alcune funzioni possono cambiare. In genere, però, il tool ha raggiunta una certa stabilità. L'autore, quando cambia le versioni le inserisce - di solito- nella stessa directory e con lo stesso nomefile quindi l'ultima versione è quella che si trova all'indirizzo sopra segnalato. Il programma è molto utile per chi non volesse usare le linee di comando stile DOS ed estremamente veloce per generare i file djvu dalle immagini, senza passare per il server any2djvu.

Importare testi da Internet Archive

Cercare su Internet Archive http://www.archive.org/ il testo desiderato nella sezione "Text", eventualmente specificando "Language" italian
Sfogliare su IA con il loro visualizzatore e verificare che la scansione sia almeno buona/discreta.
Scaricare sul proprio pc il file djvu (seguendo il link All files:HTTP), rinominarlo con nome significativo (es. Malombra.djvu) e dargli una buona occhiata con un visualizzatore djvu per:
1. vedere se ci sono le pagine warning di google e pagine bianche prima e dopo il testo voluto. Queste -in un secondo tempo- andranno rimosse mentre non si rimuovono eventuali pagine bianche all'interno del testo. (Ciò per mantenere la "battuta" delle pagine come specificato di seguito).
2. verificare grossolanamente che le pagine ci siano tutte (per esempio si può saltare ogni 50-100 pagine verificando che i numeri di pagina djvu vadano di pari passo con i numeri di pagina del libro: es. se alla pagina djvu 15 c'è la pagina 1, mi aspetto che alla pagina djvu 65 ci sia la pagina 51, ecc). Se qualcosa non corrisponde, cercare le pagine mancanti/duplicate.

Eliminare pagine dal file djvu

(Usato x di là)

Spesso dai file djvu importati è necessario eliminare alcune pagine ridondanti, ad esempio quelle warning di google. Si può operare in una di queste modalità:

Usare il programma djvm.exe, eseguendolo direttamente dalla riga comandi in questo modo:

aprire la riga comandi (da Start / Esegui / Apri scrivere "cmd") e posizionarsi nella cartella dove si trovano sia il file djvm.exe che il file .djvu dal quale dobbiamo rimuovere la pagina. Per posizionarsi nella cartella giusta bisogna usare pazientemente il comando cd (cd nomecartella porta alla sotto-cartella indicata - cd.. sale di una cartella - cd\ porta alla root)
digitare il comando djvm -d nomefile.djvu 1 che significa: "esegui djvm in modalità delete sul file nomefile.djvu eliminando la pagina 1" - Attenzione, dopo che si esegue il comando viene eliminata la pagina indicata e, di conseguenza, le pagine seguenti saranno tutti ricalcolate. Quindi, prima di eseguire nuovamente il comando per un'altra pagina aprire il file .djvu e verificare quale sia effettivamente il numero di pagina da cancellare.

Usare DjvuWiew, che permette di eliminare tutto in un colpo o una alla volta le varie pagine di un djvu ma solo quelle prima e/o dopo il testo!!. Purtroppo questo metodo non permette di togliere le pagine (es. bianche) "dentro" il testo.

Aprire il file, controllando da quale pagina inizia il testo e quale sia l'ultima che si vuol tenere
Andare in "File/Salva come" -> si apre la finestrella
Cliccare su "Pagine da-a"
1. per "da" inserire la prima pagina che si vuol tenere
2. per "a" inserire l' ultima pagina che si vuol tenere
Decidere dove salvare scegliendo la cartella (magari cambiando il nome del file per sicurezza).
Premere "Salva"

Nota: a volte, dopo aver salvato il file, il DjvuWiev si blocca ma il file lo salva.

Un metodo da pazienti certosini per togliere o aggiungere ogni pagina, sempre usando Djviewer e senza DOS, è questo. Con "File/esporta come" si possono esportare le pagine in formato immagine TIFF o BMP o altro (e finché sono poche...), poi scegliere quelle che si vogliono, zipparle in ordine in un archivio.zip e far creare un file djvu al solito server di any2djvu.

Usare Archive per ottenere un file djvu

(Usato x di là)

(ovvero come caricare su I.A. un file - ad es. pdf - e aspettare la manna)

Nel limiti del possibile Wikisource preferisce usare file .djvu. Se in Archive il file non esiste ma lo troviamo in qualche altro sito e in altro formato (tipicamente .pdf) si può ottenere un duplice risultato caricandolo su Archive. "Loro" ottengono del materiale che non avevano; lo elaborano e "noi" ne ricaviamo il desiderato file in formato .djvu con anche un OCR (della cui qualità ci è però permesso discutere :-). Allora

Scaricare il file .pdf nel proprio Disco Rigido;
entrare in I.A. (http://www.archive.org/) e -se già non lo si è - registrarsi (altrimenti non accettano il materiale)
In alto a destra della loro "Pagina Principale" si vede un tasto "Upload".
Cliccare e appare una seconda schermata con -sempre in alto a destra --un tasto "Share". Cliccare anche lui.
Appare una finestrella intitolata "Seleziona i file da caricare con www.archive.org".-
Con il solito sistema si cerca il file nel proprio Disco Rigido. Trovatolo, selezionare e cliccare "Apri".

Si apre un'ulteriore schermata con

1. in alto, riquadrato in verdolino, il nome del file e, sotto questo, una lineetta che man mano si allunga. Sotto questa lineetta leggeremo "Uploading" che alla fine si trasformerà in "Complete"
2. più sotto quattro campi da riempire con
  1. titolo dell'opera,
  2. descrizione (breve descrizione di cosa si tratti; romanzo, saggio, poema ecc)
  3. parole chiave suggerite per la futura ricerca
  4. autore dell'opera (dice che non è obbligatorio perché spesso sono anonimi ma se l'autore è conosciuto meglio metterlo).
Infine cliccare sul tipo di licenza che si pensa sia adatto.
Quando apparirà il "Complete" di cui parlavamo sopra basta cliccare sul bottone "Share mi File(s)".

ECCO FATTO!

Attendere che il file sia caricato. Dopo qualche ora (dipende da molti fattori e specialmente dal "peso" del file) il nostro file sarà diventato come tutti gli altri file di I.A. e troveremo il file .djvu con il metodo di ricerca sopra descritto.

Importare testi dei quali si possiede l'originale cartaceo

(Usato x di là)

Scansionare un documento

Abbiamo scovato un libro o documento fra alcune vecchie carte. Se siamo in possesso di uno scanner di qualità decente (ormai quasi tutti gli scanner lo sono) la cosa è semplicissima.

Scansionare tutte le pagine e, se presenti, le copertine,
Cercare di ottenere delle immagini di buona qualità (almeno 200 dpi) e in formato -meglio se NON compresso- che sia normalmente accettato (bmp, tif,...)
Per comodità inserire tutto in una directory predefinita, i file delle varie pagine è meglio numerarli con il numero delle pagine stesse partendo da 01, 02 (non solo 1,2) per mantenere l'ordine di lavorazione in seguito.
Usando un programmino di grafica eliminare i bordi bianchi qualora fossero troppo grandi (succede spesso, ad esempio, nelle pubblicazioni ottocentesche)
se necessario ridimensionare le pagina attorno ai 100-110 mm di larghezza lasciando che l'altezza venga in proporzione. (ovviamente tutto va fatto usando il solito buon senso e in relazione alla leggibilità del testo scansionato)

Una volta ottenuti tutti i fle desiderati

Comprimerli in un file-archivio .zip (rar ecc)
controllare il file-archivio. Per evitare altre complesse lavorazioni future sul file djvu, i file devono essere in ordine numerico (e quindi le pagine) e devono esserci tutti :)
Caricare il file zip sul server di any2djvu (http://any2djvu.djvuzone.org/) seguendo le semplici istruzioni (inglese ma davvero semplici) già descritte: si otterrà un file il cui nome sarà un lunghissimo numero.
Scaricarlo nel proprio Disco Rigido e rinominarlo come si preferisce.

Caricare un file su Commons

(Usato x di là)

Le operazioni da fare sono codeste:

Entrare in Commons; immaginiamo di lavorare in lingua italiana.
Premere "carica" nel menu a sinistra
tenersi pronto questo schemino:

{{Information
|Description= "titolo", autore, editore, città anno 
|Source=[link nome]
|Date= anno pubb
|Author= autore
|Permission=
|other_versions=
}}{{PD-old}}{{PD-old-70}}{{PD-scan}}
[[Category:anno books]][[Category:DjVu files in Italian]]
[[Category:Books by autore]][[Category:autore]]
[[Category:Scanned Italian texts]]

Scegliere direttamente l'opzione per utenti esperti, in basso, sotto l'orrenda sfilza di domande.
Avendo anche un template "information" pronto, :-) cliccare sul link "modulo base" (secondo punto dell'elenco).
Si entra in una pagina con tanta roba da leggere: saltatela.
Andare direttamente sotto, nella sezione "File di origine" e cliccare su "Scegli file".
1. Sceglierlo navigando nel proprio pc. Se si è dato al file un buon nome, si può usarlo come definitivo, comparirà nel quadretto "Nome del file di destinazione".
2. Altrimenti: in quest'ultimo quadretto, correggere il titolo.
  1. Attenzione: esattamente quel nome di file diventerà anche il nome del file Indice, quindi "stare accorti". Si può sempre rinominare, ma la cosa diventa fastidiosa.
Copiaincollare lo schemino riportato sopra e sostituire ciò che c'è da sostituire: autore con il nome e cognome autore, ecc. Dappertutto: anche nelle categorie.
Saltare il quadro licenza. Saltare il quadro categorie. Saltare le opzioni di caricamento.
Premere "Carica".
Fine. :))

In alternativa:

Cliccando su "Carica su Commons" nella colonna a sinistra qui, in it.Wikisource, si arriva direttamente alla pagina di Commons, in italiano, atta all'inserimento dei file.
Però, se si vuole utilizzare lo schema precompilato sopra descritto, è preferibile cliccare sull'ultima frase nel grande quadro a sfondo celeste a destra (Quick help) che dice:

"Se possiedi un template {{information}} (o simili) già pronto per essere copiato/incollato, utilizza il modulo di upload di base.[ecc]."

Cliccando sul testo linkato si andrà sulla vecchia -ma in questo caso molto più comoda- pagina con il grande riquadro dove si potrà sostituire (incollare) il nostro schema precompilato.
Come dice il testo dell'avviso, se si vuole usare sempre questa vecchia pagina bisogna impostare le preferenze.

Cambiare un file su Commons

(Usato x di là)

Per modificare un file (sovrascriverlo) su Commons occorre seguite il link "Carica una nuova versione del file". Quando richiesto dare una giustificazione per la modifica (scrivere qualcosa del tipo "Fixing wrong page", "Adding a lacking page", "Uploading a better scan").
Il lavoro su wikisource non viene perduto:
1. se il cambiamento del file djvu consiste nella sostituzione di una pagina tutto risulta ancora allineato
nel caso di inserimento o cancellazione di una pagina bisogna "spostare" un po' di pagine, cosa che via bot si fa senza problemi. In genere tocca anche ritoccare i tag pages index in ns0.
Attenzione, quando si sostituisce il file djvu su commons ci vogliono un paio di giorni perché vengano aggiornate le pagine che vengono visualizzate in wikisource, quindi all'inizio potrebbe esserci un po' di confusione.

Sostituire una pagina errata in un file djvu presente su Commons

(Usato x di là)

Aprire il programma DjvuSolo (scaricabile qui - sezione Old but useful) e caricare il file con l'immagine della pagina da sostituire
Salvare solo quella pagina come file djvu (chiamandola nometesto-pag.djvu)
Scaricare da Commons il file nometesto.djvu (se non già in proprio possesso)
Aprire il file con DjvuSolo, posizionarsi sulla pagina da sostituire e, usando la funzione "Insert before", inserire la nuova pagina (controllare bene l'inserimento); cancellare la pagina vecchia e salvare.
Andare su Commons e sostituire il file usando la funzione "Carica una nuova versione del file", motivazione: "page .. fixing"
Finito! su wikisource non c'è niente da cambiare, le pagine sono allineate con la versione precedente quindi tutto combacia.

NOTA - poiché da tempo DjvuSolo non viene aggiornato, è possibile che la cosa non funzioni. Si suggerisce di usare DjVuToy di cui si parla anche sopra.

Creare la pagina indice

Per creare la pagina indice bisogna innanzitutto creare una nuova pagina che abbia esattamente il nome che abbiamo dato al file dell'opera caricata su commons, con la sola differenza che al posto del suffisso "File:" dobbiamo scrivere "Indice:". Quindi, se il nome del testo su commons è File:Opera.djvu la nuova pagina su wikisource deve aver nome Indice:Opera.djvu. Per creare la pagina è comodo scriverne il nome su una nostra pagina di comodo (sandbox, pagina utente, ecc.) e trasformarlo in un link rosso (aggiungendo come al solito le doppie quadre), così: [[Indice:Opera.djvu]].
Una volta premuto il link rosso così ottenuto verrà creata la pagina vuota, che presenta un form fatto di tanti campi che vanno riempiti. Molti sono intuitivi, alcuni meno; tutto si potrà correggere. Se hai dubbi, aiutati con un altro indice: entra in modifica e sbircia. Queste sono alcune indicazioni per la compilazione del form:
1. Nome della pagina principale (obbligatorio) indica il titolo dell'opera che compare nel link
2. Titolo su Wikisource (facoltativo) è il titolo come appare nel box Intestazione in namespace principale
3. Titolo originale (facoltativo) è il titolo tal quale è scritto nel testo (in certi testi antichi, è lungo varie righe e noi lo accorciamo per praticità di gestione dei link)
4. Progetto: fare riferimento alla Categoria:Testi per progetto; ad esempio se è un romanzo scrivi Letteratura
5. Nome dell'immagine del frontespizio: si tratta di visualizzare una pagina del libro, in genere mettiamo il frontespizio. Per un po' sarà comodo tenersi sottomano sul pc il file djvu e sbirciarlo; i numeri di pagina corrispondono; quindi, apriamolo e vediamo a che pagina c'è il frontespizio... Se ce n'è più di uno scegli quello che preferisci. Il codice da mettere nel campo è Opera.djvu|page= (dopo page metti il numero dalle pagina che hai scelto di visualizzare)
6. Due campi piuttosto difficili sono Pagine e Sommario. La difficoltà di Pagine consiste nel sistemare per bene il tag pagelist. Attraverso un piccolo "linguaggio di programmazione" gli si passano dei parametri che "allineano" il contenuto visibile delle cellette (che adesso rappresentano il numero della pagina del file djvu) con la numerazione originale del libro, con varie opzioni (numerazione con normali numeri arabi, numerazione con numeri romani, oppure sostituzione del numero di pagina con qualcos'altro). Conviene aprire il file djvu (di cui è ottima cosa tenersi una copia sul pc, fino a trascrizione conclusa) e scorrerlo per vedere come stanno le cose. Scorrere le pagine attraverso wikisource è una pena, perchè l'apertura di ogni pagina impiega parecchi secondi, mentre saltare da una pagina all'altra con DjView è cosa istantanea.
  1. Prima domanda: in che pagina djvu casca la pagina 1 "cartacea"? Ipotizziamo che la pagina 1 del libro caschi nella pagina 10 del file djvu. Allora, per "allineare", scriveremo dentro il tag pagelist, meglio in una nuova riga: 10=1 che significa: "inizia la numerazione con il numero 1 a partire da pagina 10".
  2. Seconda domanda: questa numerazione resta "allineata" in tutto il libro? Se a un certo punto, per esempio, vi fossero delle figure "fuori testo" la numerazione potrebbe disallinearsi; non credo che sia il caso, ma se lo fosse, per esempio; se a un cverto punto del libro le cose sgarrassero, e la pagina djvu 100 corrispondesse alla pagina cartacea 89, basterebbe scrivere una nuova riga: 100=89, e da lì in poi la numerazione cambierebbe di conseguenza.
  3. Terza domanda: e se le pagine da 2 a 9 fossero numerate con numeri romani, essendo 1 (romano, ossia i) la pagina 2? allora dovremmo scrivere due cose: 2=1 e 2to9=roman, sempre su righe diverse per leggere meglio. Significa, intuitivamente, "da pagina 2 parti con una numerazione da 1" e "nell'intervallo da 2 a 9 usa numeri romani". A questo punto, cosa significherebbe invece 1to9=- ? Semplice: "Nell'intervallo da 1 a 9 non numerare, metti solo in carattere -"; oppure (cosa che ti consiglio, se c'è un indice, nel libro, ipotizziamo da pagina 4 a pagina 6) 4to6=Indice.

Match and split

Se esiste una versione testuale già sostanzialmente corretta dell'opera di cui abbiamo caricato l'immagine è possibile eseguire il famoso "Match and split", la cui guida si trova QUI. Si tratta in pratica di accoppiare ad ogni immagine di pagina del libro il relativo testo, creando singole pagine separate qui su wikisource.

Formattazione

Formattare i frontespizi

Per frontespizi complessi, con notevoli variazioni di font, è possibile usare il template {{Type}}

Formattare il testo

Per spezzare una parola tra due pagine (ad esempio biancospino): alla fine della prima pagina scrivere <noinclude>bianco-</noinclude> e all'inizio della seconda {{Pt|spino|biancospino}}
Per ottenere la scritta del tipo 1^st scrivere 1<sup>st</sup>
Template per linkare alla voce dell'autore: {{AutoreCitato|Dante Alighieri}}
Nel caso di fine del paragrafo a fine pagina, si suggerisce di utilizzare a fine pagina, su una nuova riga, il template {{nop}} eliminando, in testa alla pagina successiva, l'eventuale codice <br />+riga bianca.

Tools

Tool RegexMenuFramework

Vai in Preferenze (prima riga in alto della pagina, quella che inizia con il tuo nome utente), scegli "Accessori" ed esamina la pagina. Vedrai (dovresti vedere) questo, tratto dalle mie preferenze personali (immagine a sinistra)

Seleziona il quarto pulsante (RegexMenuFramework) per "attivare il tool" di cui stiamo parlando. Ma seleziona anche alcuni o pulsanti aggiuntivi, o anche tutti: sono molto utili. Fatto questo, compariranno, nel menu verticale a sinistra, nella colonna del logo Wikisource, quando stai lavorando in modifica di una pagina, alcuni link aggiuntivi, e precisamente questi che vedi a destra:

. E' quello di cui stiamo parlando; le prime due opzioni sono quelle che aggiustano, al volo, il testo grezzo proveniente dall'OCR (ma non solo) e gestiscono il template RigaIntestazione; gli altri cinque sono dedicati alla numerazione dei versi. Dei cinque, i primi quattro sono di Candalua; il quindo è mio e ti permette di provare tranquillamente i primi 4 cancellando con un click eventuali pasticci... io ne ho fatto gran uso, intanto che provavo gli script di Candalua. :-D

La pagina di aiuto c'è, ma come al solito non è facile trovarla :-( : è questa. Alex brollo (disc.) 08:52, 7 mar 2011 (CET)

Tool "Aggiusta paragrafi"

Non oso dirlo.... ma la pagina di aiuto è già vecchia. Gira un nuovo tool, "aggiusta paragrafi". Non immaginerete mai cosa fa: aggiusta i paragrafi. :-P --Alex brollo (disc.) 01:32, 8 mar 2011 (CET) Il tool che mancava è: aggiungere una riga bianca dopo ogni riga che termina con un punto, un punto interrogativo, o un punto esclamativo. Quasi sempre, lì inizia un nuovo paragrafo. E' quello che fa il nuovo tool "aggiusta paragrafi", non documentato. Adesso dovrei rifare la pagina di aiuto.... gli screenshot... ecco perchè non si fanno le pagine di aiuto! Vedi, al proposito, la terza "citazione" della mia pagina utente, altrimenti incomprensibile.... :-( --Alex brollo (disc.) 00:01, 8 mar 2011 (CET)

Formule matematiche

Qualcuno sa come trascrivere le formule matematiche? Ce ne sono un sacco qui e nel resto di questo libro. Sto trascrivando il testo italiano e cinese, ma no voglio imparare la matematica (era il mio incubo a scuola). Se potete fare le formule, farò il resto del libro. GiuseppeMassimo (disc.) 21:33, 7 mar 2011 (CET)

Controlla qui, dovrebbe esserci tutto quello che ti serve. --Xavier 121 22:41, 7 mar 2011 (CET)

Template

Icona del Djvu

Storia di una capinera è "with scan", ma nella pagina Autore:Giovanni Verga non appare a lato del nome l'iconcina del testo scansionato. Come si fa ad inserirla? --Biasco (disc.) 21:23, 4 mar 2011 (CET)

Non si può inserire; è automatica, il template "guarda" se l'opera è collegata a una pagina Indice. Quando funziona. :-) --Alex brollo (disc.) 02:05, 5 mar 2011 (CET)

Utente:Beatrice/sandbox

Il sussidiario

I file djvu

Tools per lavorare i file djvu

DjView

DjVuToy

Importare testi da Internet Archive

Eliminare pagine dal file djvu

Usare Archive per ottenere un file djvu

Importare testi dei quali si possiede l'originale cartaceo

Scansionare un documento

Caricare un file su Commons

Cambiare un file su Commons

Sostituire una pagina errata in un file djvu presente su Commons

Creare la pagina indice

Match and split

Formattazione

Formattare i frontespizi

Formattare il testo

Tools

Tool RegexMenuFramework

Tool "Aggiusta paragrafi"

Formule matematiche

Template

Icona del Djvu