Discussioni utente:Xavier121/Archivio/8
Testo di prova
modificaIn fretta e furia ho preparato Testo di prova con un pezzo di testo qualsiasi e intercalata la stessa immagine, della stessa grandezza (300px), ottenuta con vari settaggi di FI o del normale markup. Vedi se si è comoda per testare l'ePub risultante; io la userò per una prova a cui ho accennato in bar. --Alex brollo (disc.) 18:19, 25 gen 2015 (CET)
- Problemi con 1,2,4,5 deformate e sovrapposte (2,4): la 3 "left" viene centrata ma rispetta le misure; bene 6 e 7. --Xavier121 22:43, 25 gen 2015 (CET)
Progetto Deledda
modificaPenso sia il caso di ristrutturare la pagina Progetto:Letteratura/Grazia Deledda, ci sono parecchi lavori in corso e qualche opera completata. Ci vorrebbe una tabella in cui ogni riga linki al file djvu, alla pagina Indice (possibilmente con il suo SAL), alla trascrizione in ns0 con il suo SAL; oppure questi dati potrebbero essere aggiunti come didascalia delle belle immagini dei frontespizi. Ho completato il trasferimento delle pagine trascritte da Indice:Fior di Sardegna.djvu a Indice:Fior di Sardegna (Racconti).djvu in modo per ora conservativo per non disturbare chi ci sta lavorando; ho messo comunque un avviso in pagina Indice dell'opera incompleta, suggerendo di interrompere la trascrizione e di continuare invece la trascrizione nell'opera completa. --Alex brollo (disc.) 08:24, 24 mar 2015 (CET)
Alternare la visualizzazione diplomatica-critica
modificaMi sono permesso di aggiungerti (e di aggiungermi) in vector.js la chiamata a MediaWiki:Gadget-toggle.js. Sia in ns0, che in nsPagina, un doppio click sul testo (evitando, ovviamente, link e immagini) alterna le due visualizzazioni in un battibaleno. Non è la soluzione definitiva, è solo un grezzo strumento di prova! --Alex brollo (disc.) 23:05, 29 mar 2015 (CEST)
- Qui lascia senza parole!!!
Alex, visto che stai pasticciando col mio vector puoi controllare se qualcosa non va? (es. non mi funzia più postOCR dagli strumenti a sin, o il tastino poem nella pulsantiera in basso - se ti serve, usa il mio profilo, conosci la pass:P). N.B. Nella versione diplomatica ho segnato tra parentesi quadre un lacuna meccanica. --Xavier121 23:32, 29 mar 2015 (CEST)- Le parole dovrai trovarle perchè agli altri amici di wikisource questa cosa non ho il coraggio di spiegargliela.... ;-)
- Attenzione: adelante con juicio; ci sono dei punti da chiarire, bisogna vedere se è possibile eliminare la "div visualizzatrice" e bisogna che una delle due visualizzazioni compaia di default, senza necessità di fare alcunchè; bisogna inoltre che l'ePub riesca a colpo sicuro e senza venir appesantito in modo eccessivo. Non appena si diffonderà ePub3 (che interpreterà un po' di javascript) il trucco potrà essere esportato anche in ePub; per ora non vedo come farlo.
- Appena ho un po' di pagine con le due versioni faccio le mie prove. --Alex brollo (disc.) 08:29, 30 mar 2015 (CEST)
- Aimè.... c'è un problema nella connessione fra i testi delle pagine in ns0. Speriamo che esista una soluzione. Alex brollo (disc.) 16:08, 3 apr 2015 (CEST)
- Dopo alcuni giorni di pausa meditativa, forse intravedo una soluzione meno semplice di quanto sperato, ma non terrificante. Stasera i test. --Alex brollo (disc.) 09:18, 8 apr 2015 (CEST)
- Sembra che la strada sia buona; vedi Aminta (1590)/Al molto magnifico... , dove NON ci sono interruzioni fra una pagina e l'altra :-) --Alex brollo (disc.) 00:29, 9 apr 2015 (CEST)
- Dopo alcuni giorni di pausa meditativa, forse intravedo una soluzione meno semplice di quanto sperato, ma non terrificante. Stasera i test. --Alex brollo (disc.) 09:18, 8 apr 2015 (CEST)
- Aimè.... c'è un problema nella connessione fra i testi delle pagine in ns0. Speriamo che esista una soluzione. Alex brollo (disc.) 16:08, 3 apr 2015 (CEST)
Malombra
modificaVedo solo ora il tuo messaggio sulla pagina di Alex dal quale, mi sembrava, non aver avuto risposta. Sono andata un poco avanti nella rilettura e ho cercato di attenermi al testo già scansionato. In realtà non è poi tanto dissimile, è solo stato stampato da cani e, cosa curiosa, qua e là il testo riporta correttamente parole e frasi che nella versione a fianco non ci sono ma che appaiono nella mia edizione. Io ti posso inviare senza dubbio il mio testo e potrai vedere con i tuoi occhi. Quello che mi lascia perplessa della scansione che abbiamo è il fatto che sono stati usati dei codici diversi da quelli che conosco e che mi sembrano superati e quindi non so bene come devo comportarmi. Volevo poi chiedere una cosa. Trovo il nome di molti autori che non sono stati citati e così ho inserito, per alcuni, il template Autore citato. A questo proposito pensavo che sarebbe utile rivedere quei testi che, come questo, risalgono al alcuni anni orsono, per vedere di quali autori e opere si è nel frattempo arricchita wikisource in modo da far apparire dei link blu. Forse è un lavoro che state già facendo. Se è così, perdonami la proposta sciocca. Sai, mi è difficile inserirmi nel vostro progetto e spero che abbiate tutti voi pazienza perché mi rendo conto di sbagliare spesso e di non saper fare troppe cose. Inviami, se sei ancora dell'idea di volerti occupare della cosa, una email con il tuo indirizzo.--Paola (disc.) 00:52, 30 mar 2015 (CEST)
- Mi inserisco: scusa Margherita, ubi major minor cessat, e Xavier, nel campo della scansione, è il major. Va pure avanti con lui! --Alex brollo (disc.) 08:31, 30 mar 2015 (CEST)
- Bene a tutti e due!! Per le scansioni forse abbiamo trovato una soluzione. Che ne pensi Alex? E tu Xavier ti sentiresti veramente, a parte Malombra, di scansionare qualche libro antico-gioiello? Questo che ti invio è piuttosto dimesso e forse non ne vale nemmeno la fatica ma ho alcuni testi veramente preziosi e sarebbe bellissimo poterli avere su wiki come primizie. Adesso però dovete pazientare fin dopo Pasqua dal momento che io giovedì vado ad Antibes da mia figlia e vi rimarrò una settimana all'incirca. Aspettatemi!--Paola (disc.) 22:05, 30 mar 2015 (CEST)
- @Margherita ... e certo che ti aspettiamo. Buone vacanze! Alex brollo (disc.) 22:20, 30 mar 2015 (CEST)
- Bene a tutti e due!! Per le scansioni forse abbiamo trovato una soluzione. Che ne pensi Alex? E tu Xavier ti sentiresti veramente, a parte Malombra, di scansionare qualche libro antico-gioiello? Questo che ti invio è piuttosto dimesso e forse non ne vale nemmeno la fatica ma ho alcuni testi veramente preziosi e sarebbe bellissimo poterli avere su wiki come primizie. Adesso però dovete pazientare fin dopo Pasqua dal momento che io giovedì vado ad Antibes da mia figlia e vi rimarrò una settimana all'incirca. Aspettatemi!--Paola (disc.) 22:05, 30 mar 2015 (CEST)
Richiedi una borsa "Alessio Guidetti" per Wikimania
modificaCiao Xavier121, ti segnalo il programma borse di partecipazione "Alessio Guidetti" per Wikimania 2015, che potrebbe esserti utile per partecipare al raduno mondiale degli utenti Wikimedia. Abbiamo prorogato i termini, c'è tempo fino alle 23.59 di martedì 28 aprile per fare richiesta.
Ti scrivo perché ho visto che ti dai da fare da queste parti e non hai ancora fatto richiesta. Perdonami se la segnalazione non è di tuo interesse. Nemo 10:09, 26 apr 2015 (CEST)
- Ti ringrazio tanto Nemo, la segnalazione è di mio interesse ma al momento non posso partecipare, spero in futuro :) --Xavier121 16:11, 26 apr 2015 (CEST)
Re:Pirandello
modificaGrazie mille, ci provo! Avrei un dubbio, magari mi puoi aiutare: ad esempio questa pagina ha il testo che inizia nella pagina precedente e continua nella pagina dopo. Come ci si deve comportare in questi casi affinché l'impaginazione risulti corretta? --Adert (disc.) 20:55, 30 apr 2015 (CEST)
- Controlla adesso le modifiche nelle due pagine. Esiste uno strumento molto ultime si chiama autoPt, basta selezionare il testo in oggetto e lanciarlo; è un tastino che trovi nella pulsantiera in basso quando sei in modifica. Se non lo vedi vai nella tua pagina delle preferenze e attiva gli strumenti di formattazione. Maggiori info qui --Xavier121 11:26, 2 mag 2015 (CEST)
- Grazie mille!--Adert (disc.) 15:12, 3 mag 2015 (CEST)
Procedura Opal
modificaSto sperimentando sia briss (con caricamento successivo su IA) che una nuova "accoppiata" che ti suggerirei di provare: estrazione con xnconvert dei tiff; loro sistemazione (taglio, raddrizzamento, marginatura) con Scan tailor; passaggio dei tiff risultanti (a 600dpi) a FineReader11 con salvataggio in djvu con divisione in strati disabilitata, alta risoluzione, compressione lossless. Da un testo di circa 250 pagine vengono fuori dei djvu di circa 70Mby, accettabile per Commons e privo di quel fastidioso "effetto compressione" che invece devasta il djvu su IA.
Ovvio che si può fare la stessa cosa con FineReader11 direttamente, ma trovo il passaggio con Scan Tailor utile: se hai tempo/voglia, ti suggerisco di sperimentarlo. --Alex brollo (disc.) 11:41, 21 mag 2015 (CEST)
Esperimenti per ora conclusi
modificaHo pesantemente manipolato Occhi e nasi, grazie del suggerimento. Ti lascio alcune pagine ns0 "tali e quali", adesso devo raccogliere le idee e - assodato che è possibile automatizzare quasi tutto, data una buona pagina Indice e ciò che trovi in Discussioni indice:Occhi e nasi.djvu - cerco di digerire la questione.
In particolare ci sono due strade:
- continuare in questa direzione, ossia: creare le sottopagine in ns0, correggerle e poi lanciare lo split;
- prendere una strada alternativa, ossia creare le pagine Pagina e parallelamente creare le sottopagine in ns0 già complete del loro codice pages (ma la prima soluzione permette di applicare automaticamente anche le section...)
Attendo un tuo feedback. Anche una stroncatura va bene! --Alex brollo (disc.) 23:06, 6 giu 2015 (CEST)
- Ho splittato qui. Affascinante. Troppo utile avere le section automatiche: a me non dispiace questo processo inverso; partire da ns0, anche se al 25%, ci fornisce immediatamente un testo con discreta qualità di lettura e visibilità maggiore rispetto a nspagina. Fammi capire, in automatico, dopo l'estrazione del testo dal djvu possiamo avere:
- Rigaintestazione? SI
- Pagine e Section? NO
- Tag poem? NO
- Aggiustamento paragrafi? NI
- PostOCR? SI
- Eliminazione righe vuote? NO
- Unione righe spezzate? SI
- Possibilità di settare personalizzati T&S su tutto il testo? SI
- Numerazione versi? NO
- Rientro prima riga paragrafo? NI
- Conversioni varie tipo é - è? SI
- Virgolette? NO
- Varie? NI
--Xavier121 17:36, 7 giu 2015 (CEST)
- Vedo ora la nutrita serie di domande: risponderò con calma, pingami la prossima volta! :-) Alex brollo (disc.) 07:04, 25 giu 2015 (CEST)
- Intanto una domanda per te, coraggioso editore di file djvu (a chi li carica solamente non la pongo). Hai mai pensato di editare direttamente lo strato OCR del file djvu? Lo sai fare? Hai bisogno di un paio di dritte iniziali? La domanda ha diretta relazione con le tue qui sopra (alcune, con particolare riferimento a poem e section). --Alex brollo (disc.) 07:53, 25 giu 2015 (CEST)
- Messe le risposte SI, NO, NI ;-) --Alex brollo (disc.) 09:12, 25 giu 2015 (CEST)
- Intanto una domanda per te, coraggioso editore di file djvu (a chi li carica solamente non la pongo). Hai mai pensato di editare direttamente lo strato OCR del file djvu? Lo sai fare? Hai bisogno di un paio di dritte iniziali? La domanda ha diretta relazione con le tue qui sopra (alcune, con particolare riferimento a poem e section). --Alex brollo (disc.) 07:53, 25 giu 2015 (CEST)
@Alex brolloNon sarebbe male, cosa mi occorre? --Xavier121 10:56, 25 giu 2015 (CEST)
- Ti occorrono solo DjvuLibre, un paio di istruzioni da lanciare con la console oppure anche come file BAT, un buon editor di puro testo (tipo Notepad++), e molta attenzione e pazienza.
Avuto djvuLibre, e usando il programma djvused.exe, una istruzione estrae l'intero testo OCR in un file testo (dove sono elencate le singole parole e un mare di codice che va ignorato accuratamente); una diversa istruzione ripesca il testo estratto e lo rimette nel file djvu. Qualsiasi modifica tu abbia fatto alle parole, viene incorporata nello strato OCR del file djvu. Nulla imperisce di aggiungere alle parole del codice wiki: ad esempio, i tag poem o i tag section. L'importante è non modificare nulla di tutto ciò che sta attorno alle parole. Vuoi provarci? Se ti va, possiamo farlo insieme in una cartella dropbox condivisa, ti ho appena invitato nella cartella "python" dove c'è già attivo djvuLibre; caricaci un file djvu che ti interessa e partiamo con gli esperimenti e i test. Alex brollo (disc.) 14:29, 25 giu 2015 (CEST)
- Ho caricato nella cartella il djvu di Bandello, preparato da te. La struttura testo prodotta dal tuo FineReader11 è profondamente diversa dalla struttura prodotta dal server IA, ma è molto interessante. Mi raccomando: se editerai qualcosa, oltre a NON toccare il codice al di fuori delle parole, presta molta attenzione ai \n che segnano gli acapo. Talora sono a inizio parola, talora a fine parola; suppongo che quelli a inizio parola indichino inizi di paragrafo, quelli a fine parola indichino invece fine riga all'interno di un paragrafo. Stasera ti metto un file testo XavierLeggimi.txt, un paio di file bat clicca-e-vai (scaricaTesto.bat e caricaTesto.bat), poi sta a te.... WordPad va bene per editare. --Alex brollo (disc.) 16:39, 25 giu 2015 (CEST)
- Al momento, da lavoro, posso vedere solo OPAL e ProgettoOPAL e in queste cartelle non c'è python, non so perché non trovo più la condivisa devo controllare meglio le condivisioni da casa (non ricordo tutte le password) :P --Xavier121 16:42, 25 giu 2015 (CEST)
- Ti ho appena "invitato" usando una delle tue mail.... troppe ;-) Adesso ne ho usata anche un'altra. --Alex brollo (disc.) 19:28, 25 giu 2015 (CEST)
- OK, sono pronto... :) --Xavier121 10:57, 26 giu 2015 (CEST)
- Ti ho messo un po' di roba nella cartella python, cerca un file leggimiXavier.txt :-) --Alex brollo (disc.) 12:06, 26 giu 2015 (CEST)
- La doc, non facile, di djvused.exe è qui: http://djvu.sourceforge.net/doc/man/djvused.html Alex brollo (disc.) 12:07, 26 giu 2015 (CEST)
- Ti ho messo un po' di roba nella cartella python, cerca un file leggimiXavier.txt :-) --Alex brollo (disc.) 12:06, 26 giu 2015 (CEST)
- OK, sono pronto... :) --Xavier121 10:57, 26 giu 2015 (CEST)
- Ti ho appena "invitato" usando una delle tue mail.... troppe ;-) Adesso ne ho usata anche un'altra. --Alex brollo (disc.) 19:28, 25 giu 2015 (CEST)
- Al momento, da lavoro, posso vedere solo OPAL e ProgettoOPAL e in queste cartelle non c'è python, non so perché non trovo più la condivisa devo controllare meglio le condivisioni da casa (non ricordo tutte le password) :P --Xavier121 16:42, 25 giu 2015 (CEST)
@Alex brolloOK, Adesso, con il file .dsed mi viene fuori in wordpad una interminabile sequenza di parole in colonna comprensive di svariate cifre inziali (coordinate?) e indicazione della pagina .djvu di riferimento in testa a ogni colonna. Che si può fare con questo materiale? Dove devo inserire (e come) rigaintestazione e section e poem ecc.?--Xavier121 17:41, 26 giu 2015 (CEST)
@Alex brollo Ho fatto la mia prima modifica al testo sotto wordpad inserendo tutti i rigaintestazione; il tuo file eseguibile il resto. Provo a ricaricare il file su Commons e a lanciare un M&S sporco. --Xavier121 10:30, 2 lug 2015 (CEST)
- Mi son perso il ping precedente (questo invece lo vedo). Sì, è una sequenza interminabile delle singole parole, ognuna associata alle sue coordinate sulla pagina; in testa alcuni comandi. Modificando qualsiasi parola, la modifica verrà inserita nello strato testo. Ovvio che farlo a mano è interessante per capire il meccanismo, ma non è pratico! Però.... a trovare qualche sistema astuto per non essere disorientati, anche solo l'inserimento dei tag poem potrebbe cambiare la vita. Da anni giro intorno al problema di editare comodamente quel file testo, con un'interfaccia che renda le cose meno macchinose e quindi fattibili; prima o poi io, o qualcun altro, ci riusciremo. Gli sviluppatori - quelli veri - ci riuscirebbero in poche ore, ma sono troppo occupati nel fare altro.... Per RigaIntestazione: un'idea sarebbe quella di inserirla solo dove cambia, per due pagine consecutive; poi i nostri automatismi si potrebbero arrangiare. --Alex brollo (disc.) 15:02, 2 lug 2015 (CEST)
- @Alex brollo Veramente ho inserito i rigaintestazione in automatico ancorandomi ad una parte del testo (es. PRIMA di "Parte prima" della pp pari e NOVELLA della pp dispari) ci sono voluti pochi secondi: i tuoi automatismi in modifica hanno fatto il resto. Adesso devo provare con un testo poetico per vedere come inserire il tag poem e alcuni caratteri speciali tipo f-ſ, troppo pericoloso farmo con memoregex (e sai perché? :D )--Xavier121 17:34, 2 lug 2015 (CEST)
Bandello
modificaVedo Indice:Bandello - Novelle. 1, 1853.djvu bello! Ma: è un djvu singolo che contiene due diversi volumi,abbiamo concordato in Bar di rispettare (anche per questioni wikidata) la regola "un volume/tomo = un djvu = una pagina Indice = una pagina ns0 base" e quindi, prima che il lavoro vada avanti, sarebbe bene spezzare in due il djvu (cosa che DjvuToy fa in pochi secondi) e ovviamente il successivo. Fai tu o faccio io? --Alex brollo (disc.) 07:02, 25 giu 2015 (CEST)
- Tranquillo, che adesso ti carico l'edizione LATERZA del 1910 di OPAL (con OCR praticamente perfetto). La Pomba però va sistemata così possiamo costruire su un testo del Canone un'altra pagina OPERA: puoi pensarci tu? --Xavier121 09:45, 25 giu 2015 (CEST)
- OK, all'edizione Pomba ci penso io. --Alex brollo (disc.) 11:21, 25 giu 2015 (CEST)
Milione
modificaNon fermarti mica con Milione, eh... su DP al momento sono solo giochi. Non voglio che ti siano minimamente d'intralcio!
Quanto al progetto djvuEditor, dopo aver fatto qualche passo su due diversi sentieri (Utente:Alex brollo/djvuEditor.js e Utente:Alex brollo/djvuEditor.js), ho avuto la visione di una terza via, simpatica perchè totalmente automatica: quella di applicare il postOCR (modificato) direttamente sullo strato OCR del file djvu (ossia: lo script dovrebbe, pagina per pagina, estrarre il dsed, applicare postOCR sulle singole parole, e poi ricaricarlo nel djvu). In teoria, un click unico per "fare tutto": scaricare da Commons il djvu, modificarlo e ricaricarlo su Common. Vediamo se mi riesce.... :-) --Alex brollo (disc.) 19:03, 8 lug 2015 (CEST)
- MA su DB hai contrtollato il primo volume de il Milione prodotto con i file zip di IA? Quindi procedo col secondo volume... OK :) --Xavier121 20:23, 8 lug 2015 (CEST)
Amintest
modificaQua: Aminta (1590)/Atto primo/Scena prima --Alex brollo (disc.) 08:28, 30 lug 2015 (CEST)
Richiesta di aiuto
modificaSalve Xavier121, nella mia pagina di discussione ho lasciato un messaggio, spero che puoi aiutarmi, ciao Smitersleon (disc.) 12:08, 28 ott 2015 (CET)
OK...mi hanno già risposto Smitersleon (disc.) 12:11, 28 ott 2015 (CET)
Pagine Opera e Canone
modificaIn riferimento a questo edit, non sarebbe meglio mettere un link alla pagina Opera (Opera:Dei delitti e delle pene) che mira ad essere il collettore di tutte le edizioni?
Sarebbe da fare una pagina Opera per ciascun testo del canone. --Accurimbono (disc) 18:25, 31 ott 2015 (CET)
- @Accurimbono hai ragione. Tempo fa avevo iniziato, ma era necessario completare anche il lavoro su wikidata, una doppia manovalanza che mi ha spinto di nuovo verso la formattazione e la scelta dei testi.
- P.S. Resta solo da stabilire cosa inserire nella colonna versione testuale quando esiste la pagina Opera!
- --Xavier121 12:59, 1 nov 2015 (CET)
- Non saprei, è tutto da decidere... Forse conviene fare una colonna "Opera" per le pagine Opere e, in caso di presenza di edizione multiple, segnalare la edizione "migliore" che abbiamo, magari la prima edizione se esistente, ma credo che vada valutato caso per caso. --Accurimbono (disc) 08:39, 2 nov 2015 (CET)
- Io dividerei la colonna Titolo Opera o Indice djvu in due colonne Titolo Opera (con link alla pagina opera) e Indice djvu con link all'Indice DjVu. --Accurimbono (disc) 08:44, 2 nov 2015 (CET)
Djvu fatti con il tuo FineReader
modificaCaro Xavier, mi passi i link a un paio dei djvu che hai ottenuto con il tuo FineReader? Hanno una struttura interna che mi interessa per generalizzare il Djvu Editor. Appena sarò soddisfatto del djvu editor mi piacerebbe passartelo per vedere cosa ne pensi. --Alex brollo (disc.) 09:52, 9 nov 2015 (CET)
Faccio una prova sul trattato breve. --Xavier121 09:58, 9 nov 2015 (CET)
- @Alex brollodivertiti! :) --Xavier121 10:49, 9 nov 2015 (CET)
- @Xavier121Grazie Xavier. La struttura dello strato testo djvu è veramente un po' folle, sarà da ridere tentare di normalizzarla! :-) --Alex brollo (disc.) 12:10, 9 nov 2015 (CET)
- @Alex brollo, se vuoi qualcosa di semplice, ci sono i testi di Friedrich Nietzsche, --Xavier121 12:41, 9 nov 2015 (CET)
- @Xavier121 Al momento, il problema è del tutto strutturale, poco cambia se il testo è semplice o complesso. Se con calma mi spieghi il "trucco" per distinguere chiaramente i djvu di questo tipo (bello sarebbe registrare il tipo di OCR!), poi me ne serviranno altri per le verifiche. Per ora la neve mi va benissimo. (Magnifico il djvu, veramente magnifico.) --Alex brollo (disc.) 15:01, 9 nov 2015 (CET)
- E' stata dura, ma ho "domato" quella struttura di OCR alieno, normalizzandola. Certo che i programmatori FineReader ne hanno di fantasia.... :-) Alex brollo (disc.) 00:17, 10 nov 2015 (CET)
- @Xavier121 Al momento, il problema è del tutto strutturale, poco cambia se il testo è semplice o complesso. Se con calma mi spieghi il "trucco" per distinguere chiaramente i djvu di questo tipo (bello sarebbe registrare il tipo di OCR!), poi me ne serviranno altri per le verifiche. Per ora la neve mi va benissimo. (Magnifico il djvu, veramente magnifico.) --Alex brollo (disc.) 15:01, 9 nov 2015 (CET)
- @Alex brollo, se vuoi qualcosa di semplice, ci sono i testi di Friedrich Nietzsche, --Xavier121 12:41, 9 nov 2015 (CET)
- @Xavier121Grazie Xavier. La struttura dello strato testo djvu è veramente un po' folle, sarà da ridere tentare di normalizzarla! :-) --Alex brollo (disc.) 12:10, 9 nov 2015 (CET)
Normalize.py
modificaDovrei esserci riuscito; un semplice programmino python converte i djvu "strani" che produci in djvu con strato testo normalizzato, ossia: con la struttura testo identica a quella dei djvu di Internet Archive, e lo fa in un colpo solo, sull'intero file; quindi non serve più normalizzare pagina per pagina al momento della sua apertura in djvu editor.
Le anomalie del djvu stile Xavier ;-) sono sostanzialmente tre:
- assenza dei livelli testo LINE e PARAGRAPH;
- registrazione degli spazi in elementi CHARACTER;
- registrazione dei fine linea all'interno degli elementi WORD.
Dopo il "trattamento" gli elementi CHARACTER scompaiono, i caratteri di fine linea sono usati per costruire i blocchi LINE, e un particolare della struttura è utilizzata per "indovinare" i blocchi PARAGRAPH. Miracolosamente, la struttura XML resta valida (basta un carattere al posto sbagliato o un elemento "aperto" per rendere l'XML invalido!) e può essere riversata nello strato testo.
Immaginando un file djvu di nome Prova.djvu, basta aprire una console e lanciare python normalize.py Prova.djvu
e questo è tutto. Quando vuoi te lo passo :-) --Alex brollo (disc.) 00:43, 13 nov 2015 (CET)
- Non capisco se questa cosa dipenda da un settaggio del mio FR oppure dalla versione utilizzata. In termini di regolazioni in rilettura non ho mai toccato nulla del programma; posso solo immaginare che disattivando la costruzione di livelli multipli succeda qualcosa anche agli strati dell'OCR. La necessità di disattivare i livelli dipende dalla qualità dei PDF Opal: l'immagine risultante sarebbe illegibile. Diverso il caso di partenza con TIFF alta qualità. Comunque, passa pure il file su dropbox! :) --Xavier121 12:44, 13 nov 2015 (CET)
- Escluderei ogni relazione fra strato immagine e strato testo. Semplicemente è una scelta di una certa versione di FR. Lo strato testo djvu ha una struttura molto "elastica", ci sono molte alternative possibili. --Alex brollo (disc.) 23:14, 13 nov 2015 (CET)
Versione diplomatica e critica
modificaWow, vuoi dire che bisogna fare due copie per ogni versione? :S --Sannita - L'admin (a piede) libero 11:53, 26 nov 2015 (CET)
- No, no, per il concorso è irrilevante quale trascrizione si preferisce (solo attenzione a non avere differenti versioni nella stessa opera, vale sempre la coerenza). La personale trascrizione su Epulario, con testo diplomatico/testo critico, è principalmente dovuta a due fattori: 1) E' coinvolta una biblioteca/università che potrebbe trovare interessante l'esperimento; 2) mi serve stressare i codici per affrontare un altro testo particolarmente importante. Qui una vecchia discussione. --Xavier121 12:30, 26 nov 2015 (CET)
Re:AltraVersione
modificaEhm..Grazie, non avevo provato la freccia. Anche se il risultato non è proprio soddisfacente...--Omino di carta (disc.) 17:35, 12 dic 2015 (CET)