Discussioni progetto:Trascrizioni/Archivio/2

Il bar del progetto Trascrizioni: discussioni generali

Categoria: Discussioni del progetto TrascrizioniPortale progetti   Progetto trascrizioni   Bar del progetto Trascrizioni   Archivio 

Link pagine->versione testualeModifica

Al momento, esiste il link versione testuale -> pagina sorgente (attraverso il tl|Pagina) ma non esiste un link pagina sorgente -> versione testuale.

Ho implementato sperimentalmente in Pagina:Narcissa.djvu/3 tale link con queste operazioni:

  1. creazione di un'ancora con il tl § sulla pagina (nel caso, essendo un poemetto, ancorandolo al primo verso, con il codice: {{§|numero pagina|verso}})
  2. aggiunta di un tl|AltraVersione nell'intestazione non transclusa (nel caso, ho aggiunto {{AltraVersione|http://it.wikisource.org/wiki/Narcissa#3|Versione testuale}} subito dopo al tag <div class="pagetext"> dell'intestazione).

Nei casi "semplici", come Narcissa, in cui la versione testuale è costituita da una pagina singola, questo completa la procedura. Nei casi, invece, in cui la versione testuale è divisa in capitoli, il link all'interno del tl AltraVersione deve puntare sul capitolo specifico; questo è fattibile via bot scorrendo il codice della versione testuale e estraendo i tl|Pagina compresi dal capitolo, ricavandone l'elenco delle pagine Pagina: a cui aggiungere il link corretto.

Prima di procedere alla preparazione di un ulteriore script interattivo di Alebot, che potrebbe svolgere completamente l'intera procedura in tutti i casi, chiedo la vostra opinione sullo sporco trucco. --Alex brollo (disc.) 11:59, 6 lug 2009 (CEST)Rispondi[rispondi]

Raccolte di opereModifica

Con Indice:Opere di Giovan-Batista Gelli.djvu si pone ancora un vecchio problema: la "resa testuale" di un testo stampato che raccoglie opere distinte di un autore (e si porrà il caso di testi che raccolgono opere distinte di diversi autori). Io proporrei di creare comunque una versione testuale del testo come sta, costituito per ora dal solo indice, riservandoci di decidere in un secondo momento quali voci dell'indice devono puntare su sottopagine della pagina principale, e quali voci invece devono puntare su pagine principali costituite dalle singole opere. Proverei proprio con Opere di Giovan-Batista Gelli - non escludo qualche problema nei sistemi di indicizzazione, ma fin che non si prova... --Alex brollo (disc.) 11:15, 13 lug 2009 (CEST)Rispondi[rispondi]

Anzi: piuttosto che proporlo, lo faccio. Al massimo, si cancellerà o sposterà qualche pagina. --Alex brollo (disc.) 11:26, 13 lug 2009 (CEST)Rispondi[rispondi]

Nuova assegnazione SAL per pagine: "Senza testo"Modifica

Magari è passato sotto silenzio, ma se si apre in modifica una pagina proofread ci si accorgerà che i pulsanti per lo stato di avanzamento dei lavori sono diventati cinque!

il primo di tutti è senza alcuna icona e, è nuovo e serve a indicare le pagine senza testo: sarebbe l'evoluzione del template:pagina bianca. Il vantaggio di tale situazione è che questo contrassegno esclude la pagina dal proofreading, vale a dire che non rende necessario che almeno due utenti guardino tale pagina.

Questa innovazione ha due implicazioni operative:

  • Con un bot occorrerebbe sostituire tutti i template pagina bianca contrassegnando le pagine che li contengono come pagine senza testo
  • Occorrerebbe modificare il sistema di javascript che associano a un livello di SAL le varie iconette per associare l'icona   a tale status.

Per il primo caso mi serve un botolatore, per il secondo dovrò studiarmi un po' di fogli di stile e di javascript.

Ovviamente chi è interessato può darmi una mano... - εΔω 09:05, 18 ago 2009 (CEST)Rispondi[rispondi]

Me ne ero accorto... e non escluderei di aver rollbackato o "corretto" :(
Adesso rivedo criticamente. --Alex brollo (disc.) 21:07, 18 ago 2009 (CEST)Rispondi[rispondi]
OK ci sono. Il codice della pagina, come lo vede il bot, è:
<noinclude>{{PageQuality|0|Alex brollo}}<div class="pagetext">
  
  
</noinclude><noinclude>
<references/></div></noinclude>
e quindi la chiave è il codice {{PageQuality|0|Alex brollo}} conficcato nell'header. In teoria l'elenco delle pagene vuote dovrebbe stare nel "Puntano qui" di tl|pagina bianca, vediamo... sono 271 pagine, di cui ho la lista. Posso far partire Alebot quando vuoi. Allora, ho capito bene? Si tratta di sostituire il PageQiality esistente con {{PageQuality|0|Alebot}}, ed eventualmente, per pulizia, di eliminare anche tutto quello che c'è nella parte testo della pagina (inp particolare il template Pagina vuota). OK? --Alex brollo (disc.) 21:30, 18 ago 2009 (CEST)Rispondi[rispondi]

Cenni sul caricamento via bot di testi nel nsPaginaModifica

Il caricamento di testi sul nsPagina può essere fatto via bot, e quando riesce, dà una gran soddisfazione.

Prerequisito è che all'interno del testo ci sia un chiaro "segnale" del punto di inizio pagina, e che questo segnale sia esattamente allineato con il contenuto del file djvu che verrà presentato a fronte.

I testi da LiberLiber (versione txt) ce l'hanno "forte e chiaro", e questo, ad esempio, ha consentito di caricare Zibaldone. I testi da Internet Archive (versione txt) ce l'hanno invece incompleto e confuso, essendo semplicemente il risultato della scansione nel numero pagina, con moltissimi errori: una cosa da verificare attentamente a mano. Al contrario, su Internet Archive il segnale è chiarissimo all'interno della versione djvu.xml del testo; ma il file è di una complessità tremenda, se usato a mano, perchè "mappa" le singole parole con le coordinate in pixel all'interno delle singole pagine. Per uso "umano" questo file è totalmente inutilizzabile, occorre disporre di un "estrattore" che ripeschi le singole parole, estraendole dal maragma xml, e le ricucia in pagine. E io me ne sono costruito uno.

I testi in qualsiasi formato immagine, organizzato pagina per pagina, passati a un OCR dall'utente, penso che non diano problemi, in quanto il programma OCR li organizza, suppongo, in pagine (non dispongo di questi programmi, non ne so quasi nulla).

In tutti i casi in cui si dispone di un testo continuo, senza alcun segnale di inizio-fine pagina, il segnale tocca infilarlo a mano. E' quello che faticosamente sto facendo su Zibaldone, al momento lavoro al Volume V.

Infilato il segnale di inizio pagina, uno script python può "segmentare" il testo in pagine, e può eseguire le ulteriori elaborazioni preliminari al caricamento. Si tratta - in genere - della conversione di codifica, cosa assai esoterica che mi ha a lungo dato grattacapi. Occorre infatti trasformare la codifica del testo in input in Unicode, e la manovra giusta da fare dipende dalla codifica utilizzata nel testo che si è segmentato.

Io ho utilizzato script python "do it yourself" per "battere" tutte queste strade, ma uso script "personali", non nel senso che ne sia geloso, ma che sono poco generalizzati, poco documentati, e quindi inutilizzabili per utenti che non siano me stesso. Per generalizzare il loro uso, occorerebbe innanzitutto mettersi d'accordo sul "segnale di inizio pagina", e poi crere un gruppetto di utilizzatori che usi le versioni alfa (abbozzi di prova), e poi le versioni beta (script che potrebbero anche essere "definitivi") degli script, per evitare il famoso rischio "ogni scarafone".

Se c'è qualcuno interessato, sarei ben contento di condividere tutti gli script che ho, e di raffinarli... prerequisito: una conoscenza (anche ultra-elementare) di python. --Alex brollo (disc.) 09:37, 29 ago 2009 (CEST)Rispondi[rispondi]

Aggiungo... esiste pagefromfile.py (linkato in meta:Using_the_python_wikipediabot#Scripts), ma a un primo sguardo preferisco gli sctipt miei, che "masticano" tranquillamente testi di centinaia di pagine. --Alex brollo (disc.) 14:48, 31 ago 2009 (CEST)Rispondi[rispondi]
Novità: nella nuova estensione proofread, dovrebbe essere previsto il caricamento automatico dell'eventuale testo integrato nel file djvu. Tale testo dovrebbe essere presente e utilizzabile nei file djvu di Internet Archive. Non ho ancora avuto occasione di verificare: qualcuno ha provato? --Alex brollo (disc.) 14:23, 7 ott 2009 (CEST)Rispondi[rispondi]

SillaboModifica

Cari amici,

ho un dilemmuccio prima di fare un lavoraccio per nulla

Abbiamo Indice:Sillabo.djvu. Queste pagine sono transcluse in Sillabo mentre in Con quanta cura (enciclica) - Sillabo/Sillabo c'è ancora il testo e non la transclusione delle pagine. Dato che volevo trasformare il primo in rinvio al secondo si pone un problema, dato che il secondo è diviso in tante pagine quanti sono i capitoli del Sillabo. Qual è la strategia migliore? Io vedo due scenari, poi ditemi voi...

  • Il più brutale: tengo il testo del Sillabo (come è ora Sillabo) unito in una sola pagina e cancello i vari capitoli in cui è stato inizialmente diviso.

Per amor di citazione dovrei trovare comunque la maniera di rendere ancorabili i vari capitoli.

  • Inserisco nel testo da transcludere i tag section che richiamerò nei vari capitoli... lavoraccio!

La seconda soluzione è la più carina tecnicamente, ma prima di sottopormi a un tour de force vedete altre soluzioni? - εΔω 12:23, 8 set 2009 (CEST)Rispondi[rispondi]

Cancellare contenuto Sillabo e inserire redirect a Con quanta cura (enciclica) - Sillabo/Sillabo? --Xavier121 13:22, 8 set 2009 (CEST)Rispondi[rispondi]
  Fatto - εΔω 16:33, 8 set 2009 (CEST)Rispondi[rispondi]

Bug che ci riguardaModifica

C'è un bug (corretto nella versione del software più recente, ma non ancora implementata qui) dell'estensione ProofRead che mi ha fatto impazzire. In pratica, al momento del salvataggio della pagina viene inserito erroneamente un carattere di acapo fra la fine del testo della pagina Pagina e il "footer". Questo crea sottili problemi nella transclusione nel caso che le pagine finiscano a metà di un paragrafo.

Quindi: non impazzite se qualcosa non funziona nella transclusione e vi compare nel testo trascluso un acapo misterioso che resiste a ogni tentativo di correzione... magari mettete qui il link alla pagina incriminata, la correggerò via bot non appena il problema si sarà risolto. --Alex brollo (disc.) 14:18, 7 ott 2009 (CEST)Rispondi[rispondi]

Mezz'ora fa, dopo una chiacchierata con Edo, mi sono reso conto che il bug è stato corretto. Ho scatenato Alebot, che sta sistemando le pagine di Indice:Zibaldone di pensieri I.djvu. Nel frattempo controllo la situazione sul volume VII. Segnalatemi altri Indici che necessitano di una ripulita! --Alex brollo (disc.) 23:57, 14 ott 2009 (CEST)Rispondi[rispondi]

SenofonteModifica

Sto lavoricchiando a due opere di Senofonte abbandonando temporaneamente il mio ruolo di aiutante di Alebot. Ho incontrato vari problemi che pongono svariati interrogativi... il primo è la qualità della traduzione settecentesca: la costruzione dei periodi è così intricata che rende certi passaggi quasi incomprensibili. Il secondo, una serie di seri problemi della relazione "molti a molti" (il testo originale raccoglie opere di due autori diversi, e di uno, Senofonte, raccoglie più opere).Il terzo è che ho l'impressione che il traduttore sia caduto in qualche trabocchetto della lingua greca o abbia interpretato con una certa libertà... parla di staffili e staffe, ad esempio, quando mi risulta che avebbero dovuto trascorrere quasi 1000 anni prima della loro scoperta...

Comunque, ho trascrirtto fedelmente il testo; chiedo l'aiuto di chi conosce abbastanza greco da scovare nella wikisource greca, se ci sono, le due opere su cui sto lavorando per aggiungere l'interlink. Io ho interlinkato la versione francese, che pare più fedele (niente staffe....); sulla source inglese purtroppo le due opere non sono ancora trascritte.

Ledue opere da interlinkare con la versione greca sono Dell'arte di cavalcare e Del carico del generale della cavalleria. Grazie! --Alex brollo (disc.) 00:24, 25 nov 2009 (CET)Rispondi[rispondi]

Caro Alex,

Quanto all'interlink il testo greco di ambo le opere per ora è solo presso il Progetto Perseus 1 e 2. Lì tra l'altro c'è anche una traduzione inglese. Appena posso proverò a leggere degli scampoli della traduzione italiana per capire cosa abbia combinato il nostro traduttore, ma che i traduttori meno accorti tendano ad attualizzare anche a sproposito non è certo una fatto sporadico che riscontro spesso anche nelle correzioni di compiti in classe. Lungi da me e da chiunque correggere la traduzione d'autore. Semmai in pagina di discussione potrai profonderti in commenti e supposizioni. Sul secondo problema avrema da discustere con più calma. - εΔω 01:32, 25 nov 2009 (CET)Rispondi[rispondi]

Me ne guarderò bene dal "profondermi". Alla fine ho capito: wikisource è una fonte, e restituisce un testo maneggevole, facilmente utilizzabile, e molto fedele, per chiunque altrove voglia utilizzarlo secondo le sue possibilità e i suoi interessi. Nella rilettura, annoterò i passi in cui l'italiano è incomprensibile, ho visto che spesso, rileggendo più volte, in giorni diversi, il significato poi emerge... per i casi più disperati chiederò aiuto. Grazie! --Alex brollo (disc.) 18:07, 25 nov 2009 (CET)Rispondi[rispondi]
Su el.source un utente mi ha incoraggiato a inserire le due opere da Perseus... Vediamo se ne viene fuori un AM ("Sembrava impossibile, ma ce l'abbiamo fatta") ;-) --Alex brollo (disc.) 09:05, 26 nov 2009 (CET)Rispondi[rispondi]
Primi timidi tentativi su una sandbox: el:User:Alex brollo/1. Ma poi ho pensato che posso usare anche una sandbox "nostrana"... lo farò. --Alex brollo (disc.) 11:01, 26 nov 2009 (CET)Rispondi[rispondi]

Senofonte IIModifica

Finita la trascrizione delle due opere di Senofonte che mi interessavano, dopo una rapida incursione su el.source sono comparsi là i due originali in greco, tratti da Perseus. Mi domando se fosse accettabile una leggera integrazione di formattazione,rispetto all'originale (senza modificare il testo) anche qui su it.source, per renderlo più facilmente confrontabile con l'originale. Se mi date l'OK potrei ideare qualche trucco per rendere visibile tale formattazione aggiuntiva solo nella versione testuale mediante il solito bravo tl|Pt o analogo.

  1. divisione del testo in sezioni, come su Perseus
  2. numerazione delle sotto-sezioni, come su Perseus e quindi su el.source

Che ne dite? date un'occhiata a el:Ιππαρχικός e confrontatela con Del carico del generale della cavalleria (in questo caso la visualizzazione a fronte proprio non funziona) o a el:Περὶ Ἱππικῆς e Dell'arte di cavalcare (qui funziona, ma occorrerebbe la suddivisione in sezioni e sotto-sezioni).--Alex brollo (disc.) 00:38, 28 nov 2009 (CET)Rispondi[rispondi]

Di sto, ma precisiamo un paio di punti:
su Perseus la frammentazione in microsezioni è sistematica e fissa, a volte anche indipendentemente dalle sezioni del testo stesso, dunque non ne seguirei l'esempio.
Sulla seconda soluzione sono moderatamente favorevole ma dato che potremmo creare un precedente potenzialmente pericoloso desidero che un numero congruo di partecipanti dia il suo assenso per poter invocare il consenso a questa eccezione. - εΔω 10:46, 28 nov 2009 (CET)Rispondi[rispondi]
Attendo. Tenete conto che il riferimentonon è direttamente Perseus, ma l'originale el.source, che in questo caso ha importato l'idea Perseus. La formattazione quindi servirebbe, in questo come in altri casi, ad adeguare una versione secondaria source con la versione originale source, quando presente, rendendo molto più agevole ed efficace l'interlinking. --Alex brollo (disc.) 13:40, 28 nov 2009 (CET)Rispondi[rispondi]
Pensandoci bene: nulla impedisce (se gli amici di el.source sono d'accordo) di fare una "buona" suddivisione in microsezioni su el.source e di riprenderla qui. Tuttavia la suddivisione Perseus sarebbe più facile da seguire, per me, perchè la traduzione inglese farebbe da "stele di Rosetta". --Alex brollo (disc.) 18:01, 28 nov 2009 (CET)Rispondi[rispondi]

Aiuto per pagina principaleModifica

Cari amici,

sto meditando su come porre in evidenza in pagina principale qualche opera che ricada in questo progetto. Ho pensato a questo: possiamo richiedere la rilettura di opere al 75% Siccome l'attuale SAL funziona per le singole pagine ma solo parzialmente per gli indici, che ne direste se tappassimo questo buco?

Il lavoro è già iniziato: in alcuni indici il template:Qualità è stato posto. Poniamolo in tutti secondo la tabella qui proposta e creiamo un elenco di opere al 75% —non saranno certo molte— Un elenco così, mantenuto in una pagina apposita (che so, una a caso come Wikisource:Aiuta Wikisource) sarebbe un bel richiamo. - εΔω 17:06, 5 dic 2009 (CET)Rispondi[rispondi]

Proposta per trascrizioni inverseModifica

Cari amici,

L'elenco dei testi per le trascrizioni inverse è ora in ordine alfabetico, ma la necessità di vedere le note per capire a che punto è un lavoro è operativamente controproducente: propongo una ristrutturazione dell'elenco ordinando i testi per stato di avanzamento dei lavori

  1. Edizioni Wikisource: quelli finiti e sistemati(ora in fondo)
  2. Testi al 75%: quelli solo da rileggere
  3. i veri testi "da trascrizione inversa" cioè quelli con versione testuale completa e pagina indice ma senza versione testuale
  4. i testi con versione testuale completa ma senza indice
  5. i testi con versione testuale, proofread o indice mancanti

Il vero elenco sarebbe quello delle ultime tre categorie. È troppo complicato? Si può semplificare? Se non ricevo feedback procedo domani. - εΔω 19:07, 14 dic 2009 (CET)Rispondi[rispondi]

Tips & tricksModifica

Una furiosa galoppata nel magico mondo dei template Intestazione mi ha dato l'opportunità di innumerevoli "incastramenti" e per evitare ad altri cefalee vi elenco alcuni dei miei errori, così voi li schivate.

tag noinclude, includeonly, onlyincludeModifica

Mi sono scervellato per trovare il trucco per transcludere una pagina in modo che conservi questi tag nel codice transcluso. Dopo innumerevoli tentativi mi sono deciso a entrare in #wikisource e ho interpellato l'oracolo ThomasV. La sua risposta: "You cannot". Breve e chiara. ;-)

tag onlyincludeModifica

Nel corso della transclusione di una pagina ha un bellissimo effetto: "marca" l'unica parte della pagina che va transclusa, ma ne permette comunque la visualizzazione diretta (e quindi è diverso da includeonly, che marca un'area che va solo inclusa e non visualizzata!). Questo mi ha consentito, in Testo di prova, un trucco magico: esattamente come siamo abituati a fare nelle pagine discussione per l'infotesto, a ottenere un tl Intestazione per le pagine delle sezioni/capitoli semplicemente transcludento l'intera pagina principale, dove il tl Intestazione è marcato con tag onlyinclude. Problema: il tag viene valutato immediatamente... agisce comunque, anche se è messo dentro tag nowiki e addirittura dentro tag di commento html. Il che è inatteso e può causare cefalee da debugging.

tag sectionModifica

Immaginate che ci siano due section, una '''<section begin=autore ignoto />''' e una <section begin=autore />. Aimè, transcludendo la sezione chiamata autore il sistema trova anche la section '''<section begin=autore ignoto />. Il problema si risolve usando le virgolette: se ci sono spazi dentro il nome della section, scrivete '''<section begin="autore ignoto" /> e risparmierete una seconda cefalea.

Appello ai trascrittori espertiModifica

Cari amici,

dopo il dotto post di Alex volo molto più basso, e porto un'esperienza assai terra terra:

Ieri Didimo69 mi chiese come sezionare una pagina in due parti perché andassero transcluse in due capitoli diversi.

Provai a spiegarglielo, rendendomi conto così che non c'è alcun aiuto per queste operazioni ormai consuete in fase di trascrizione.

Facciamo altri esempi? eccoli:

  • Come fare con le note che proseguono nella pagina successiva?
  • Come fare per le parole spezzate a cavallo di pagina?
  • Come formattare un titolo con centrature e dimensioni enormi?
  • Come usare i tag poem con le poesie che continuano per più pagine?

E mi fermo perché queste sono solo tre delle problematiche più ricorrenti.

Occorre una "guida per il trascrittore" for the rest of the world, non per noi. Siccome il futuro è nelle trascrizioni è meglio che ne poniamo le basi ora.

In secondo luogo, prima che passi troppo tempo, è bene porre in una sezione apposita del progetto l'elenco dei template usati nelle trascrizioni (da {{titolo}} a {{pt}}: qualcosa mi dice che essi sono più di quelli che si creda a un primo sguardo, e che sono destinati ad aumentare.

Io non sono l'utente più adatto, dato che il progetto mi riguarda più tangenzialmente di quanto appaia: mi piacerebbe se Xavier si occupasse di questo. - εΔω 10:39, 5 gen 2010 (CET)Rispondi[rispondi]

Agli ordini capitano, ormai è giunto il momento, :D Xavier121 11:21, 5 gen 2010 (CET)Rispondi[rispondi]
Giustissimo che dopo un post dotto ci fosse un post brontolo :-D
Aggiunto un commento gongolo, ossia scherzoso: mi impegno formalmente a dare un contributo all'iniziativa, spargendo ulteriori template nuovi in ogni dove! --Alex brollo (disc.) 13:36, 8 gen 2010 (CET)Rispondi[rispondi]

Cenni sulle novità da divulgare - testareModifica

La nuova versione dell'estensione proofread, lanciata da ThomasV nel settembre 2009, contiene varie cosette interessanti, alcune delle quali attivate (mediante creazione dei tl dedicati) recentemente. Le novità sono tali da modificare profondamente il lavoro degli utenti (e di rendere inutili laboriosi passaggi prima indispensabili).

  1. i testi pdf sono gestiti tal quali i testi djvu. Nessuna esigenza, quindi, della conversione pdf->djvu: basta caricare i pdf su Commons e via. Ho utilizzato questo sistema in Indice:Dell'obbedienza del cavallo.pdf.
  2. se si carica un djvu fornito di "text layer", ossia: del testo integrato, pagina per pagina, come la quasi totalità dei djvu da Internet Archive, il testo integrato OCR nel djvu appare automagicamente al primo edit di una pagina vuota. Potete provare la cosa su una pagina vuota di Indice:Storia della letteratura italiana I.djvu oppure Indice:Storia della letteratura italiana II.djvu.
  3. oltre ai vari gadget di visualizzazione della qualità delle pagine, c'è da esplorare il nuovo tag <pages>, che transclude blocchi di pagine in un solo colpo. Tuttavia, quando l'ho sperimentato, non è gestito dal sistema di costruzione della versione pdf dell'opera, esattamente come la routine non gestiva bene i testi transclusi con il tl Pagina.
  4. adesso, da qualche parte nel server, giace un parametro pagequality che bisognerebbe riuscire a interrogare per visualizzare l'icona SAL associata alla pagina, nella nostra versione testuale; ma non ho idea di come si possa fare, nè, mi pare, en.siource aiuta, perchè è molto meno meticolosa di noi sulla questione Qualità.
  5. il tl OCR non funziona più. L'unico modo di attivare l'interpretazione OCR di una pagina djvu (senza layer di testo) o altro (pdf, jpg etc), è quella di premere il pulsantino OCR di edit ed attendere (pochi secondi) al primo edit di una pagina vuota. Questo preclude la possibilità di richiamare l'OCR con il vecchio template, ostacolando i pochi "abnormal" guidatori di bot ma agevolando in maniera incredibile gli utenti "normal". --Alex brollo (disc.) 11:05, 11 gen 2010 (CET)Rispondi[rispondi]
Hai provato a chiedere a ThomasV come fanno loro a richiedere al bot di passare su gruppi di pagine? Sicuramente hanno un modo. --Aubrey McFato 17:03, 11 gen 2010 (CET)Rispondi[rispondi]
No, il primo che lo sente glielo deve chiedere! --Alex brollo (disc.) 10:04, 14 gen 2010 (CET)Rispondi[rispondi]
Conferma da ThomasV: la "chiamata all'OCR" da bot è disabilitata per rischio di overload del server.
Però ho indicazioni interessanti su procedure js di post-elaborazione dell'OCR: function typographie() in http://fr.wikisource.org/wiki/MediaWiki/Monobook.js. Esegue un minimo di post-elaborazione automatica sull'output di una pagina generata dall'OCR, solo se non è mai stata editata. Altre funzioni utili di post-elaborazione in http://en.wikisource.org/wiki/User:Billinghurst/monobook.js. --Alex brollo (disc.) 15:38, 21 gen 2010 (CET)Rispondi[rispondi]

PoemModifica

Finalmente, dopo qualche try and learn (compreso un ngenuo tentativo di simularne l'azione con un template, e precipitosa ritirata... ;-) ), mi sono deciso a guardare per bene la documentazione del tag poem e ho capito cosa fa, esattamente, e cosa può fare. Visto l'uso intensivo che ne facciamo qui, io penso che una pagina dedicata che spieghi TUTTO di questo tag non sarebbe male, potrei tradurre la documentazione ufficiale ... ma c'è qualcuno che poi sistemi la cosa in conformità con la bella grafica che contraddistingue le pagine di aiuto? Sistemare graficamente è una cosa che mi frustra... se qualcuno ci sta, apro una sottopagina Utente:Alex brollo/Aiuto poem da correggere liberamente e poi integrare nelle pagine di aiuto ufficiali. --Alex brollo (disc.) 09:30, 27 gen 2010 (CET)Rispondi[rispondi]

Bene, bluifico il link. Penso che userò i cassetti per nascondere all'utente impressionabile le parti più exoteriche.... il titolo provvisorio di tali cassetti sarà "Riservato agli smanettoni" :-) --Alex brollo (disc.) 18:01, 27 gen 2010 (CET)Rispondi[rispondi]

Altro uso "fantasioso" di {{Pt}}Modifica

Cari amici, volevo segnalare come un paio di esperimenti compiuti a suo tempo siano giunti a maturazione: ho usato il template:Pt in un'altra maniera ceativa.

Guardate a pagina:Sotto il velame.djvu/529: i link ai capitoli sono stati passati attraverso il template Pt in modo che nel nsPagina puntino alle pagine di cui trattano, ma se la pagina viene transclusa come è auspicabile per le pagine di sommario... magicamente i link punteranno ai capitoli corrispondenti della versione testuale!

Il bello di questo trucco è che può essere usato dovunque ci sia un sommario in versione proofread: in tal maniera anche il sommario in versione testuale potrà rispecchiare quello cartaceo.

Il brutto è che questo trucco non sembra proprio funzionare volendo transcludere le pagine nel nsIndice. - εΔω 10:27, 6 feb 2010 (CET)Rispondi[rispondi]

Indice:Grammatica filosofica della lingua italiana.djvuModifica

Ho cominciato a lavorare con questo libro Indice:Grammatica filosofica della lingua italiana.djvu, qualcuno può aiutarmi in questo? Shooke    (Discussioni) 15:27, 5 mar 2010 (CET)Rispondi[rispondi]

Benvenuto... Ottima scelta... stai tranquillo, ti seguiremo... Il tempo è dalla nostra :D Xavier121 19:39, 5 mar 2010 (CET)Rispondi[rispondi]
Grazie Shooke    (Discussioni) 22:42, 5 mar 2010 (CET)Rispondi[rispondi]

Un'altra passata alle pagine sommario: <pagelist /> espertoModifica

Cari amici,

per fortuna arrivano i nuovi utenti a svegliarci: grazie all'intervento di Utente:Shooke ho preso atto che nei nostri sommari potrebbero indicare molto meglio la numerazione delle pagine, e non ne abbiamo ancora approfittato. Leggendo qui è spiegato come mostrare nel sommario automatico i numeri romani, e come sincronizzare la numerazione delle pagine non in base a quella del file djvu, ma in base a quella del libro. Per chi non vuole leggere in inglese trascrivo qui gli esempi:

Fintantoché i nostri sommari sono ancora in numero umanamente trattabile propongo che ripassiamo tutti gli indici per perfezionare la numerazione degli indici. Ci vorrebbe un lavoro di squadra per fare in modo di non ottimizzare i tempi: io comincio dall'inizio della categoria. Chi mi dà una mano?

Si può copiare il seguente tag "frankenstein" e incollarlo per poi scolpirlo secondo le esigenze:

 <pagelist from=10 to=100 1to10="roman/highroman/empty" 11="testo" 11=1 />

- εΔω 11:12, 7 mar 2010 (CET)Rispondi[rispondi]

Ho inserito malamente le tue scoperte qui: Aiuto:Come creare una pagina indice. Dacci un'occhiata, che lavorando tutti insieme su una pagina alla volta secondo me riusciamo a migliorare la documentazione. --Aubrey McFato 14:22, 7 mar 2010 (CET)Rispondi[rispondi]

Rime (Vittorelli)Modifica

Cogliendo l'occasione di un sonetto "perso" di Vittorelli, senza Infotesto, ho ripescato su Opal una raccolta di opere che comprende anche il sonetto e l'ho ficcata in File:Rime (Vittorelli).pdf, creando anche il relativo Indice:Rime (Vittorelli).pdf. Ho già un decente OCR dell'intero libretto. Se qualcuno ne ha bisogno, potrei caricarlo in una pagina provvisoria tipo Rime (Vittorelli)/Sandbox.

Ne approfitto per:

  1. sperimentare l'uso di pdf "a doppia facciata" come immagine proofread (niente male);
  2. sperimentare soluzioni al fastidioso problema delle opere singole (pagine principali su ns0) che hanno però come fonte una raccolta. Il "trucco" utilizzato a suo tempo via redirect non mi convince; ipotizzo due strade:
    1. opera-raccolta in ns0, che collega testi indipendenti, ognuna pagina principale in ns0; in questo caso ogni testo indipendente deve possedere la sua {{Intestazione}} completa;
    2. opera-raccolta in ns0, che collega sottopagine che contengono le opere singole, in cui {{IncludiIntestazione}} è "truccato" per comportarsi come se la sottopagina fosse una pagina principale (grafica del box, generazione delle categorie). Un parametro aggiuntivo a IncludiIntestazione dovrebbe essere sufficiente.

In ambedue i casi si eviterebbe il "trucco redirect". --Alex brollo (disc.) 15:55, 24 mar 2010 (CET)Rispondi[rispondi]

Problema paleo-proofreadModifica

La mia attenzione è stata attirata da un malfunzionamento di Indice:Poesie inedite di Silvio Pellico, corposa opera proofread impostata con immagini singole jpg. Il problema è il superamento dei template ammessi per una pagina. Quest'opera pone il problema della "modernizzazione" (via file unico djvu o pdf) dei primi Indici caricati su it.source. Ho avviato lo scaricamento dei due volumi da Gallica, dove per scaricare ho dovuto accettare l'uso "non commerciale" del file... :-( . Il bot dovrebbe essere in grado di ricomporre i due indici e di correggere la transclusione. Procedo? --Alex brollo (disc.) 14:14, 6 apr 2010 (CEST)Rispondi[rispondi]

Procedi. Magari anche con gli altri indici... (Edo sloggato) 14:38, 6 apr 2010 (CEST)
OK. Pronti al via File:Poesie inedite di Silvio Pellico I.pdf e File:Poesie inedite di Silvio Pellico II.pdf con lo speciale tag Commons PD-GallicaScan che mi risolve il problema di cui sopra --Alex brollo (disc.) 15:20, 6 apr 2010 (CEST)Rispondi[rispondi]
Lanciato il "mostro" FineReader, carico le pagine ex novo, poi recuperiamo il recuperabile dal vecchio Indice... e infine grande pulizia. :-)
Verrà fuori un lavoro "alla Zibaldone": due indici diversi che puntano sulla stessa opera testuale. No problem.
Per ora vale la pena di lavorare sui grossi indici con immagini singole: chi ne ha la lista in mente me le indichi, grazie! --Alex brollo (disc.) 17:31, 6 apr 2010 (CEST)Rispondi[rispondi]

Se te la senti potresti gradualmente compiere un'opera radicale di adeguamento: prendiamo tutti gli indici a opere multiimmagine e li adeguiamo a versioni djvu o pdf create con tali immagini...

ElencoModifica

Parliamone. - εΔω 19:52, 6 apr 2010 (CEST)Rispondi[rispondi]

Ho preso un po' di mano nella conversione jpg->djvu, gli inizi sono stati faticosi. L'attuale stile (ricaricate le immagini) è: spostare lasciando un redirect il file Indice; spostare invece le pagine Pagina senza lasciare redirect (spostamento via bot con parametro -noredirect). Che ne dici Edo? --Alex brollo (disc.) 08:34, 24 apr 2010 (CEST)Rispondi[rispondi]
Leggo solo ora: Sì su tutta la linea. - εΔω 19:00, 10 mag 2010 (CEST)Rispondi[rispondi]

Nuova impresa...Modifica

Cari amici,

come premesso eccomi con un tentativo di testo proofread bilingue: L'Inno a Roma di Pascoli da lui composto prima in latino e poi tradotto in italiano. Qui ne curo la versione italiana, e dall'altra parte quella latina. Temo che avrò bisogno di una manina di là, ma qui la transclusione sta funzionando! Se non riuscirò ad arrangiarmi chiederò lumi. - εΔω 20:26, 10 apr 2010 (CEST)Rispondi[rispondi]

E se facessimo una versione testuale con testo latino a fronte, tutta nostra, mediante "transclusione affiancatrice"? Per prova, almeno, la vorrei vedere. L'accoppiamento mediante interlink è meglio che un calcio negli incisivi, ma non è mai perfetto.... qualche test preliminare in Biblioteca l'ho fatto. Ho guardato il codice e sono allibito. La prima transclusione interwiki! Suoniamo le campane!
Quanto prima occorre stabilire una serie di contatti diplomatici per creare un set minimo di special iw-templates con lo stesso nome e lo stesso effetto qui e là, ben riconoscibili (prefissati Iw_? boh? ) e fare in modo che restino "allineati". Dopodichè.... :-) --Alex brollo (disc.) 16:38, 13 apr 2010 (CEST)Rispondi[rispondi]
Beh, se intanto volessi farmi felice (sto provando a capirci qualcosa da solo, ma sono sicuro che tu ci metteresti un decimo del mio tempo) vorrei capire come riprodurre in lingua italiana (e conseguentemente anche latina) la scritta "its text comes from xx.wikisource" come in questo esempio da en.source. Per il momento lascio un messaggio su oldwikisource ma se fosse necessario non esiterei a copiare qui il javascript e personalizzarlo con le dovute traduzioni. - εΔω 22:03, 13 apr 2010 (CEST)Rispondi[rispondi]
Il messaggio origina da qui: http://wikisource.org/wiki/MediaWiki:InterWikiTransclusion.js
ed il js viene caricato qui: http://en.wikisource.org/wiki/MediaWiki:Common.js
nella sezione:
/*scripts imported from wikisource.org*/
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:Base.js&action=raw&ctype=text/javascript');
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:OCR.js&action=raw&ctype=text/javascript');
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:InterWikiTransclusion.js&action=raw&ctype=text/javascript');
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:Corrections.js&action=raw&ctype=text/javascript');
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:IndexForm.js&action=raw&ctype=text/javascript');
importScriptURI('http://wikisource.org/w/index.php?title=MediaWiki:Dictionary.js&action=raw&ctype=text/javascript');
Non so se è subbiciente ma è una buona partenza. --Alex brollo (disc.) 09:13, 14 apr 2010 (CEST)Rispondi[rispondi]

Incredibile velocità di creazione di nuove pagine "a mano"Modifica

Ho creato a velocità "quasi-bot" alcune nuove pagine testuali da proofread de Canti (Sole) più che aaltro per riportare il conteggio pagine a 45000 che come numero mi piace ;-).

La tecnica (avendo un buon OCR... quello che vedete in I Siciliani non è stato ancora toccato da umano) è:

  • si crea l'indice sulla pagina principale;
  • si va a una pagina già preparata e si copia il codice;
  • si segue il link rosso della successiva, ci si incolla il codice, si modifica il titolo, e si imposta pages index con la pagina seguente in from=, abbondando nel numero pagina to=;
  • dall'anteprima si adocchia il numero della pagina finale; si corregge il to=; si salva il codice e si salva la pagina.
  • si torna alla pagina principale, click su link rosso successivo, daccapo.

Facendoci un po' mano, una nuova pagina testuale è pronta in.... boh? cercasi record documentato da UltimeModifiche: tempo da battere, al momento, 1 minuto per pagina (ma ero lento), visto che ne ho create 3 in 3 minuti. --Alex brollo (disc.) 16:32, 13 apr 2010 (CEST)Rispondi[rispondi]

ManoscrittiModifica

I manoscritti, temo, sono "al limite del pubblicabile", qui su source; mi rendo conto che sfumano nei "contributi originali" non pubblicati, ed è una china che potrebbe portare a vari problemi.

Tuttavia vi chiedo se è possibile fissare una grossolana "griglia" di manoscritti pubblicabili, tenuto conto di epoca e notorietà dell'autore; messi alcuni limiti proporrei comunque che gli eventuali manoscritti da pubblicare fossero sottoposti alla discussione della comunità.

L'occasione di parlarne è costituita dal fatto inatteso che dispongo di un interessante manoscritto scieentifico-divulgativo, Indice:Flora medico-economica.djvu, datato 1844, di Leonardo Brumati, abate, poeta e botanico della "bisiacheria", il territorio di Monfalcone, autore già presente nella wikisource multilingue con alcuni componimenti poetici in "bisiac"; e quel che è più inusuale, dispongo anche della trascrizione pressochè completa, fatta da Vanni Aizza, un amico appassionato e competente in campo botanico, che non vedevo da tempo e che si è imbarcato nell'impresa di trascrizione senza minimamente conoscere l'esistenza di Wikisource; adesso che conosce il progetto, ha accettato di pubblicarlo qui, e spero che presto sia fra i nostri utenti.

Quindi,mi rivolgo alla comunità, per ora informalmente, magari Edo poi approfondirà: che ne dite? --Alex brollo (disc.) 16:35, 19 apr 2010 (CEST)Rispondi[rispondi]

In questo caso, secondo me non abbiamo problemi. Ovviamente, più i metadati sono corretti e più l'autore è importante, meglio è. Io stesso avevo pubblicato qualcosa che non era a stampa: Lettera ad Alessandro Melani. A proposito, se ti va passala al 101% ;-) --Aubrey McFato 17:47, 20 apr 2010 (CEST)Rispondi[rispondi]

Inno a Roma: problemiModifica

Cari amici,

ho terminato da poco la prima parte dell'inserimento del testo bilingue Inno a Roma (Pascoli), cioè Indice:Hymnus in Romam.djvu. Ovviamente se qualche anima candida volesse dargli un'occhiata non farebbe che grande piacere, ma questo non è il punto principale del mio intervento: ho bisogno di un paio di mani:

  • Mi piacerebbe se un wikigrafico (quale io non sono) estraesse le molte e belle immagini che adornano il libro in maniera da poterle inserire dove occorre: sono in effetti un complemento indispensabile del libro.
  • MI piacerebbe avere un feedback sulla modificabilità intersource delle pagine: funziona tutto? Manca qualcosa? Discutiamone.
  • Infine vorrei rendere il più possibile la versione testuale simile a quella proofread, magari trovando una soluzione ai pasticci del tag poem... ma sistemiamo una cosa alla volta: a voi la parola. - εΔω 18:24, 19 apr 2010 (CEST)Rispondi[rispondi]
Io ho avuto una durissima delusione.... speravo che una volta transcluso il testo latino nella pagina Pagina, questa si potesse a sua volta transcludere; evidentemente il tool è "malmaturo". Peccato.
Non capisco... come è giusto che sia la parte latina si transclude su la.source, quella italiana su it.source... dove sta il problema? - εΔω 19:17, 19 apr 2010 (CEST)Rispondi[rispondi]
E' che io immaginavo (volendo) di poter allestire una versione testuale con testo latino a fronte, transclusa da un altro progetto.... niente da fare, a meno di non lavorare sulla wikisource multilingue, dopo averci esportato ambedue i testi. Ma non badarci, è una mia vecchia fissazione; prima o poi ci saranno i mezzi tecnici e ne riparleremo. --Alex brollo (disc.) 23:40, 19 apr 2010 (CEST)Rispondi[rispondi]
Per la grafica vi sono un paio di cose che si possono fare facilmente, altre meno. Cominciamo da queste ultime.
La grafica originale è dominata dal colore di fondo, e dai riguadri in accordo con tale colore. Le immagini, ma soprattutto i fregi, ottenuti nel colore originale e piazzati su fondo bianco temo diano un pessimo effetto.... Sarebbe essenziale, per ricordare la grafica originale, suddividere il testo in "quadri colorati e incorniciati". Ma mi pare una cosa un po' audace.
Guarda, per il momento mi accontenterei di una cruda estrazione di immagini e basta. Quanto a bordi e colore di sfondo ci si può pensare per la versione testuale ma non lo vedo come obiettivo fondamentale. --εΔω 19:16, 19 apr 2010 (CEST)Rispondi[rispondi]
Procedo, ho bisogno di impratichirmi un po' con la gestione immagini. Il metodo più spiccio, da IA, è scaricare le immagini singole (in questo caso jpg), ritagliarle e via. Ma.... che faccio del colore di fondo? le rendo in toni di grigio, o le lascio con fondo leggermente colorato? --Alex brollo (disc.) 23:50, 19 apr 2010 (CEST)Rispondi[rispondi]
Poem è, volendo, domato, ma con un artifizio che non risolve il problema alla radice. Occorre armarsi di coraggio e sperimentare l'applicazione di tutte le righe del codice css che fr.source dedica a poem. La mia vecchia ricerca indica che questa modifica è assolutamente necessaria. Il "trucco" che si può adottare qui ("tirare in alto" la div) si rivolterà contro chi lo usa non appena le cose verranno sistemate.
Il brutto effetto dei titoli "mal centrati" si risolve in due modi:
  1. o si tirano i titoli dentro poem, e poi li si colloca per bene a mano;
  2. oppure si usa il nuovo parametro che ho introdotto (senza documentarlo ;-) ) nel tl Centrato, proprio per risolvere questo problema. --Alex brollo (disc.) 18:56, 19 apr 2010 (CEST)Rispondi[rispondi]
La seconda ;) - εΔω 19:16, 19 apr 2010 (CEST)Rispondi[rispondi]

ImmaginiModifica

Le immagini sono caricate. Ne ho aggiunte un paio per prova. Buon lavoro... --Alex brollo (disc.) 01:46, 20 apr 2010 (CEST)Rispondi[rispondi]

CentratoModifica

Questo è l'effetto con l=18em dalla pag. 61:


IL NOME MISTERIOSO

 

— ma qual nome ora, de’ tuoi tre nomi,

dirà l’Italia? Il nome arcano è tempo
che si riveli, poi eh’ è il tempo sacro.
Risuoni il nome che nessun profano
sapea qual fosse, e solo nei misteri
segretamente s’inalzò tra gl’inni:
mentre sull’ombra attonita una strana
alba appariva, un miro sole, e i cavi

TL CapoletteraModifica

Ho importato da en.source l'ottimo tl|Capolettera, che fa un ottimo lavoro e soprattutto, selezionando il testo e copiaincollandolo su un file txt, restituisce la lettera testuale senza fare scherzi. Hai dato un'occhiata? Potremmo provarlo con i bellissimi capolettera di Hymnus... ma tocca portarlo anche "la"...--Alex brollo (disc.) 01:57, 20 apr 2010 (CEST)Rispondi[rispondi]

Prova su strada su la.sourceModifica

Il testo latino vi dà un'idea di ciò a cui sto puntando: non siamo certo alla fine, ma si sta procedendo alacremente. - εΔω 15:55, 20 apr 2010 (CEST)Rispondi[rispondi]

Bellissimo! Grande Edo, sono curioso di vedre gli sviluppi. --Aubrey McFato 17:43, 20 apr 2010 (CEST)Rispondi[rispondi]
Ho ritoccato un paio di punti (ho "chiuso" il div di default, e ho aggiunto una nuova width alla tua prima div; adesso la grafica complessiva è molto più vicina a quella della pagina originale). Vedo che anche su la.source occorre mettere mano al css per sistemare poem!--Alex brollo (disc.) 08:07, 24 apr 2010 (CEST)Rispondi[rispondi]

Statistiche proofreadModifica

Sottopoendo ThomasV a spietato interrogatorio, ho ricostruito il percorso dei dati con cui sono generati i grafici riassuntivi dell'attività proofread delle varie source, disponibili qui: http://toolserver.org/~thomasv/stats.html, come segnaato da Aubrey.

I dati sono generati giornalmente da bot e si ricavano dalla cronologia di questa pagina: http://wikisource.org/wiki/Template:ProofreadPage_Statistics

Ho scaricato l'intera cronologia, vediamo se dando i 4 Mby di dati in pasto a uno script ne ricavo l'estratto dell'andamento temporale numerico del nostro lavoro. Ma devo farlo senza trascurare il lavoro "vero", che in questo momento ha la seguente priorità: portare regolarmente alcune pagine Pagina da SAL 25-50% a SAL 75% ("proofread") e alcune altre pagine da SAL 75% a SAL 100% ("validated"). Penso che andrebbe raccomandato alla miriade di rilettori di non essere "timidi" e di cercare di saltare il passaggio SAL 50% riservandolo al suo significato originale (nell'ambito proofread): pagine "difficili" o "controverse". Il resto, una buona riletta e via al 75% senza tentennamenti. Cercherò di ricordarmene io per primo. --Alex brollo (disc.) 09:34, 28 apr 2010 (CEST)Rispondi[rispondi]

Tag poem e transclusioneModifica

Finalmente, possiamo usare il poem in transclusione senza avere la tentazione di sbattere la testa contro il muro. :-)

Niente più "trucchi", il tag poem va semplicemente posto in testa al primo verso, e in coda all'ultimo, e non ci sono (quasi) problemi. Unico problema un caso particolare, che mi ha dato da pensare: quando una serie continua di versi è spezzata su due pagine e la strofa deve avere un certo margine a sinistra (n spazi bianchi). In questo caso, sena scomodare l'opzione compact di poem, il problema si risolve "forzando", nel primo verso, gli spazi bianchi utilizzando un numero n di tag html &nbsp;. Ho utilizzato questo trucco, ad esempio, in Canti (Sole)/Ad un illustre ecclesiastico, nella strofa spezzata fra la pagina 156 e la pagina 157, e come vedete funziona. Invece, il problema (che lascio là perchè lo possiate vedere) è presente in Canti (Sole)/Pensieri poetici sulla eloquenza del foro penale, ad esempio nella lunga strofa fra le pagine 123 e 124.--Alex brollo (disc.) 00:13, 2 mag 2010 (CEST)Rispondi[rispondi]

Bug capolettera/immaginiModifica

Sono impazzito per risolvere un bug generato da Pagina:Dieci lettere di Publio Virgilio Marone.djvu/8. Nella corrispondente pagina testuale, inspiegabilmente la transclusione mostrava un a capo fra pagina 8 e 9. Dopo una serie di furiosi tentativi, ho scoperto che questo dipendeva da due immagini della pagina, una con il parametro center (il fregio), la seconda con il parametro left (il capolettera).

Dopo parecchi tentativi, non ho trovato altro rimedio che eliminare entrambi i parametri dalle immagini: il primo, includendo l'immagine all'interno di un div class center; il secondo, utilizzando il nuovo Template:Capolettera, da usare comunque sempre perchè consente di "estrarre" un testo completo, continuo e senza difetti (provate; nella pagina 8 il copiaincolla della prima parola risulta, correttamente, "TUtto"). --Alex brollo (disc.) 00:46, 16 mag 2010 (CEST)Rispondi[rispondi]

ePub, questo sconosciutoModifica

Grazie alle note di http://www.guidaebook.com/guida-epub/, segnalate da Accurimbono, ho constatato che la struttura ed il codice di un ePub book sono semplici e aperti (si fa per dire ovvio). Tutto puro testo, o immagini con formato normalissimo tipo jpg per le figure; e il testo è tutto XML, "human readable", ossia: decentemente semplice.

Provate a scaricare un ePub, io sto lavorando su Through the Looking-Glass di Carrol, poi rinominatelo come zip, apritelo con il vostro dezippatore e estraete tutto. Vi apparirà una cartella contenente due cartelle e alcuni file. Aprite la cartella OPS. Troverete una serie di file xml denominati chapter-001.xml, ecc. Apritene uno con firefox. Perfettamente leggibile, con tanto di figure. :-)

Insomma: per leggere un ePub non serve un lettore di ePub. :-) --Alex brollo (disc.) 11:41, 20 mag 2010 (CEST)Rispondi[rispondi]

L'obiettivo in lontananza è quello di trasformare un nostro libro proofread in un ePub. Non è affatto impossibile, "a mano" (basta estrarre il testo, ritoccarlo, riformattarlo per bene, e poi inviarlo a servizi online che lo trasformano in codice ePub). Ma non è questo l'obiettivo: l'obiettivo è l'automazione totale proprio di quei tre passetti (estrarre il testo, ritoccarlo, riformattarlo) che richiedono tempo umano.
Intravedo due possibili strategie.
  1. ottenere, in via automatica, i passi 1-2-3, e poi fare manualmente il passo 4.
  2. ottenere in via automatica anche il passo 4.

Per fare i passi 1-2-3 a sua volta ci sono due possibili strategie.

  1. lavorare sul html prodotto da mediaWiki (ossia, sulla pagina come appare nel nostro browser). Promettente: non c'è più traccia di "orpelli", template, markup wiki, codici di transclusione ecc.; tutto sta lì sulla pagina, in puro codice html, dentro un box ben definito;
  2. lavorare sul codice wiki tal quale. Sembra pazzesco... ma forse non è una strada da abbandonare, perchè - visto che il problema è potare, potare, potare - forse è più facile potare prima che potare dopo che i nostri orpelli sono stati esplosi in un codice html complesso. Da questo punto di vista, la transclusione non offre affatto grandi problemi.
Thinking in progress.... --Alex brollo (disc.) 11:57, 20 mag 2010 (CEST)Rispondi[rispondi]
Ottimo! Segnalo questa pagina con le specifiche ufficiali http://www.idpf.org/specs.htm --Accurimbono (disc) 12:14, 20 mag 2010 (CEST)Rispondi[rispondi]
Agli utenti Firefox segnalo EPUBReader, un'estensione per leggere gli ePub nel browser. --Accurimbono (disc) 14:48, 20 mag 2010 (CEST)Rispondi[rispondi]
Raccogliamo qui ancora un po' di dati e di indirizzi, poi penso che sarà aopportuno riorganizzare il tutto per bene in una sottopagina dedicata del progetto Trascrizioni (oppure potremmo riciclare la pagina Stamperia....). Ottimo complemento un'estensione firefox per leggere l'ePub, a me interessa particolarmente la possibilità di accesso diretto via firefox ai singoli file, ma mi interessa altrettanto un tool semplice che mi permetta di visualizzare agilmente il risultato finale complessivo. --Alex brollo (disc.) 15:31, 20 mag 2010 (CEST)Rispondi[rispondi]
EPUBreader è ottimo per visualizzare il risultato finale degli ePub (zippati e cucinati), per visualizzare i singoli xml bisogna unzippare e cliccare come dicevi tu prima.
Segnalo anche il sistema di catalogazione online OPDS (http://code.google.com/p/openpub/) che stanno standardizzando in questo periodo e credo si diffonderà in breve tempo, utile per cercare nei cataloghi delle varie biblioteche online e visualizzare al vole il libro. (credo che sia utilizzato da FeedBook in EPUBreader) Probabilmente a noi non interessa al momento (abbiamo le categorie e i feed RSS alle categorie), ma è bene sapere che esiste. ;) --Accurimbono (disc) 17:03, 20 mag 2010 (CEST)Rispondi[rispondi]
Alex: ricicla la stamperia. - εΔω 18:31, 20 mag 2010 (CEST)Rispondi[rispondi]
Ok! Comincio a pensare al riciclaggio. Fra l'altro, bisognerà riformattare la pagina progetto ("sezionandola"). Vi segnalo un nuovo tool web - su suggerimento di FiloSottile, quindi assai autorevole e sicuramente sicuro: Dropbox. Crea una cartella sul web (gratis fino a 2 Gby) che "mirrorizza" una vostra cartella sul pc. Qualsiasi cosa mettiate nella cartella locale, verrà rispecchiata in quella web. Qualsiasi modifica facciate a file locali, verrà memorizzata nella cartella web. Dovunque voi siate, potete accedere. Potete condividere le cartelle con chi volete - specificando, una per una, chi può accedere. Ve lo dico perchè tutti i miei file "di studio" li metterò lì dentro. Chi vuole sbirciare, mi avvisi che lo abilito alle cartelle riservate (i "prodotti finali" saranno invece nella cartella pubblica). --Alex brollo (disc.) 20:18, 20 mag 2010 (CEST)Rispondi[rispondi]

Progetto builder(): il puntoModifica

Ho concluso il primo abbozzo "grezzo" del mio personale progetto builder(). L'idea era di seminare un "segnale" (il minimo possibile) nelle pagine Pagina:, in corrispondenza dell'inizio dei capitoli, e poi lasciare che uno script facesse il resto: distinguere le pagine dove c'è bisogno di section, creare ex novo i capitoli in ns0, sistemare i dati necessari per le barre di navigazione, compilare correttamente il tag pages index. Così è stato. Per creare tutte le sottopagine di Rime (Vittorelli) io non sono affatto intervenuto, tranne la "semina dei segnali".

I "segnali" che ho seminato nel nsPagina sono i {{Ns0}}. I due parametri sono nome della sottopagina/capitolo e titolo della sottopagina/capitolo. Guardiamo, ad esempio, Pagina:Rime (Vittorelli).pdf/10. Io ho aggiunto a mano, subito prima del titolo del primo sonetto, {{Ns0|Sonetto 2|Monacandosi la Figlia del Senatore Marco Zorzi, Oratore eloquentissimo, eletto Provveditore a Cattaro.}}. Quindi intendevo creare, a suo tempo, la pagina Rime (Vittorelli)/Sonetto 2, il cui titolo (passato a IncludiIntestazione nel parametro sottotitolo=, era Monacandosi la Figlia del Senatore Marco Zorzi, Oratore eloquentissimo, eletto Provveditore a Cattaro.. Non ho aggiunto le section.

Tutto il resto l'ha fatto lo script.

Al momento, esiste una limitazione: il sistema è stato testato su una struttura di libro semplice (un solo livello di sezioni/capitoli). Inoltre vanno verificate una serie di condizioni anomale in cui il comportamento potrebbe sgarrare.... chi vuol darmi "casi su cui provare" mi fa un piacere. --Alex brollo (disc.) 17:57, 23 mag 2010 (CEST)Rispondi[rispondi]

L'accrocchio è stato utilizzato anche in Poesie (De Amicis) con successo. Sono stati evidenzati un paio di tips insidiosi, ne parleremo. La cosa simpatica è che tutti, o quasi, i tl|Ns0 sono stati inseriti correttamente da un utente abile ma nuuovo di source, a dimostrazione che il loro uso non è poi tanto astruso. --Alex brollo (disc.) 16:33, 31 mag 2010 (CEST)Rispondi[rispondi]
La strada è promettente; ho notato che ha anche una ricaduta importante, che consiste nel fatto di riunire tutti i dati in una sola versione dell'opera, anche nelle opere proofread. Attualmente, invece, per ricavare i dati occorre percorrere entrambe le versioni, perchè i dati sono "sparpagliati" nei ns Indice, Pagina e principale. Disporre di tutti i dati in una sola versione dell'opera, a naso, può rendere la vita meno difficile a futuri programmatori che vogliano affrontare il problema di trasformarla in un eBook. Al momento, tutti i dati necessari a rappresentare la struttura di ogni capitolo testuale sono elencati in una lista di elementi, ognuno fatto di 6 campi: nome del capitolo, titolo del capitolo, from, to, fromsection, tosection. Manca un ulteriore campo, che spero di aggiungere: un flag per la presenza/assenza di una Sezione note.
La lista per ora è locale (sul pc dove corre lo script) ma sarebbe facile "esportarla" anche all'interno di una pagina standard (un buon candidato è la pagina [[Discussioni indice:]]. --79.50.10.238 17:48, 3 giu 2010 (CEST)Rispondi[rispondi]

Djvutext.pyModifica

Nella vita del bottolatore curioso, vi è un lungo periodo in cui gli script più "cattivi" di pywikipedia sono del tutto inaccessibili; la documentazione (quelle poche righe...) risulta totalmente incomprensibile. Poi di colpo cedono. Ha ceduto djvutext.py. Sembra che faccia quello che promette: estrae, pagina per pagina, il testo di un file djvu e lo carica nella pagina Pagina giusta. :-)

L'elenco di prerequisiti è lunghetto. Sono i prerequisiti mancanti che fanno impazzire, soprattutto se non sono documentati. :-(

  1. ovviamente dovete avere un bot registrato (questo è ovvio).
  2. dovete avere DjvuLibre (collezione di script a riga di comando) in una cartella raggiungibile attraversoil path di sistema.
  3. dovete avere un file djvu completo di layer di testo. Es: quelli di Internet Archive.
  4. (penso) dovete avere un file Indice preparato per il caricamento delle pagine.

Adesso viene il difficile. NON provate a far correre lo script djvutext.py!!!! Vi scriverebbe tante belle pagine Progetto: invece che pagine Pagina:, perchè su it.source Pagina: corrisponde al ns 108 e invece dyvutext.py si aspetta che sia al ns 104. Quindi: fate una copia di djvutext.py, cercateci dentro la riga:

page_namespace = site.family.namespaces[104][site.lang]

e modificatela in:

page_namespace = site.family.namespaces[108][site.lang]

Oppure, più semplicemente, scaricate il codice dello script modificato qui

A questo punto avrete fatto tutto quello che ho fatto io... non resta che lanciare il bot, fornendogli i parametri che chiede. Io ci provo su Indice:Poesie (De Amicis).djvu ... pagine da 10 a 20. Speriamo bene. --Alex brollo (disc.) 16:17, 29 mag 2010 (CEST)Rispondi[rispondi]

Yes. Via tutte le pagine.... oppps... meno quelle già inserite da Edo, quasi dimenticavo. :-P :-) --Alex brollo (disc.) 16:38, 29 mag 2010 (CEST)Rispondi[rispondi]

Ancora su {{Ns0}} e builder()Modifica

Di concerto con Xavier, è in corso un ulteriore esperimento: la costruzione dell'intero "scheletro" di un'opera proofread prima ancora di iniziare a introdurre il testo.

L'idea è di far trovare "tutto pronto" al trascrittore/rilettore, lasciandolo in pace a fare il suo lavoro, che poi è contemporaneamente la cosa più "semplice" e anche la cosa più del nostro lavoro qui (template, suddivisione in capitoli, sommari, categorizzazioni.... tutto è secondario al contributo umano di trascrizione e rilettura).

L'opera su cui sono in corso gli esperimenti è Indice:Versi sciolti dell'abate Carlo Innocenzio Frugoni.pdf. Ho riempito tutte la pagine di "nulla", ossia: nulla di visibile, ossia: dei commenti html <|-- qui il testo --> (possono essere lasciati lì o eliminati dopo aver introdotto un po' di testo) e dei template {{Ns0}}, che invece vanno rispettati rigorosamente.

Poi lancerò il bot, che:

  1. aggiungerà le section là dove servono;
  2. creerà la lista dei capitoli e dei riferimenti alle pagine e alle sezioni di ogni capitolo, e la memorizzerà da qualche parte;
  3. creerà il sommario per la pagina Indice e lo memorizzerà da qualche parte
  4. creerà l'indice per la pagina Principale e lo memorizzerà da qualche parte.

Lo script builder(), che fa queste cose, NON scrive nulla, ma solo predispone i dati per scrivere; può essere lanciato di nuovo dopo eventuali correzioni, e ripete il suo lavoro daccapo. E' un secondo script, del tutto indipendente e che viene lanciato in seguito, che crea le pagine e le riempie; quindi c'è tutto il tempo di aggiustare, rifinire, correggere, in modo assolutamente indipendente dal lavoro dei trascrittori/rilettori (basta che non vengano cancellati, o "rovinati", i tl Ns0 che sono il cuore del sistema.

Vediamo come va. --Alex brollo (disc.) 12:26, 9 giu 2010 (CEST)Rispondi[rispondi]

Lanciato builder(), tutto bene. In Discussioni indice:Versi sciolti dell'abate Carlo Innocenzio Frugoni.pdf, nascosto in un commento html, c'è lo schema attuale dell'opera, una riga per capitolo, con 6 valori per riga che nell'ordine sono:
  1. nome della sottopagina
  2. titolo della sottopagina
  3. pagina inizio (parametro from di pages index)
  4. pagina fine (parametro to di pages index)
  5. sezione inizio (parametro fromsection di pages index)
  6. sezione fine (parametro tosection di pages index)

Il programma "scrittore" leggerà questi dati; finchè il mostro non passa, i dati possono essere modificati a mano, rispettando però i caratteri | e gli acapo. --Alex brollo (disc.) 14:46, 9 giu 2010 (CEST)Rispondi[rispondi]

Rileggerò con calma, ci sono cose che mi sfuggono (preferisco affrontare altre "varietà" di complessità); ma una cosa è certa: rileggendo, o contibuendo in generale, ci si sente un po' "soli", e in caso di dubbio non c'è un posto preciso per discuterne. La mia proposta, molto più banale delle vostre, è di trasformare progressivamente la pagina di discussione principale di ogni opera in un "punto privilegiato di discussione", e,come sapete, il tag onlyinclude attorno all'infotesto impedisce che queste discussioni si "propaghino" mediante transclusione. Quindi concentrerei in questa pagina le discussioni specifiche per l'opera, magari richiamando l'attenzione, ogni tanto, sulla discussione in corso mediante un messaggino in bar generale. Quindi: il bar generale come punto per le discussioni generali, e come "bacheca" per avvisare di discussioni qua e là; i bar più specialistici per argomenti specifici; e la pagina discussione principale per le discussioni specifiche di un'opera. Altrimenti, passando di bar in bar, temo l'alcoolismo. --Alex brollo (disc.) 13:35, 12 giu 2010 (CEST)Rispondi[rispondi]

Pagina principale:rilettura del meseModifica

Cari amici,

proviamo a ragionare sulla sezione rilettura della pagina principale.

Non c'è una particolare urgenza ma penso che siano ormai opportune due mosse.

  1. scrivere un indice dei lavori già svolti
  2. creare una pagina di coordinamento per chi svolge tale collaborazione

La prima mossa permette di tener traccia delle varie riletture e quindi di sottoporne anticipatamente delle altre secondo un criterio di variazione continua, anche per evitare scelte troppo unilaterali o non conidivisibili.

La seconda mossa permette di affrontare lavori anche di più lungo termine o di più impegnativa rilettura/formattazione ecc. tramite un luogo dove porre domande o scrivere delle note di correzione come "Alla pag. x ho riletto tutto ma una parola in devanagari non la so decifrare" o "tra ultimo verso e titolo dell'ode successiva lascio due o tre caporiga?"... insomma, quello che avviene in una normale pagina di discussione, ma incentrato sulla rilettura del mese.

Che dite? Discutiamone. - εΔω 07:59, 11 giu 2010 (CEST)Rispondi[rispondi]

Il sistema più democratico che mi viene in mente è quello di sfruttare i progetti già esistenti, creando degli indici tematici (Bibbia, CantaStoria, Cristianesimo, Diritto, Duecento, Economia, Letteratura, Matematica, Open source, Teatro, Tesi, Testi scientifici) di testi da rileggere. Sono anche dodici (anche se molti si possono considerare sottoprogetti, vedi Letteratura - Ducento - Teatro), uno switch penserà ad alternare la rilettura del progetto del mese. Vista la scarsità di lavoro, la lista tematica potrebbe accogliere anche testi al 50% accettabili, penso a quelli estremamente lunghi. In un mese possono essere riletti più testi, quindi si può fare in modo che appena raggiunto sal 100% scatta il titolo del progetto successivo, oppure si continua, nell'arco del mese, con la lista progressiva tematica. Può anche accadere che non si riesce a rileggere nel tempo stabilito un testo molto lungo; anche qui due ipotesi: o chi ha iniziato la lettura se lo tiene nei preferiti e lo finisce oppure si dedica al testo successivo e aspetta il prossimo giro in cui verrà riproposto (12 mesi). Questo è un punto debole per il rilettore occasionale, non per noi o chi conosce i progetti wiki! Come vedete io esagero sempre, Edo pensa ad una pagina e relativa discussione, io a dodici! Io vedo le riletture sal 100% come i trofei da mettere nelle rispettive bacheche tematiche, tutte richiamate in pagina principale ecc. :D --Xavier121 10:14, 12 giu 2010 (CEST)Rispondi[rispondi]
Beh, quanto al concetto di "mese"... abbiamo visto che il buon senso al momento impone di concepirlo in forma elastica: se un testo è breve e raccoglie una frotta di rilettori può essere riletto in pochi giorni, se un testo è lungo e poco attraente può rimanere a disposizione anche più di un mese. Poi questa situazione potrebbe cambiare con l'aumento delle utenze attive, ma vediamo di mantenerci realisti.
Anche per questo il concetto di "scarsità di lavoro" forse non l'ho capito. Dato che stiamo passando uno alla volta tutte le pagine indice SAL 75% (ad oggi 26) penso che per qualche mese potremo ancora puntare su di esse; tra l'altro non sono del tutto convinto che tutte tutte le pagine indice siano state categorizzate e quindi potrebbero esserci sorprese: nel frattempo abbiamo pagine indice SAL 50% che dovremmo rivedere —poche a dire il vero—. Quanto agli argomenti penso che un'alternanza di testi afferenti ai vari progetti possa essere proposta facilmente. Semmai adotterei una politica "in crescendo" per cui man mano che il concetto di rilettura collaborativa si innerva nel progetto possiamo passare da testi brevi e non impegnativi a testi più lunghi o con formattazioni più complesse.
Una idea collaterale, che rispecchia in parte il concetto a noi estraneo di featured text dei cugini anglosassoni potrebbe essere la rilettura dei testi già riletti, vale a dire l'aggiornamento in termini di formattazione e il ricontrollo di eventuali piccolezze sfuggite al primo rilettore, per poter così certificare che più di un rilettore ha passato i testi... è così bislacco? - εΔω 12:33, 12 giu 2010 (CEST)Rispondi[rispondi]

Nuntio vobis...Modifica

... che le routine DjvuLibre stanno cedendo. Uno script python, stando in una directory dove c'è una serie ordinata di immagini jpg, chiama quelle routine DjvuLibre che servono per confezionare un file djvu unico dalle immagini jpg. Siccome un altro script python produce da un file pdf una serie di immagini jpg ordinate, a richiesta, tagliando pure a metà e "croppando" le pagine pdf, la sequenza dei due script permette di passare da un file pdf a un file djvu eventuale croppaggio e taglio compresi.

Avevo abbandonato le conversioni pdf->djvu, visto che i pdf possono essere caricati tali e quali su Commons.... ma quelli a doppia facciata di Opal meritano, probabilmente, la conversione. --Alex brollo (disc.) 17:01, 13 giu 2010 (CEST)Rispondi[rispondi]

Complimenti per il tuo lavoro e per le continue scoperte e miglioramenti che porti al progetto! --Accurimbono (disc) 10:17, 9 nov 2011 (CET)Rispondi[rispondi]

Canti di CastelvecchioModifica

Mi sono imbattuto in Canti di Castelvecchio. Molto tempo è passato, adesso su IA ci sono ben due copie Zanichelli 1905: l'opera impostata, non proofread, sono solo è incompleta, nella nostra versione source, ma alcun e poesie sono "apparenti", in quanto sono costituite dalla sola Intestazione. Una cosa da rimediare, direi: mi ci dedico un pochetto....--Alex brollo (disc.) 21:52, 17 giu 2010 (CEST)Rispondi[rispondi]

Grave lacuna, procedi pure che ti seguo... --Xavier121 22:00, 17 giu 2010 (CEST)Rispondi[rispondi]
L'opera proofread adesso esiste: Indice:Canti di Castelvecchio.djvu, ho eseguito la trascrizione inversa e caricato il discreto OCR da IA per le poesie mancanti. Avanti coi lavori! --Alex brollo (disc.) 17:35, 22 giu 2010 (CEST)Rispondi[rispondi]
L'esperienza è stata un pochino dura: si trattava di completare un'opera, facendo un po' di "trascrizione inversa" e un po' di "procedura proofread dall'inizio". Mi sono incastrato e alla fine ho fatto quasi tutto a mano. Adesso ci riprovo con un'opera simile: Pensieri e discorsi (incompleta) -> Indice:Pensieri e discorsi.djvu. Ma stavolta mi organizzo meglio.... cerco di organizzare una specie di "Match and split" fatto in casa (Match and Split è un'applicazione di ThomasV, intricata, terrorizzante, che consente di trasportare in nsPagina un'opera presente come versione testuale). Auguratemi un bel "in bocca al lupo", sento che sarà duretta. --Alex brollo (disc.) 17:20, 2 lug 2010 (CEST)Rispondi[rispondi]

Piccola modifica Ns0Modifica

Ho eliminato del tutto ogni output del template Ns0 nel testo della pagina, adesso la sua "presenza nascosta" emerge da una categoria (visibile nella sola pagina Pagina: e non nella versione transclusa) Categoria:Pagine che usano Ns0.

Devo verificare il funzionamento del sistema in caso di opere con sezioni multilivello, e inoltre mi sto orientando a fare il lavoro di elaborazione offline, lasciando online solo la funzione di sezionamento automatico (ossia: verifica e inserimento dei tag section). --Alex brollo (disc.) 17:33, 22 giu 2010 (CEST)Rispondi[rispondi]

Perdonate la boldness, ma ritengo che questa storia del tl|Ns0 stia diventando molto importante. Apro una sottopagina dedicata nell'ambito del progetto Trascrizioni: Progetto:Trascrizioni/Ns0. Intanto butto dentro un po' di cose senza badare alla formattazione "formale", anche per ricordarmele io stesso... poi, se il seme germoglierà, sistemerò (con l'aiuto indispensabile di chi "ci sa fare" in queste cose!)--Alex brollo (disc.) 23:06, 24 lug 2010 (CEST)Rispondi[rispondi]

Pagine di aiuto su sitiModifica

Da una discussione al Bar generale, mi sono convinto che è necessario scrivere pagine di aiuto specifiche per ciascun "sito autorevole", a partire da Internet Archive. Il rischio che un utente non espertissimo imbocchi una falsa strada e poi sia estremamente frustrato dalla scoperta che "bastava fare questo e quello, e la cosa si risolveva in cinque minuti" è molto elevato.... e un utente fortemente frustrato è, con molta probabilità, un contributore perduto (e avrebbe pure ragione).

Per evitare i tecnicismi esasperati, penso che la cosa migliore sia accennare alle varie possibilità ma indicare sempre, punto per punto, l'utente esperto a cui appoggiarsi sia per suggerimenti che per aiuto concreto.

Ci provo: la prima pagina sarà Wikisource:Siti autorevoli/Internet archive. --Alex brollo (disc.) 17:26, 2 lug 2010 (CEST)Rispondi[rispondi]

Purtroppo, come per LiberLiber, quella che serve veramente, è una pagina semplice ma esauriente sull'incrocio delle leggi sul copyright tra Italia e USA: praticamente un'utopia. In compenso ho una buona notizia: potrei cominciare traducendo e adattando questa paginetta. - εΔω 18:07, 2 lug 2010 (CEST)Rispondi[rispondi]
Ok, sono d'accordo: il primo punto di questa ipotetica pagina di aiuto sarà "Siete dentro IA: adesso scegliete innanzitutto l'opera giusta" dove "giusta" significa libera da copyright, completa, con tutti i file che ci devono essere, con una buona qualità dei file, e anche "significativa", ma qui la cosa si fa difficile perchè entriamo nelle preferenze e nei gusti... ;-) --Alex brollo (disc.) 23:32, 2 lug 2010 (CEST)Rispondi[rispondi]

OCR: testModifica

Ho caricato Indice:Poemi (Byron).djvu (vecchio testo che mi tenevo in pc, mi spiaceva buttarlo!) e Indice:Ardigo - Scritti vari.djvu (opera importante non per i contenuti, di cui non so valutare il pregio, ma perchè è la "via it.source" di partecipare all'iniziativa di collaborazione fra BNF e fr.source). Su entrambe ho fatto correre FineReader, e gli script Alebot per il caricamento del txt prodotto nelle pagine Pagina (serata del 17.7.10).

Per la seconda opera, ho "saltato" alcune pagine (dalla 27 alla 32) e ho caricato il testo prodotto dall'OCR di ThomasV, che agisce automaticamente al momento della creazione di una pagina; successivamente ho sostituito il testo con quello prodotto da FineReader per l'opportuna comparazione. Da notare che FineReader non ha lavorato sul file djvu di Commons, ma sul pdf scaricato direttamente da BNF; quindi, il miglioramento della qualità riassume sia le differenze da diverse immagini sorgente che l'eventuale superiorità di un OCR settato sulla lingua italiana rispetto a un OCR "generale", oltre che la differenza fra i due engine dei software.

Sulle stesse pagine test (dalla 26) farò anche agire i due script js di "post-elaborazione OCR generale" (postOCR e acapo) e memorizzerò il testo risultante senza alcuna correzione manuale, in modo che la cronologia memorizzi le varie differenze e modifiche. --Alex brollo (disc.) 08:02, 18 lug 2010 (CEST)Rispondi[rispondi]

Casi strani di impaginazioneModifica

Cari amici,

volevo riportarvi alcuni spunti di riflessione a seguito di alcune riletture:

  • Pagina:La lettera di G. Boccaccio al Priore di S. Apostolo.pdf/3: carina l'idea di condensare la rilettura di due pagine in una, ma poniamo che qualcuno debba citare tale opera da altrove puntando a noi: come indicherà la pagina di destra? Sembra una piccolezza, ma mi sono convinto dell'opportunità di mantenere le scansioni per singole pagine piuttosto che per coppie di pagine.
  • Indice:Il cavallarizzo.djvu come Indice:Le cereali.djvu ha un problema non indifferente: i numeri di pagina sono effettivamente numeri di pagina e non di facciata, vale a dire che le pagine di sinistra non hanno mai un numero, e dunque gli indici hanno una numerazione che non corrisponde a quella dell'originale cartaceo. Come ovviare a questo errore? - εΔω 23:09, 23 lug 2010 (CEST)Rispondi[rispondi]
Per il primo concordo, meglio scansionare una pagina per volta.
Per il secondo punto, al fine di distinguere le facciate utilizzerei il numero di pagina seguito da "r" e "v", ad esempio per la prima facciata della pagina 150 la chiamerei 150r (recto), la seconda 150v (verso).
Macchinoso, ma in questa maniera identifichiamo univocamente le singole facciate. --Accurimbono (disc) 14:08, 24 lug 2010 (CEST)Rispondi[rispondi]
In pratica mi hai letto nel pensiero... anche sulla macchinosità :-( - εΔω 16:06, 24 lug 2010 (CEST)Rispondi[rispondi]
La prova "pdf a doppia facciata" è stata fatta sull'onda dell'entusiasmo di poter usare i pdf di Opal (a doppia facciata) tal quali, e soprattutto: originali, invece di sottoporli a una serie di passaggi faticosi alla fine dei quali si sarebbe potuto perdere in risoluzione, e forse anche commettere qualche errore più serio. Certo che se il trucco suggerito dagli amici francesi (cioè caricare il pdf in Internet Archive) funziona, allora probabilmente si risolve anche questo problema... non mi ricordo djvu di IA a doppia facciata. Comunque, anche se non si può fare attraverso IA, prometto solennemente che io non lo farò più: lubrificherò i miei script estrattori, tagliatori e croppatori. --Alex brollo (disc.) 17:06, 24 lug 2010 (CEST)Rispondi[rispondi]
Per quanto sia affascinato dall'idea di riprodurre la condizione reale della lettura, con la doppia facciata, mi sembra di capire che non sia una pratica accettata generalmente. A me e Alex, prima dei miei recenti sviluppi in materia di software, era sembrata lo soluzione ottimale per ovviare al criterio di scansione della OPAL (per il buon Ruggeri la scansione doppia facciata è una necessità, essendo l'unico folle bibliotecario d'Italia che, letteralmente da solo, mette in rete un patrimonio inestimabile... La sua biblioteca conta oltre 200.000 volumi, ne è riuscito a fare quasi 8000!) Ho preso una versione integrale di Adobe Acrobat che mi permettere di lavorare in modo completo sui PDF di OPAL: bastano poche operazioni e riesco ad ottenere PDF pagina singola con una compressione molto vicina alle dimensioni di un djvu, ma con una qualità di immagine altissima, vedere il recente Dialogo della salute. Proprio oggi vedevo il risultato del mio caricamento su IA per sperimentare la loro conversione djvu, su suggerimento di Alex (non so quanti di voi abbiano provato): sotto molti aspetti il risultato è eccellente e per testi particolarmente nitidi alla fonte forse anche consigliato, ma la compressione djvu in generale non è il massimo per un rilettore, spariscono i toni di grigio e aumentano gli errori di comprensione dei grafemi. Insomma a me piace trovarmi in fase di rilettura di fronte al testo più nitido possibile, 1)perché devo accingermi ad un lavoro che proverà la mia attenzione; 2) perché non posso essere distratto da problemi di qualità, quando ci sono scritti particolarmente impegnativi. Io sono a favore della qualità e penso che dovremmo salvaguardare l'immagine all'interno dei confini dei 100 MB stabiliti da Commons anche a costo dello spezzettamento... Dico la mia fesseria: ma perché non possiamo caricare il file sia su IA che Commons, tenendoci del primo l'OCR e i metadati e del secondo l'alta qualità dell'immagine? Pienamente d'accordo su recto e verso, l'alternativa sarebbe offrire un'impaginazione con numero progressivo wikisource molto POV (ma non rientrerebbe nei casi di libertà riconosciuta al trascrittore, più o meno come facciamo con i tituli?) --Xavier121 17:44, 24 lug 2010 (CEST)Rispondi[rispondi]
Xavier, dacci le coordinate per trovare il tuo upload su IA! Non lo trovo! Sono patologicamente impaziente (bella forza: sono un patologo, mi riesce facile). --Alex brollo (disc.) 19:01, 24 lug 2010 (CEST)Rispondi[rispondi]
La prova qui, basta scrivere anacarsi, confrontatelo con l'originale su Opal o col pdf di IA --Xavier121 19:04, 24 lug 2010 (CEST)Rispondi[rispondi]
Bello, ma particolarmente poco "tipico" per valutare la resa dell'OCR di IA. Hai provato a suggerire a Ruggeri il caricamento dei suoi pdf in IA per ottenerne, in cambio, i "file derivati"? Se io fossi in lui lo farei! Un problema odioso: fra i file derivati tempo fa c'era la collezione dei tiff, adesso al loro posto ci sono dei jp2 che sono difficilissimi da gestire. Soluzioni? Dopo un'intera serata persa, io mi sono ridotto a ripescare i miei script di conversione ottenendo la serie delle immagini jpg dal pdf... --Alex brollo (disc.) 16:31, 9 ago 2010 (CEST)Rispondi[rispondi]
Non saprebbe che farsene! :) --Xavier121 22:20, 12 ago 2010 (CEST)Rispondi[rispondi]

Richiesta di feedbackModifica

In queste settimane ho fatto lunghe galoppate solitarie.... Indice:Ardigo - Scritti vari.djvu è stato il mio "test sul campo" per rifinire varie cosette, adesso però mi piacerebbe sentire il vostro parere. So che è faticoso! Ma...

  1. la questione generale del template Ns0. Come la vedete?
    Mi piace! - εΔω 18:27, 9 ago 2010 (CEST)Rispondi[rispondi]
  2. le iconcine con il back-link generate dal Ns0. Vanno bene? le cambiamo? passiamo a un link del tutto diverso, tipo AltraVersione o magari qualcosa di simile al link creato dal tl|Pagina?
    Per il momento possono andare bene. Magari si può scegliere un'altra icona più "allusiva" ma questa in uso non è particolarmente estranea. Ci piaccia o meno è meglio qualcosa di "invadente" ma funzionante che qualcosa di perfetto ma irraggiungibile (come nel template "altraversione") - εΔω 18:27, 9 ago 2010 (CEST)Rispondi[rispondi]
    Benissimo! D'altronde sarà facile, volendo, cambiare la visualizzazione del link... basta cambiare il codice del template: di un solo template. --Alex brollo (disc.) 22:04, 9 ago 2010 (CEST)Rispondi[rispondi]
  3. la questione della generazione automatica dei tag section via js (tutta da dissodare). Vale la pena di faticarci un po'?
    In attesa di rilettori sì. - εΔω 18:27, 9 ago 2010 (CEST)Rispondi[rispondi]
  4. la questione dei titoli dei capitoli. Mi sono accorto che c'è l'uso di NON includerli come parte del testo, ma di "passarli" solo ai template che generano il box di intestazione. Io vorrei parlarne, perchè al momento i template che generano il box rientrano fra quelli "Escludi dalla stampa".... c'è qualcosa che non va.
    Scusa ma non ho capito a cosa tu ti riferisca... - εΔω 18:27, 9 ago 2010 (CEST)Rispondi[rispondi]
    Guarda una vecchia opera dei tempi d'oro: Poi che voi et io piú volte abbiam provato: vedi? Il titolo del sonetto NON fa parte del testo, c'è solo nel box intestazione... Guarda invece Intecta fronde quies: il titolo è ripetuto due volte, nel box intestazione e nel testo. Nel primo caso, la trasformazione in eBook, per esempio, sarebbe problematica.... nel secondo, corre via liscia. --Alex brollo (disc.) 22:04, 9 ago 2010 (CEST)Rispondi[rispondi]
  5. la questione della generazione di "cose tipo tabella" mediante tag div. E' molto tecnica, ma da affrontare senza paura: tanto tutto viene seppellito nel codice dei template. Ma meglio parlarne comunque. Vedi Template:RigaIndice.
    Oops, ho già raggiunto il data overflow...cedo la palla - εΔω 18:27, 9 ago 2010 (CEST)Rispondi[rispondi]
    Sei già stato eroico, grazie. Sentiamo qualche appassionato di html moderno... Intanto vado avanti nell'uso sperimentale di {{RigaIndice}} sull'indice a partire da Pagina:Ardigo - Scritti vari.djvu/305. --Alex brollo (disc.) 22:04, 9 ago 2010 (CEST)Rispondi[rispondi]
  6. la questione della generazione di "file derivati (djvu, testo via OCR, ecc) mediante caricamento di PDF in Internet Archive. Eccellente! Grazie Nemo! Vedi lussuoso test in fr:Livre:Cavendish - L’Art de dresser les chevaux, 1737.djvu. Un "caricamento di contraccambio" che it.source ha fatto a fr.source per il regalo costituito da File:Ardigo - Scritti vari.djvu. E non è, e non sarà, il solo!
  7. La questione del template e del namespace Creator su Commons. --Alex brollo (disc.) 16:20, 9 ago 2010 (CEST)Rispondi[rispondi]

Aggiustamento tag pagelistModifica

Cari amici,

vi annuncio con gioia che ho terminato la revisione di tutti i <pagelist /> delle pagine indice presenti nel progetto. Partito il 7 marzo ne ho approfittato per saggiare la coerenza dei file djvu o pdf a cui le nostre trascrizioni si appoggiano, e ho riscontrato diverse sorprese e problematiche.

Nei prossimi giorni le elencherò qui sotto, in modo che forse si possa tentare di rimediarvi con scansioni migliori. Intanto però festeggiamo! - εΔω 18:40, 9 ago 2010 (CEST)Rispondi[rispondi]

Sarò sincero: all'inizio avevo giudicato questo lavoro una sottigliezza inutile, un "perfezionismo". Mi sbagliavo di grosso. Bravo Edo! D'ora in poi l'allineamento sarà una mia cura immediata.
Ti dò una buona notizia: so come estrarre, via bot, l'accoppiamento fra pagina djvu e "nome della pagina" come generato da pagelist. In altri termini: in tutte le occasioni in cui nel testo c'è un riferimento alla pagina del libro, si potrà fare in modo di linkare automaticamente il numero pagina "sulla carta e nel testo" con il numero di pagina del file djvu. Ma.... solo se si allineato perfettamente l'indice, come hai fatto tu! Altrimenti, niente! --Alex brollo (disc.) 21:16, 9 ago 2010 (CEST)Rispondi[rispondi]

Note dolentiModifica

Come promesso ecco l'elenco dei problemi riscontrati. Tralasciando i casi di pagine bianche mancanti e indici ancora legati a file non djvu/pdf, abbiamo le seguenti rogne:

È il caso di provare a contattare chi ha creato i file per vedere se si riesce a riparare tali guasti. - εΔω 18:27, 11 ago 2010 (CEST)Rispondi[rispondi]

Tante note dolenti formano insieme una ben triste canzone... :-(
Proposta operativa: eccezionalmente propongo a chi si occuperà del restauro di usare immediatamente il {{WIP}}. --Alex brollo (disc.) 10:40, 12 ago 2010 (CEST)Rispondi[rispondi]
Note che non dolgono piùModifica

Sposto qui sotto le cose fatte, altrimenti si perde il colpo d'occhio.

  • In Indice:L'acarne.djvu mancano due facciate (128 verso e 129 recto)   Fatto
    • Pagine mancanti anche nella scansione originale Opal: segnalato al curatore di Torino, Claudio Ruggeri. --Xavier 121 15:05, 14 ago 2010 (CEST)Rispondi[rispondi]

  Fatto Caricata nuova versione completa su OPAL

  Fatto Pagine mancanti anche nell'originale, da mantenere per la rarità dell'edizione

  Fatto Caricata versione completa su OPAL

  Fatto Caricata versione completa su OPAL --Xavier121 12:50, 24 ago 2010 (CEST)Rispondi[rispondi]

Pagine mancantiModifica

 
Qualcosa del genere?

In parecchi casi, passati al "vaglio di Edo", file scansionati si sono rivelati incompleti. Che fare? Io proporrei di intercalare pagine "vuote" nel file djvu, contenenti un chiaro messaggio per specificare che quella determinata pagina manca. In tal modo ci sarebbe il posto per introdurre in futuro, se possibile, l'immagine mancante, senza devastare l'organizzazione del libro e dei file derivati. --Alex brollo (disc.) 16:41, 15 ago 2010 (CEST)Rispondi[rispondi]

Caso vuole che HelderGeovane, di pt.source, mi abbia chiesto di inserire una pagina dimenticata in un libro che aveva scannerizzato... un djvu "nuovo", di quelli che devono essere trattati con DjvuLibre. In breve, ho dovuto studiare e adesso sono in grado di fare qualcosina anche con djvuLibre oltre che con il vecchio DjvuSolo. Questo rende possibile modificare i file djvu di IA. Che facciamo, le aggiungiamo, queste "pagine mancanti", come dicevo sopra? --Alex brollo (disc.) 22:35, 15 ago 2010 (CEST)Rispondi[rispondi]

Mi sembra un'ottima idea. Aggiungiamole! Candalùa (disc.) 22:43, 15 ago 2010 (CEST)Rispondi[rispondi]

Aspetto un altro paio di ok... e qualche suggerimento su cosa scrivere, esattamente, e se è il caso di aggiungere un simbolo grafico. Io userei una pagina/immagine standard, usando invece il testo della pagina (noinclude) per "personalizzare" il messaggio. --Alex brollo (disc.) 06:18, 16 ago 2010 (CEST)Rispondi[rispondi]
Qualcosa del tipo "Se possiedi una copia di questo testo considera l'idea di inviarci le scansioni di queste pagine" ;-) - εΔω 19:42, 16 ago 2010 (CEST)Rispondi[rispondi]
Ok, intanto che finite di sghignaAutore:Cristoforo Landinozzare per la figuraccia che ho rimediato, ;-) preparo un paio di "ipotesi di pagina di riempimento". Poi le faccio apparire qui, e voi mi dite....--Alex brollo (disc.) 20:17, 16 ago 2010 (CEST)Rispondi[rispondi]
Carino! Io toglierei il testo per rendere l'immagine più utilizzabile a livello internazionale (ovviamente il file andrà su commons): anche perché penso che l'immagine andrà inserita in un template, giusto? - εΔω 21:29, 16 ago 2010 (CEST)Rispondi[rispondi]
Ovvio, nel file djvu l'immagine verrà caricata come una "pagina". Poi, nella nostra trascrizione proofread, possiamo usarla, o sostituirla da un testo... Ci penseremo poi. OK, via il testo. --Alex brollo (disc.) 21:38, 16 ago 2010 (CEST)Rispondi[rispondi]
Ho provato a "pasticciare" un po' su Indice:Vita di Dante, Petrarca e Boccaccio.djvu, dove mancano 4 pagine. Ho creato (ma già lo sapete) {{PaginaMancante}} da apporre come testo in queste pagine. Adesso la numerazione delle pagine "fila via liscia", e il giorno che queste pagine riemergeranno, basterà infilarle al loro posto e tutto funzionerà per vene senza spostamenti di pagina o cambiamenti nei link e nei tag vari di collegamento. Almeno spero. Attenzione che c'è il solito ritardo nell'aggiornamento delle pagine che vengono visualizzate; la pagina "vera" appaiata al testo, finchè la cache non si sistema, la si vede in modifica. --Alex brollo (disc.) 23:06, 16 ago 2010 (CEST)Rispondi[rispondi]

Landino e la CommediaModifica

 
Esempio

Approfitto del mese di agosto per parlarvi di un testo ambizioso e molto stimolante per il nostro progetto. Si tratta del Comento di Christophoro Landino fiorentino sopra la Comedia di Danthe Alighieri poeta fiorentino di Cristoforo Landino, di cui vedete riprodotta una pagina dell'edizione del 1490 circa (un incunabolo di prestigio!). L'edizione della OPAL mutila degli ultimi tre canti del Paradiso può essere integrata con quella della Biblioteca di Monaco BSB in perfetto stato di conservazione. Oltre i capilettera e i disegni, le difficoltà del testo sono rappresentate dalla sua impaginazione e dalle convenzioni tipografiche. Mi farebbe piacere un vostro commento ed eventuali suggerimenti su come procedere, dal suo caricamento su Commons fino allo scioglimento dell'ultimo titulus. --Xavier121 13:01, 19 ago 2010 (CEST)Rispondi[rispondi]

Onestamente? Sono ancora scottato dallo stato di abbandono in cui versano il dizionario della Crusca, gli Elementi di Euclide e altri giganti di questo genere. La mia idea è che, in attesa di una maggior proliferazione di utenze che possa dare a questi mastodonti una maggior speranza di termine, ci concentriamo sull'ottimizzazione del preesistente (trascrizioni inverse, riletture) e sulla revisione di pagine d'aiuto e introduzione ai niubbi. Ne approfitto per rilanciarti Le tesmoforiazuse, Gli uccelli, La pace, Gli acarnesi, Le nuvole, Il Pluto... - εΔω 19:32, 19 ago 2010 (CEST)Rispondi[rispondi]
Concordo con Edo ma pure discordo. ;-) Il mio modo di pensare è di straordinaria coerenza.
Concordo nell'opportunità di soprassedere alla creazione della pagina Indice. Mi secca vedere Indici abbandonati. La politica di fr.source è diversa, ma loro sono centinaia di gatti, noi quattro.
Discordo nell'opportunità di soprassedere del tutto: il il libro lo caricherei prontamente su Commons, e comincierei a ragionare sui tool e le convenzioni necessari per affrontare il mattone. A colpo d'occhio:
  1. Ancora rimpiango di non aver lavorato diversamente su Il cavallarizzo, adesso farei una versione proofread quasi completamente diplomatica (carattere per carattere, riservandomi solo di modificare il tipo di caratteri: es. sostituirei ancora i ſ con s, le u con v, gli eventuali ß con ss, e forse i & con et, ma nulla più) usando con pazienza {{pt}} per le conversioni diplomatiche più spinte (indubitabili errori tipografici, scioglimento dei tituli).
  2. Dobbiamo preparare un template per le note "fuori pagina a destra".--Alex brollo (disc.) 19:48, 19 ago 2010 (CEST)   Fatto Xavier121 00:43, 20 ago 2010 (CEST)Rispondi[rispondi]
Si potrebbe rimodellare il template:cassetto? --Xavier121 21:07, 19 ago 2010 (CEST)Rispondi[rispondi]
Su fr.source esistono i template fr:Modèle:Note latérale droite e fr:Modèle:Note latérale gauche, argomento intricato ma affrontabile con un po' di pazienza.... Il template cassetto, con il suo js di accompagnamento, potendo lo lascerei dove sta, ma spiegati meglio! --Alex brollo (disc.) 22:52, 19 ago 2010 (CEST)Rispondi[rispondi]


Concordo con OM nel constatare che ci sono molte trascrizione "orfane", per colpa di tutti e di nessuno, nel senso che il progetto è di volontari e quindi quello che c'è è tutto di guadagnato. Però non credo che il problema si risolva bloccando il lavoro di predisposizione alla trascrizione (preparazione e caricamento su commons del djvu/pdf,inizializzazione della pagina Indice: e dell'indice solo testo) di ulteriori testi, in fondo un motto dei progetti wikimedia è "Be bold", quanto piuttosto incentivare il lavoro comunitario.
Mi riferisco all'ottimo riquadro in prima pagina "Collabora con noi!", che propone a tutti di rileggere un testo in maniera comunitaria. In questa maniera sono stati riletti numerosi testi. Propongo di inserire, oltre che una proposta di rilettura comunitaria, anche una proposta di trascrizione comunitaria. Così ognuno può continuare a lavorare singolarmente sui testi che gradisce maggiormente, ma si viene anche a creare un filone di lavoro comunitaria, per quei testi "orfani" o particolarmente impegnativi che meritano di essere trascritti. Dividendo il lavoro su più spalle, si ottengono risultati in tempo minore.
Che ne dite? E' vero che siamo pochi e personalmente contribuisco saltuariamente, ma questo potrebbe essere un modo per coinvolgere nuovi utenti e anche "far lavorare" vecchi utenti non particolarmente attivi.
Ciao a tutti, --Accurimbono (disc) 14:50, 20 ago 2010 (CEST)Rispondi[rispondi]
 

Concordo e discordo anche con Accurimbono. :-P

Concordo pienamente con lidea di incoraggiare i nuovi utenti direttamente al proofreading, ed anzi ripeto che il nostro SAL, 25% e 50%, si presta moltissimo a documentare il primo passo che andrebbe suggerito all'utente inesperto, ossia la semplice correzione del puro testo senza alcun tentativo di formattare. Il testo corretto ma non formattato è, esattamente, rapprestantato dal nostro SAL 50%. Se questa abitudine si generalizzasse, potremmo organizzarci in "livelli di attività": qualcuno rovisterebbe nelle pagine SAL 25% portandole al SAL 50%, i "correttori", mentra altri, i "formattatori", rovisterebbero nelle pagine SAL 50% per portarle al 75% che è già un risultato apprezzabile; l'ultimo passo, perchè sia fatto bene, spetterebbe ai "paranoidi". :-P.

Non concordo invece con l'idea di suggerire agli utenti inesperti di affrontare opere impegnative, tipo Landino... a meno di trovare l'utente "innamorato", e allora amor vincit omnia. --Alex brollo (disc.) 15:59, 20 ago 2010 (CEST)Rispondi[rispondi]

OK, quello che mi preme maggiormente è impostare la trascrizione collaborativa, cioè replicare quanto fatto per la rilettura collaborativa anche per la fase di trascrizione. Poi sarà cura nostra proporre opere non troppo ostiche. Per il discorso nuovi utenti: credo che la cosa importante sia mettere 2 link a 2 pagine di aiuto in cui si spieghi brevemente: 1) come si rilegge 2) come si trascrive. Poi con l'esperienza tutti i nuovi utenti diventano esperti.
BTW: i template sulle note laterali mi servirebbero per un'opera di Muzio Oddi.
Ciao, --Accurimbono (disc) 17:48, 20 ago 2010 (CEST)Rispondi[rispondi]
Sono felice che questa discussione sia approdata a qualcosa di concreto: io sfrutterei il box del Collabora con noi! ponendo al lettore la doppia scelta: rilettura o trascrizione. Per mantenere l'impaginazione della PP si potrebbe rivedere il box Oltre Wikisource, carino ma XXL. Ancora un po' di studio e i nuovi templates delle note a margine saranno pronti :) --Xavier121 18:34, 20 ago 2010 (CEST)Rispondi[rispondi]

CruscateModifica

Continuo ad approfittare del mese di agosto e del fatto che ne ha parlato Edo, per fare il punto su un progetto per me mai dimenticato ma solo congelato. Mi riferisco al Vocabolario della Crusca, opera monumentale il cui inserimento, ad opera di Kronin, si è fermato dopo la trascrizione di poche pagine iniziali (brillantemente assemblate con un rispetto quasi maniacale della grafica). L'iniziale rapido interesse è coinciso con un altrettanto rapido abbandono da parte del resto della comunità, senza chiarimento esaustivo sui i limiti dell'impresa; pare che la presenza di una trascrizione già pronta, corretta in modo impeccabile e con precisi rimandi bibliografici, non abbia sortito alcuna fortuna tra le nostre fila e il moncone di quel promettente inserimento resta lì a testimonianza della nostra incuria. Se andiamo a vedere si tratterebbe di sfruttare un lavoro già fatto e che dovremmo affrontare nel modo più automatico possibile: Alex che alternative esistono ad un estenuante copia-incolla? Personalmente mi sono occupato di acquisire il malloppone di gallica e lavorarlo in modo da procedere spediti su Commons (nello specifico: divisione in tre tronconi da 70-80 MB PDF alta qualità, dati in pasto anche a IA per vedere se ci restituisce dei djvu per una comoda rilettura). Come per Landino spero si possa procedere ad una discussione concreta per vedere se si può approdare ad un progetto di lavoro comunitario sui dizionari (in questi mesi diversi ne sono stati caricati su OPAL) e superare alcune incomprensioni passate sul valore di un vocabolario all'interno di un progetto come il nostro: il potenziale incontestabilmente originale dei link a tutti i testi della nostra biblioteca (quelli citati dalla Crusca, ovvio!)--Xavier121 23:31, 21 ago 2010 (CEST)Rispondi[rispondi]

Evocato, rispondo: boh? Non avevo la più pallida idea che quella trascrizione esistesse. Ma secondo la regola: "Se i dati ci sono, qualsiasi aspetto abbiano, ne è possibile l'elaborazione", quindi qualcosa DEVE venir fuori. Fammi dare una buona occhiata.... --Alex brollo (disc.) 13:34, 24 ago 2010 (CEST)Rispondi[rispondi]
La prova su IA mi ha restituito un djvu di 80 MB contro il mio pdf compatto caricato di 60MB... che facciamo, lanciamo il pdf? funziona lo stesso la magica comparsa del testo? --Xavier121 18:23, 26 ago 2010 (CEST)Rispondi[rispondi]
No, non funziona. E' il "layer di testo del file djvu" che viene caricato. Ma niente impedisce (spero che le pagine del djvu corrispondano esattamente a quelle del pdf) di far caricare il testo del djvu sul pdf da Alebot. Però... come dicevo, ci sono motivi "standard" per preferire il djvu... ma una piccola eccezione ogni tanto non guasta. Torno a vedere. --Alex brollo (disc.) 21:15, 31 ago 2010 (CEST)Rispondi[rispondi]
Aimè, l'OCR di IA è totalmente inutilizzabile. Torno a guardare un po' il sito con la trascrizione... --Alex brollo (disc.) 21:24, 31 ago 2010 (CEST)Rispondi[rispondi]
Francamente mi sembra inutilizzabile anche la trascrizione sul sito segnalato... c'è una chiara, esplicita frase che riserva i diritti. Nell'insieme sono perplesso. --Alex brollo (disc.) 21:33, 31 ago 2010 (CEST)Rispondi[rispondi]

Rilettura del mese: seconda puntataModifica

Cari amici,

dopo la prima puntata eccomi con qualcosa di concreto: una bozza di pagina di rilettura comunitaria. Il nome della pagina dovrebbe essere Wikisource:Rilettura del mese e lo farei ricadere tra le emanazioni del progetto trascrizioni. Mi sono ispirato alla versione inglese, ma possiamo fare di meglio. Ho voluto valorizzare il box in pagina principale che vorrebbe divenire il richiamo principale. Sotto con le riflessioni. - εΔω 19:15, 20 ago 2010 (CEST)Rispondi[rispondi]

P.S. Dopo la lunga fatica del Veratti direi che potremmo alleggerirci con qualcosa di più breve: propongo o lo Jefte, o qualcosa di economico come Sul bilancio delle consumazioni colle produzioni per variare, o se ci gira qualcosa di lunghetto... i dialoghetti di Leopardi Senior. Lascio a voi la scelta. - εΔω 19:30, 20 ago 2010 (CEST)Rispondi[rispondi]

Bene i primi due, sospenderei momentaneamente i dialoghetti perché il passaggio in djvu da jpg non è stato eccezionale e vorrei rifare l'acquisizione: pdf alta qualità - trasformazione in djvu massima risoluzione. --Xavier121 23:35, 20 ago 2010 (CEST)Rispondi[rispondi]
Il primo è stato nel frattempo riletto (bene!), il secondo è in corso di rilettura. La bozza di OM mi piace: aggiungerei una lista di proposte di rilettura in modo che ogni utente può aggiungere in fondo l'opera che propone alla comunità per la rilettura. Ovviamente la scelta dell'opera può avvenire per vari criteri sempre seguendo il criterio del consenso wiki. --Accurimbono (disc) 10:08, 23 ago 2010 (CEST)Rispondi[rispondi]
Ho inserito nella bozza l'elenco sulla falsariga della pagina inglese. Se non piace RBate pure. --Accurimbono (disc) 10:16, 23 ago 2010 (CEST)Rispondi[rispondi]
Come scritto nella pagina io dedicherei per le proposte la pagina di discussione più che la pagina stessa, dove il link alla categoria degli indici SAL 75% mi sembra sufficiente.
Mentre proseguite con gli aggiustamenti, che mi fanno molto piacere, faccio presente che questa bozza andrà legata in qualche maniera a filo doppio con Wikisource:Aiuta Wikisource, in modo da definire cosa stia meglio in un pagina piuttosto che in un'altra, in modo da invogliare i niubbi a gettarsi sulle pagine, ecc. ecc. Non toccherò il PC per qualche ora, quindi infierite pure di gusto. - εΔω 12:10, 23 ago 2010 (CEST)Rispondi[rispondi]
OK, invertito l'ordine cronologico delle opere già eleborate in modo che le recenti siano in testa. Per i libri già riletti, ho inserito nel template infotesto, nell'apposito campo, l'attribuzione comunitaria della rilettura, con link alla pagina in costruzione, in modo da darle visibilità. --Accurimbono (disc) 14:14, 24 ago 2010 (CEST)Rispondi[rispondi]

A meno che non ci siano altre proposte di miglioramento da discutere (che in ogni caso possono essere sempre fatte), io proporrei di inaugurare la pagina. --Accurimbono (disc) 16:27, 31 ago 2010 (CEST)Rispondi[rispondi]

OK. Miglioramenti ce ne sarebbero: il punto da definire ancora riguarda la to do list (dove metterla e cosa metterci), ma la pagina in sé può andare live! - εΔω 16:34, 31 ago 2010 (CEST)Rispondi[rispondi]
Mi pareva di aver capito che fosse la pagina di discussione il luogo adatto per decidere quali testi rileggere in futuro. Per me in discussione farei le proposte, la discussione e la scelta dell'opera successiva. Poi se vogliamo, possiamo mettere un elenco nella pagina principale con le opere la cui rilettura nelle settimane/mesi successivi è già stata concordata. --Accurimbono (disc) 21:00, 31 ago 2010 (CEST)Rispondi[rispondi]
Ops mi sono spiegato male: la pagina di discussione così com'è va bene (nel tempo potremmo pianificare qualche mese in anticipo ecc. ecc.; in pagina principale sta solo la proposta in vigore). Quel che intendevo io (la to do list) è un riquadro in cui inserire linee guida di trascrizione (come posto a mo' di prova in Discussioni indice:Dialoghetti MCL 1831.pdf) e operazioni da svolgere in fase di rilettura: se ne è discusso qui senza giungere a una conclusione. Spero di verti chiarito la mia espressione brachilogica in inglese. εΔω 23:57, 31 ago 2010 (CEST)Rispondi[rispondi]
OK, quindi ti riferivi la "todolist" relativa al testo oggetto di rilettura (non alla todolist del progetto "rilettura del mese"). Credo che basti rimandare con un semplice link alla pagina di discussione del testo stesso, in cui sono/dovranno essere riportate tutte le convenzioni di trascrizioni particolari utilizzate per il testo specifico che divergono dalle convenzioni di trascrizioni generali. In questa maniera non appesantiamo il riquadro che sta in prima pagina e lasciamo le informazioni specifiche del testo nella pagina di discussione del testo stesso. --Accurimbono (disc) 09:11, 1 set 2010 (CEST)Rispondi[rispondi]
Ho provato ad inserire il riferimento così: http://it.wikisource.org/w/index.php?title=Pagina_principale/Sezioni&diff=next&oldid=627442
Ho cercato di accorciare al massimo la frase nei limiti del possibile. Modifiche migliorative sono benvenute. --Accurimbono (disc) 09:17, 1 set 2010 (CEST)Rispondi[rispondi]

Medaglia medaglia medaglia!Modifica

Cari amici,

sapete che posso vantarmi con tutti voi per la mia attività di rilettore... ... ... su en.wiki?

ok, potete smettere di ridere: quel che volevo comunicare è che risulta pur sempre una grande molla motivazionale percepire che qualcuno ha riconosciuto il tuo lavoro per piccolo che sia: a me è bastata una medaglietta in pagina utente per spingermi a fare periodicamente un giretto a rileggere pagine in inglese. Dunque ritengo sia assai utile e bello che

  • io mi ispiri a en.source per creare un templatino-medaglietta per segnalare in pagina utente chi ha collaborato alla rilettura del mese. Qualcosa come...
  • tutti ci impegniamo a fine rilettura ad accreditare tale medaglietta agli utenti (soprattutto agli utenti nuovi o esteri, quanto a noi stessi ciascuno si regoli autonomamente) che abbiano contribuito alle riletture.

Che dite? - εΔω 17:52, 4 set 2010 (CEST)Rispondi[rispondi]

+1 --Accurimbono (disc) 09:31, 7 set 2010 (CEST)Rispondi[rispondi]
Alex, non riusciresti con qualche trucco informatico a selezionare via API quali utenti hanno portato le pagine dei dialoghetti a SAL 100%? Sarebbe un classico esempio di query incrociata... - εΔω 19:13, 22 set 2010 (CEST)Rispondi[rispondi]

Ghiotta occasione per rimpolpare la bibliotecaModifica

serve un cenno di risposta qui. - εΔω 17:47, 16 set 2010 (CEST)Rispondi[rispondi]

Appello per definire i lavoriModifica

Cari amici,

credo che occorra darsi una mossa organizzativa nel campo delle trascrizioni. Mi spiego:

Le riletture del mese procedono bene, non c'è dubbio. In questo momento stiamo viaggiando di gran carriera verso una situazione paradossale:

  • Avremo diverse opere ben rilette, con un progressivo calo di opere solo da rileggere
  • Gli upload di nuovi libri di grandi dimensioni (o anche di medie dimensioni ma lasciati allo sbando) aumenta il numero di indici SAL 25%
  • Gli indici SAL 50% fortunatamente (dato che dovremo intenderci sul significato di SAL 50%) sono pochi

insomma: a breve avremo pochissimi o nessun indice SAL 75% e moltissimi indici SAL 25% dato che noi utenti tuttofare ci dedichiamo alle riletture del mese. Nulla da ridire sul piacere di poter apporre un sigillo di definitività su una pagina: lo riconosco e lo cerco io pure, ma di questo passo ci infiliamo in un vicolo cieco.

La mia proposta sarebbe la seguente:

  • proviamo a lasciare per un mese in home page una rilettura senza che noi la completiamo per lasciare tale compito ad altri
  • concentriamo i nostri impegni di rilettori nella preparazione e formattazione di testi di SAL inferiore (la trascrizione inversa da sola ci dà un bel po' di lavoro).

Io nel mio piccolo mi sto dando da fare con Carducci e penso di inserire un bel po' di indici dai pdf di Cinnamologus, ma non nego che solo con gli indici SAL 25% ci sono diverse opere che hanno bisogno di poche pagine da formattare per saltare direttamente a SAL 75%. Tutto sta a esplorare la categoria e a pubblicizzare la rilettura del mese su Pedia o altrove. Che dite? - εΔω 19:24, 22 set 2010 (CEST)Rispondi[rispondi]

Ok su tutta la linea... --Xavier121 20:47, 22 set 2010 (CEST)Rispondi[rispondi]
Ok anche per me. --Aubrey McFato 21:38, 22 set 2010 (CEST)Rispondi[rispondi]
OK! Ma io già lo faccio; e poi sono "negato" per il passaggio SAL 75%->SAL 100%. Intervallo Carducci con divagazioni bottolatorie (sembra che funzioni uno script per aggiungere sia {{Ri}} che {{R}} alle poesie che sto editando). In più, mi sono comprato un libruscolo sul js.... per impararlo "come dico io"; non prometto niente ma.... chissà. --Alex brollo (disc.) 22:20, 22 set 2010 (CEST)Rispondi[rispondi]
Mi sento chiamato direttamente in causa in quanto nell'ultimo periodo ho fatto molte riletture. Se devo astenermi dal rileggere per evitare che fra poco le opere da rileggere finiscano e per dare spazio ad eventuali nuovi rilettori da attrare al progetto, beh, non c'è problema (anche se la rilettura è la parte più gustosa del processo di trascrizione), sinceramente non ci credo molto... ma tentar non nuoce, in fondo anche un solo utente attratto a wikisource è prezioso. Facciamo questo esperimento e vediamo cosa ne viene fuori.
A mia parziale "discolpa" posso dire che, dopo due anni di blocco, ho portato al 75% le Rime di Guittone d'Arezzo (edizione Laterza/Egidi) ed ora (visto che la fonte cartacea è presente, ma su un sito esterno) sono pronte per la rilettura. BTW la rilettura andrebbe fatta il prima possibile, magari dopo l'esperimento di Ottobre, visto che il sito esterno oggi c'è e domani chissà... :) --Accurimbono (disc) 10:03, 23 set 2010 (CEST)Rispondi[rispondi]

Esperimenti su en.sourceModifica

Agli appassionati di linkaggi e ancore, propongo di dare un'occhiata a en.source, qui: en:Horses and roads/Index. Seguite uno dei link alle pagine della voce "Abelorna, experience of". Poi spostatevi sul namespace Page: e fate lo stesso sugli stessi link, da en:Page:Horses and roads.djvu/241. Che ne dite?

Da notare che ho "esportato" su en: sia {{§}} che {{Pt}}, anche se è stato necessario rinominarli come en:Template:Anchor2 e en:Template:ShowTransclude e adattarli un pochino. --Alex brollo (disc.) 08:45, 26 set 2010 (CEST)Rispondi[rispondi]

Da provare bene anche qui... :) --Xavier121 10:09, 26 set 2010 (CEST)Rispondi[rispondi]
Tsk, principianti! :D Andate su Pagina:De' matematici italiani anteriori all'invenzione della stampa.djvu/5 e cliccate alla voce "Abohaly", e provate lo stesso su De' matematici italiani anteriori all'invenzione della stampa/Tavola delle materie principali e delle persone accennate o citate in questo commentario in ns0. L'unico problema è che il "tagging" mi richiede un sacco di lavoro, ma è già sperimentato da tempo :D - εΔω 10:43, 26 set 2010 (CEST)Rispondi[rispondi]
Eccellente... :) anche se vedento testi enormi con indici enciclopedici, mi chiedo se non sia il caso di istituire la categoria dei Taggatori, utenti devoti al culto del link, che aprono una seconda fase della Formattazione! --Xavier121 11:36, 26 set 2010 (CEST)Rispondi[rispondi]
Ho inserito gli interwiki en: nei template in it.source. --Accurimbono (disc) 13:58, 26 set 2010 (CEST)Rispondi[rispondi]
Grazie Curi. Sì, spero di poter introdurre anche qui il template. Però, nella sua versione "ad alta automazione", è necessario che ogni opera abbia un template opera-specifico.... infatti, il template HAR, su en:, è specifico per Horses and roads. A meno che non mi venga un'idea del tutto nuova... --Alex brollo (disc.) 23:21, 26 set 2010 (CEST)Rispondi[rispondi]
Quanto all'esperimento su en:, forse non ci vorrà troppo tempo per aggiungere tutte le ancore. Adesso tutti i template di en:Page:Horses and roads.djvu/241 hanno l'ancora, l'idea è quella di aggiungere le ancore a tutti i template di tutte le pagine dell'indice, poi di scaricarli, di ordinarli per pagina, e di ripassare le pagine mettendoci tutti i template ancora che puntano alla stessa pagina (un lavoraccio, ma molto, molto meglio che aggiungere i link uno per uno, ritornando più volte sulla stessa pagina). Purtroppo temo che gli spazi per un'automazione (che pure esistono) siano abbastanza stretti. --Alex brollo (disc.) 23:49, 26 set 2010 (CEST)Rispondi[rispondi]

Non ce l'ho fatta... nuova trascrizione del meseModifica

Cari amici,

non ho resistito: visto che su Monaldo Leopardi non si faceva avanti nessun altro ho proceduto all'aggiornamento della rilettura del mese.

La novità è che intanto ho spammato un avviso qui. Dato che non ci corre dietro nessuno direi stavolta di tenerci pronti a tutorare e gratificare ogni nuovo arrivato dedicandoci nel frattempo ai nostri lavori sporchi in altre zone del progetto.

So di essere monotematico, ma ritengo prioritario che gli utenti attivi si dedichino a spingere avanti le pagine degli indici incompleti o abbandonati. grazie in anticipo di tutto il sostegno all'iniziativa. - εΔω 19:33, 29 set 2010 (CEST)Rispondi[rispondi]

Benissimo! --Accurimbono (disc) 21:07, 29 set 2010 (CEST)Rispondi[rispondi]

Primi segni di riscontroModifica

questo sarebbe un messaggio da bar generalista, ma non voglio che si noti troppo, perciò lo pongo qui.

Con questo URL si vedono le modifiche nel nsPagina dell'ultimo mese.

A fronte del solito lavoro sporco di noi maniaci si vedono affiorare da fuori *.Wikisource

  • utenti di altri progetti che trascrivono libri di loro interesse (Anassagora / Carlo Morino)
  • Utenti che si prendono una pausa da Pedia per trascrivere pagine di loro interesse
  • utenti che spuntano dal nulla per trascrivere pagine così, per diletto

In particolare le ultime due tipologie sono estremamente interessanti, perché mi spingono a un delicato ottimismo: potrebbero costituire le prime gocce di uno stillicidio di utenze in arrivo.

Chi si aspetta fiumane di utenti disposti a macinare migliaia di edit con il lavoro sporco sogna l'impossibile: si è visto che la complessita del progetto costituisce una specie di barriera in ingresso. Però l'esca della trascrizione attraendo molti molti più utenti rispetto al passato, aumenterebbe le probabilità che su tale numero un utente ogni tanto salti la barriera della pura manovalanza amanuense e rimpolpi lo sparuto manipolo degli operatori di sistema (sì: ormai è chiaro che chi si diletta di qualcosina di più tecnico della trascrizione diventa quasi automaticamente amministratore).

Un ultimo particolare: supponendo che l'arrivo di trascrittori sia favorito dal riquadro Collabora con noi! in pagina principale mi sono chiesto come mai alcuni utenti si siano lanciati su testi diversi, inaspettati, quasi casuali. Ne ho dedotto che da una parte i nostri inviti a destra e a sinistra prima o poi faranno effetto, e che probabilmente i due link nel riquadro in pagina principale (Categoria:Pagine indice SAL 75%, Categoria:Pagine SAL 75%) sono più efficaci di quel che credevo (d'altronde io pure, su en.source sono passato da una trascrizione personale alle trascrizioni mensili a una trascrizione "di mio gusto"). - εΔω 10:35, 10 ott 2010 (CEST)Rispondi[rispondi]

Ottimo! Ottobre è il mese delle talee, cerchiamo di tirar su dei nuovi utenti aiutandoli quando ne hanno bisogno e correggendo i loro inevitabili errori con il giusto tatto (su quest'ultimo punto io non sempre sono il massimo :) ). --Accurimbono (disc) 17:30, 10 ott 2010 (CEST)Rispondi[rispondi]
Quanto mi piacerebbe raccontarvi delle analogie strepitose fra l'accoglienza e la formazione dei nuovi utenti qui (che è eccellente, se paragonata alle durezze pediane) e l'equitazione... ma solo un accenno: il sesto grado della difficoltà di addestrare un cavallo è farlo in libertà, ossia: interagire con il cavallo completamente libero in un ampio spazio. Tutte le regole che si utilizzano per addestrare un cavallo trattenuto da qualcosa (le redini, il cavaliere sulla schiena, una corda attaccata alla testiera) non valgono più per un banalissimo motivo: il cavallo, se lo desidera, è sempre libero di andarsene lasciando l'addestratore con le pive nel sacco... è qui che la "sensibilità equestre" e il "tatto equestre" (le sentiment et le tact) diventano non delle raffinatezze, ma la conditio sine qua non. Vi ricorda qualcosa? :-) --Alex brollo (disc.) 10:27, 8 nov 2010 (CET)Rispondi[rispondi]

Carattere emergente del template:LinkPagineIndiceModifica

Vi segnalo che il {{LinkPagineIndice}} ha un'interessantissima "emergenza" inattesa. Infatti, all'interno del template, esiste una relazione diretta fra nome del capitolo e numero della pagina Pagina. I suoi parametri sono infatti:

{{LinkPagineIndice
|testo da visualizzare come link
|numero della pagina del file djvu o pdf
|nome completo del capitolo in Ns0
}}

Questo significa che una volta compilato correttamente il template per ogni "ingresso" dell'indice di un testo, dall'insieme dei template nel nsPagina può essere ricavato, via bot, l'intero "impianto" dell'opera in Ns0: possono essere create tutte le sottopagine, complete del loro tl|IncludiIntestazione e anche di una ottima approssimazione del tag pages (da ritoccare unicamente aggiungendo, se servono, i parametri fronsection e tosection). Quasi come la questione Ns0, ma con un vantaggio: che i dati sono realmente utili là dove vengono messi, e dove hanno una funziona autonoma; insomma, non serve "aggiungere" qualcosa di nuovo (come invece avviene per il tl|Ns0), anzi. Ci penso nelle prossime serate. Spero di trovare ancora qualche opera senza sezioni Ns0... qui i nostri utenti sono fulminei, uno non fa in tempo a riflettere un attimo e ci si trova già in Ns0 l'opera finita. :-( :-)--Alex brollo (disc.) 13:31, 8 nov 2010 (CET)Rispondi[rispondi]

Transcludere anche le pagine SAL 25%Modifica

Vi sono buoni motivi (informatici) per anticipare più possibile la creazione delle pagine Ns0 proofread, con il tag pages. Il motivo principale è che nel momento in cui una pagina è menzionata in un tag pages, esiste un legame fra pagina Pagina: e sezione/capitolo che la contiene, leggibile sia a mano che via bot (attraverso Puntano qui). Vi sono anche ottimi motivi per non farlo: è molto "brutto" vedere in Ns0 l'output di un OCR di cattiva qualità, per esempio.

Ma in questo momento abbiamo un buon controllo di cosa viene visualizzato, e cosa no, nelle pagine Ns0; ad esempio, le pagine SAL 00% sono totalmente invisibili; non producono nemmeno il link. E allora stamattina mi son chiesto: perchè non estendere la cosa anche agli altri livelli di SAL? Modificando il template che genera le pagine transcluse, potremmo benissimo stabilire un "livello minimo di SAL" al di sotto del quale la pagina resta invisibile. Che ne dite? e se lo facessimo, il SAL minimo che attiva la visualizzazione, secondo voi, dovrebbe essere il SAL 50% o il SAL 75%? --Alex brollo (disc.) 11:54, 18 nov 2010 (CET)Rispondi[rispondi]

Il SAL 50% dovrebbe garantire almeno un testo privo di errori da OCR. Chi fosse interessato solo a leggere non si preoccuperebbe della formattazione. Un po' diverso il caso dei testi teatrali. --Xavier121 12:45, 18 nov 2010 (CET)Rispondi[rispondi]
Occorre stabilire una regola generale. Io proporrei (tenuto conto dei casi in cui la formattazione è importante, come ricorda Xavier121) di porre il limite minimo al 75%. Ma incoreggerei i rilettori a passare al 75% anche le pagine che non sono perfette dal punto di vista della formattazione "difficile", con quella non è mai finita. Bello sarebbe prendere l'abitudine di annotare i problemi residui in pagina discussione della pagina. --Alex brollo (disc.) 12:57, 18 nov 2010 (CET)Rispondi[rispondi]
Unendo l'utile al dilettevole, invece del testo al 25% o del nulla.... non si potrebbe transcludere un bel template di invito alla trascrittura,che dica ad esempio: "caro lettore, questa pagina non è stata ancora trascritta, per trascriverla premi su questo link, per sapere come fare premi su qust'altro link d'aiuto". che dite si può fare? --Accurimbono (disc) 14:55, 18 nov 2010 (CET)Rispondi[rispondi]
  •   per Accurimbono, mi sembra un'ottimissima idea (se si può fare in automatico, ovvio). Tutto quello che è chiaro, semplice e invita le persone a contribuire dev'essere fatto, nei limiti del possibile. --Aubrey McFato 16:07, 18 nov 2010 (CET)Rispondi[rispondi]
  •   Geniale Curi. Tuttavia riflettendo devo frenare un po' gli entusiasmi. La visualizzazione dipende non dal SAL in atto, ma dal SAL "semantizzato" che ci mette un po' per essere aggiornato. Avverrebbe quindi il paradosso che pagine portate al 75%, o anche al 100%, sia no visualizzabili in ns0 solo il giorno dopo. Il che sarebbe un abuso della pazienza di tutti, ma un insulto ai nuovi arrivati, che vogliono (giustamente) vedere SUBITO il risultato del loro lavoro. A dire il vero è uno dei pochi dati "semantizzati" lasciati accesibili: è quello contenuto nella section pagequality in pagina di discussione della Pagina, è gestito da bot ma può essere "forzato" a mano. Cercherò di accelerare l'implementazione su toolserver, se riesco ad abbassare l'intervallo a 5-10 minuti siamo ok. --Alex brollo (disc.) 16:21, 18 nov 2010 (CET)Rispondi[rispondi]
  •   Brillante Curi eh, eh, eh :)

--Xavier121 16:47, 18 nov 2010 (CET)Rispondi[rispondi]

Grazie! Ma.... un'ideuccia... visto che finchè non è ben trascritta e discretamente formattata, l'immagine della pagine è migliore di una cattiva trascrizione... io ci faccio comparire, per il SAL 25% e SAL 50%, l'immagine della pagina. Sotto l'immagine, il bel box, magari un po' rimpicciolito (ma alle rifiniture penseremo poi! :-) --Alex brollo (disc.) 18:10, 18 nov 2010 (CET)Rispondi[rispondi]
AIMÈ! Vi ho trascinati in un sogno.
La nuova versione della proofread extension non demanda affatto - come la precedente - al template MediaWiki:Proofreadpage pagenum template la visualizzazione del testo della pagina, ma solo la visualizzazione del link. :-( Mi spiace di avervi illuso.

Vedo se da questo equivoco si può comunque tirare fuori qualcosa di buono...

Guardate qua: Specchio_di_vera_penitenza/Prolago. Il box mostra il messaggio adeguato alle pagine SAL 50; ma è un po' ingombrante. Ci vuole un "ridisegno" grafico, tempo che occorra rinunciare all'ambox...--Alex brollo (disc.) 14:52, 20 nov 2010 (CET)Rispondi[rispondi]

Prova così:

--Xavier121 15:36, 20 nov 2010 (CET)Rispondi[rispondi]

Ordine, per favoreModifica

Cari amici,

sto facendo fatica a capire dove scrivere le cose in questo progetto. Mi spiego:

  • Ho una certa urgenza di rilanciare le trascrizioni inverse, che servono moltissimo per aumentare la certificaizone di qualità.
  • Cerco e qualche volta trovo libri digitalizzati. Qualche volta vorrei proporre delle acquisizioni. Ci sono tre azioni 'che però sono tre aspetti dello stesso processo.

Per ragioni storiche però abbiamo tre pagine differenti per un lavoro che ne richiederebbe una sola. Esse sono

La prima è nata come una specie di chiamata alle armi, la seconda è nata per coordinare il lavoro di trascrizione inversa, il match & split ha reso la seconda fortemente legata alla terza, e la prima a mezzavia tra le altre due: oggi, alla luce della prassi attualmente in vigore, come si potrebbe riorganizzare il loro contenuto in maniera pratica se non operativa? - εΔω 19:31, 9 dic 2010 (CET)Rispondi[rispondi]

Hai ragione. Non vedo alternative a una pagina complessiva ed ordinata. Disgraziatamente io sono molto più adatto a eseguire i lavori elencati (la "manovalanza") che a organizzare le cose (la "direzione lavori"). IL problema è che non solo aumentano le opere, ma aumentano le cose che ci si possono fare (es. ha circa tre ciorni di vita una procedura "split semiautomatico").
Funzionalmente, mi piacerebbe una serie di liste:
  1. di opere di cui va ricercata la versione immagini;
  2. di opere in cui si è trovata la versione immagine, ma va preparata e caricata su Commons;
  3. di opere in cui c'è ilfile su Commons, ma va creato un Indice e allimeato pagelist;
  4. di opere in cui c'è il testo Ns0 e c'è l'immagine, ma non un djvu con layer di testo (niente match and split di ThomasV).
Fatto lo split, in un modoo nell'altro, i testi dovrebbero sparire dalla pagina e comparire in un'altra pagina, dedicata alla fase rilettura. --Alex brollo (disc.) 20:40, 9 dic 2010 (CET)Rispondi[rispondi]
  1. di opere in cui c'è il testo Ns0 e c'è l'immagine, fornita di layer di testo (si può attivare il match and split).

Il caso di Hypnerotomachia PoliphiliModifica

Caso molto interessante per vari motivi.

  1. sesto grado della difficoltà di trascrizione, ricchissimo di abbreviazioni e antiche consuetudini ortografiche.
  2. curiosa ricchezza di fonti, oggi è stata trovata anche la trascrizione di LiberLiber, eccellente e eccellentemente documentata. Facile da elaborare con "split senza match", infatti ho caricato 100 pagine in due orette. Pochi giorni e il caricamento sarà finito. Ma... mi sono sentito obbligato ad aggiungere LiberLiber alla fonte delle immagini; e francamante mi sento un po' a disagio nel "saccheggiare" un lavoro così impegnativo.
  3. Due fonti, magnifiche, di immagini sono una inutilizzabile per questioni tecniche (è stato utilizzato un sistema "tipo foto aerea" per rendere le pagine, che sono un collage di piccole immagini GIF quadrate 200 x 200px), l'altra protetta da un robusto copyright che pare collidere con il principio del PD-scan, con tanto di norma di legge specifica...
  4. ho "ritrovato il mio vecchio amore", NoteTab Light, fantastico per "predigerire" file txt. Non conosco bene gli altri editor txt avanzati, ma con questo si va veramente bene (possono essere programmati testi ricorrenti, tipo Edittool).
  5. ho definito una procedura molto efficiente per la preparazione e il caricamento di massa di immagini su Commons, con XnView come programma per ritaglio-raddrizzamento ecc e Commonist per il caricamento. Alex brollo (disc.)
Riguardo al "saccheggiare" da Liber Liber, non credo che loro ne sarebbero dispiaciuti, anzi. Per me è peccato ripetere del lavoro già fatto, se mettiamo in bella vista il loro contributo pernso ne saranno solo contenti. --Aubrey McFato 21:38, 9 gen 2011 (CET)Rispondi[rispondi]


Ordine su CommonsModifica

Attenzione: questa discussione è transclusa da Discussioni progetto:Trascrizioni#Ordine_su_Commons

Ho cercato di mettere un po' d'ordine tra i file su commons anche guardando come si sono organizzate le altre source, ma devo dire che il risultato è alquanto disarmante. Perciò vi propongo di realizzare uno schema di come organizzare i file.

Situazione attuale i file sono sparsi per le categorie (di Commons):

  • It Wikisource books
  • DjVu files in Italian
  • It Wikisource book pdf
  • PDF files in Italian
  • Books from Italy
  • Scanned Italian texts

e sicuramente in altre categorie che non ho individuato.

Non so se tutti conoscono le regole di categorizzazione su commons, ma l'uso di categorie incrociate è deprecato, cioè un file non può essere in It Wikisource books e anche in DjVu files in Italian visto che la seconda (ora) è sottocategoria della prima. Ritengo che cercare un testo per formato (pdf o DjVu) sia sbagliato, visto che formati diversi vengono comunque utilizzati allo stesso modo, perciò propongo questo schema:

ogni file djvu o pdf avrà:

  • descrizione:
    • template book (e possibilmente namespace creator per l'autore)
  • categorie:
    • It Wikisource books oppure categoria specifica del libro se viene creata per raccogliere le immagine (vedi oltre)
    • DjVu files in Italian oppure It Wikisource book pdf ma non saranno più sottocategorie della precedente
    • Book by nome autore
    • YYYY books' dove YYYY sta ovviamente per l'anno di pubblicazione

A titolo di esempio ho sistemato Il Principe di Machiavelli.

Se dal file si estraggono delle immagini, queste andranno raccolte in una categoria specifica (avente il nome del libro) che sarà solo sottocategoria di It Wikisource books. È auspicabile che le immagini abbiano poi descrizione e categorie aggiuntive che riguardino il soggetto dell'immagine.

Ci sono altri suggerimenti? --Luigi62 (disc.) 14:09, 13 gen 2011 (CET)Rispondi[rispondi]

Mi cospargo di cenere la capa per il ritardo con cui leggo. Ottimi suggerimenti, mi ci atterrò. In realtà, mi pare dura la descrizione e categorizzazione delle illustrazioni; quando carico illustrazioni, ne carico decine o centinaia al colpo, e tutto quello che posso fare è aggiungere "Illustations of" alla descrizione del libro. Poi, sbagliando ma non posso farci niente o quasi, assegno all'autore del libro le illustrazioni (cosa falsa) e via. Siccome questo contributo è importantissimo, e va ancora sviluppato, lo trasporto in Bar generale. Poi la cosa andrebbe ancora sviluppata: il template Book e il namespace Creator sono oggetti misteriosi. --Alex brollo (disc.) 18:27, 11 mar 2011 (CET)Rispondi[rispondi]
Vengo da it-source. Suggerimento: Non se sia possibile automatizzare tutto ciò ma sarebbe la cosa più bella. Se chi inserisce le "immagini-testo" e le "immagini-immagini" lo può fare inserendo una sola volta titolo ecc. e la categorizzazione viene aggiunta dalla macchina tutto si delinea a si dipana come un orologio svizzero cui manchi solo il cucù. :) È un template possibile? (Perdono per uno che in Commons non viene mani)--Silvio Gallio (disc.) 09:19, 12 mar 2011 (CET) Ah, dimenticavo: it Wikisource books non mi sembra tanto preciso; ci sono molti testi ben più corti e ben più lunghi di un libro. Poi, per il nome a me poco cale. ma si possono ingenerare confusioni (vedi Indice e Indice! ecc.)--Silvio Gallio (disc.) 09:23, 12 mar 2011 (CET)Rispondi[rispondi]

γρεψο... ops, grecoModifica

cari amici,

comincio a pensare che sia ora di importare anche da noi un templatino che segnali la presenza di testo greco da trascrivere: almeno finché ci sono io che mi diverto a trascrivere è meglio che mi sfruttiate. Prendo ad esempio ca:Template:Grec, ma seguendo gli interwiki ci sono varianti da scegliere per la modalità con cui segnalare il problema. Prima di importare chiedo alla comunità di segnalarmi quale versione valga la pena trapiantare... - εΔω 18:36, 31 mag 2011 (CEST)Rispondi[rispondi]

Sarebbe anche carino se le lettere con accenti e spiriti fossero leggibili più facilmente ma non si può avere tutto. Rguardo alla domanda mi sembra più comodo quello catalano che è praticamente lo istesso del francioso. Anche {{arabo}}, {{cirillico}} e {{ebraico}} farebbero comodo. Il cirillico russo è il mio piatto preferito. --Carlo Morino (disc.) 19:23, 31 mag 2011 (CEST)Rispondi[rispondi]

Partecipazione progetto!Modifica

Ciao a tutti!! Mi piacerebbe partecipare attivamente al progetto trascrizioni. Cosa devo fare per essere inserita nella lista? In questo momento sto lavorando sui "versi sciolti dell'abate Carlo Innocenzio Frugoni" (se qualcuno potesse darmici un occhio e dirmi se come sto procedendo va bene oppure no, e darmi eventuali consigli...) Grazie!! --RobyBlue (disc.) 13:02, 16 giu 2011 (CEST)Rispondi[rispondi]

Vai tranquilla, ti seguo io, stai facendo un ottimo lavoro, continua così, :) --Xavier121 13:06, 16 giu 2011 (CEST)Rispondi[rispondi]

RigaIndice mi fa le bizzeModifica

Qualcuno sa perchè con il template {{RigaIndice}} vengono questi puntini? Nelle pagine precedenti non ci sono. --Aubrey McFato 00:27, 5 lug 2011 (CEST)Rispondi[rispondi]

Indice truffaldino: croce o delizia?Modifica

cari amici,

un innocente utente ha scoperto una pentola a lungo chiusa: la Vita di Dante del Tiraboschi non era che la punta di un iceberg: il volume contiene infatti sia le Rime che l'Inferno... come si può notare da qui

Il trucchetto di manipolare il <pagelist /> per mostrare solo una parte del libro ha giustamente causato il disagio di un rilettore. Si fa presto a rimediare, ma a parte la necessità di rispondere con chiarezza a Raoli su altri punti da lui sollevati, volevo concentrarmi sulla possibilità di usare il trucchetto del pagelist parziale come spunto positivo.

In particolare, prendiamo testi enormi che raccolgono molte opere (due esempi non a caso Carducci e Manzoni)... perché in occasione delle riletture collaborative invece di far rileggere interamente tali libri non si "selezionano" da essi singole opere per la rilettura? Non si tratterebbe di misure permanenti ma mirate a un periodo circoscritto. Che ne pensate? - εΔω 11:13, 19 lug 2011 (CEST)Rispondi[rispondi]

Sono contrario a questi trucchi. Che si mostri tutto il libro. Se poi se ne trascrive solo una parte l'indice rimane al 25% e la parte trascritta e magari riletta, in NS0 al 100%. L'importante che manteniamo la trasparenza. Il progetto è già abbastanza complesso. --Accurimbono (disc)

Oh. My. God. Assolutamente contrario a questi subdoli trucchetti. Mettere in rilettura solo una parte di un indice, contenente una singola opera di una raccolta più vasta, può anche essere una buona idea. Ma la pagina indice deve mostrare tutti i contenuti del libro. Altrimenti quando la portiamo al 100% stiamo barando. Candalùa (disc.) 13:17, 19 lug 2011 (CEST)Rispondi[rispondi]

Occhio: discussione importante su commonsModifica

Sarò breve: su commons vogliono rinominare una categoria che ci preme molto: pregasi intervenire su commons:Category talk:It Wikisource books. Importante! - εΔω 17:08, 15 set 2011 (CEST)Rispondi[rispondi]

(strano) Niente problemi di nazionalismo stavolta, vogliono cambiare anche le altre lingue. Ho scritto due righette, per quello che vale. La cosa, comunque, sempre più mi mi conforta nella mia ferrea convinzione che stare il più possibile alla larga da quel sito fa bene alla salute. Buone bracia sottratte... :)--Silvio Gallio (disc.) 17:42, 15 set 2011 (CEST)Rispondi[rispondi]
Potrei farlo io ma subito subito non è bello. Se altri interverranno suggerisco di appoggiarsi (anche) a quanto scritto in Commons:Category_talk:De_Wikisource_book e soprattutto quanto (imho intelligentemente) dice Joergens già nel 2007...

Progressi in vista nell'automazioneModifica

Sono entusiasta di essermi associato a Progetto:Bibbia, in quanto la trascrizione della poderosa opera offre numerosi stimoli a riflettere su problemi generali. Vi avviso di un altro fronte dell'automazione, a cui pensavo da parecchio tempo ma che stavolta affronterò di petto: l'uso dei dati interni del layer testo djvu. In breve, nello strato testo dei file djvu di IA (e non solo) non c'è solo il testo, ma anche la struttura del testo, suddivisa gerarchicamente in "box annidati" ciascuno dei quali è identificato dalle proprie coordinate nella pagina. I livelli di dettaglio sono parecchi: page, column, region, row, word e talora perfino character. A parte page e character, quelli intermedi hanno un enorme interesse per "capire" la struttura della pagina e forse per "indovinare" la formattazione wiki. I dati con le coordinate possono essere ottenuti sia con una struttura tipo LISP ("Lots of Irritating Single Parentheses" ;-) ) o in xml. Python può agevolmente eseguire il parsing dell'uno e dell'altro standard. Thinking in progess .... --Alex brollo (disc.) 11:03, 14 ott 2011 (CEST)Rispondi[rispondi]

Dalla teoria, alla pratica: la cosa funziona. Non sto a spiegarvi come, perchè spiegazione non richiesta, noia manifesta, ma sono riuscito a estrarre dal djvu di Bibbia circa il 70% dei template RigaIntestazione completi (da correggere, ovvio..).
siccome sono "leggermente entusiasta" ve ne metto qui un saggio, precisamente quelli da pag 100 a pag 109 (a caso, vediamo cosa esce..), e per sfizio ci metto pure il comando python che estrae i dati dalla lista che conservo nel mio pc ma che riverserò nei "paginoni" usando come àncora il tag pagina creato da match:
>>> for i in range(100,110):
	print i, listaIntestazioni[i][1]

	
100 {{RigaIntestazione|''e della donna.''|'''LEVITICO, 16.'''|''Fesia delle espiazioni.''}}
101 {{RigaIntestazione|''II becco Azazel.''|'''LEVITICO, 16,'''|'''Fuor del campo^''''}}
102 {{RigaIntestazione|''II Santuario unico.''|'''LEVITICO, 17, 18.'''|''Unioni illecite.''}}
103 {{RigaIntestazione|''Pcccati contro'natura.''|'''LEVITICO, 19.'''|''La santita comandata.''}}
104 {{RigaIntestazione|''Varii precetti.''|'''LEVITICO, 20.'''|''Sacrificii umani vietati.''}}
105 {{RigaIntestazione|''X' incesto proihito.''|'''LEVITICO, 21.'''|''Puritcb dei sacerdoti.''}}
106 {{RigaIntestazione|''Sacefdoti senza difetti.''|'''LEVITCO, 22.'''|''Uso delle cose sacre.''}}
107 {{RigaIntestazione|''Vittime senza difetti.''|'''LEVITICO, 23.'''|''Lefeste solenni.''}}
108 {{RigaIntestazione|''#1''|'''#2'''|''#3''}}
109 {{RigaIntestazione|''II hestemmiatore punito.''|'''LEVITICO, 25.'''|''Z' anno del Giuhhileo,''}}

E adesso, a nanna! Domani grande estrazione delle note, che è la stessa cosa.... :-) --Alex brollo (disc.) 01:28, 15 ott 2011 (CEST)Rispondi[rispondi]

Il caso di Dizionario triestinoModifica

L'ultima avventura (Indice:Dizionario triestino (1890).djvu) è stata veramente interessante. Rispondendo a una domanda di Aubrey, vi spiego i passi che hanno consentito una "preformattazione" per certi versi sorprendente.

  1. disponibilità di un'eccellente serie di tiff b/n
  2. estrema "pulizia" e semplicità dell'impaginazione del libro (particolarmente utile, l'indentatura molto vistosa dei lemmi)
  3. alta qualità dell'OCR da FineReader, con l'unico intoppo della errata interpretazione di frammenti della linea di separazione centrale delle colonne (tradotte variamente in |, I, 1, l...)

Partendo dal semplice txt con l'unica formattazione costituita dalla quasi impeccabile suddivisione in paragrafi, è stato possibile, con script python piuttosto semplici, elaborando i file txt a pagina singola prodotti da FineReader:

  1. identificare i lemmi e includerli nel template lemma;
  2. identificare le sigle e includerle nel template DtAbbr;
  3. aggiungere i template Colonna, AltraColonna (su per giù a metà testo), FineColonna;
  4. eseguire le usuali pulizie postOcr e sistemare le virgolette „“ (la seconda in genere interpretata come ")
  5. identificare gli elementi dell'intestazione e predisporre quasi per tutte le pagine il tl RigaIntestazione
  6. caricare il tutto nelle pagine Pagina.

Questa proceduta non ha minimamente sfruttato le potenzialità dell'"analisi delle aree" dello strato testo djvu, anche perchè, in questo caso, il djvu non ha uno strato testo OCR. Questo campo, molto promettente, è in "stand by" e spero di dedicarmici quanto prima. --Alex brollo (disc.) 12:53, 28 ott 2011 (CEST)Rispondi[rispondi]

Ho provato a rileggere un paio di pagine. L'accuratezza nel riconoscimento dei lemmi e delle sigle è molto buona. Invece sulle pulizie postOCR credo si possa migliorare, in particolare andrebbero tolti gli spazi prima dei segni di punteggiatura , ; . : ! ? e tra le virgolette aperte/chiuse e il testo contenuto. Ottimo lavoro, comunque! Un dubbio: alcuni lemmi sono "doppi", vedi "Abelida, abelimento": in quel caso come conviene usare il template Lemma? Candalùa (disc.) 14:09, 28 ott 2011 (CEST)Rispondi[rispondi]
Quasi deliberatamente trascuro dalle "pulizie offline" le cose che vengono corrette da postOCR, anche per incoraggiarne un uso estensivo da parte degli utenti. Caso del doppio lemma: senza dubbio, ciascuno nel suo template. Se metteremo delle section intorno alle definizioni dei due lemmi, saranno due coppie di section "annidate" o anche "intrecciate", la cosa non crea nessun disturbo.
Ho contato i lemmi e li ho estratti, sono circa 13000. Poco più di venti pagine switch, e posso implementare, lemma per lemma, il dato del numero pagina che lo contiene per ottenere un "effetto bibbia" anche in assenza di ancore numeriche.
Un bel lavoro da bot, vedo, è includere nella section giusta l'eventuale seconda parte della definizione del lemma che compare nella pagina seguente. --Alex brollo (disc.) 14:47, 28 ott 2011 (CEST)Rispondi[rispondi]

Nuntio vobis...Modifica

Chi ha visto la breve vita di File:test.djvu e di Indice:Test.djvu, creati e cancelati nel giro di una manciata di minuti, forse ha sospettato che stessi macchinando qualcosa...

Mi è riuscito il "tiro" di far caricare da python un nuovo strato testo, ottenuto con FineReader, utilizzando tal quali i file txt prodotti da FineReader e lanciando un singolo programmino; il resto l'ha fatto tutto il detto programmino. Il file è File:Regolamento Circolazione Treni 1936.djvu collegato a Indice:Regolamento Circolazione Treni 1936.djvu. L'OCR vi sembrerà no buono, ma l'OCR di Internet Archive di partenza, Silvio penso che ve lo confermerà, era MOLTO peggiore. Grazie a Silvio per la proposta; la sua spintarella è stata quello che mancava per concludere un vecchio progetto. Domani sera, il primo DjvuSource: suppongo di riprendere il vecchio e glorioso Georgiche. --Alex brollo (disc.) 23:43, 8 nov 2011 (CET)Rispondi[rispondi]

Tre hurrà x Alex! l'OCR che avevo tratto da I.A. era effettivamente moooolto peggiore. A latere, anche il file-immagine tratto da I.A. nella inutile speranza di ottenere un layer (il mio office ha problemi proprio con MODI) è peggiore di quello tratto dal pdf con DjVuToy. E, a essere cattivi, il pdf è il file di migliore qualità, pur nella "terribilezza" della stampa. Così mi chiedo se non sia il caso di cambiare anche il file immagine. Non è che succede il solito pasticcio, vero? In tal caso potrei provare ad alzare la qualità dei file tif e vedere l'effetto che fa. Grazie --Silvio Gallio (disc.) 08:03, 9 nov 2011 (CET)Rispondi[rispondi]
Avviso tecnico: se il tiff è destinato all'OCR, esagerare sempre nella qualità! FineReader l'ho fatto correre sul pdf, ma da quello che ho capito il MODI chiamato da DjvuToy "riceve" da DjvuToy la conversione tiff delle pagine djvu, e se il tiff contenuto è di bassa risoluzione, l'OCR risultante ne risente. Può essere impressionante maneggiare tiff che hanno alcuni mega per pagina, ma (soprattutto se sono in bianco e nero) il software comprime questi grossi tiff con estrema efficenza. --Alex brollo (disc.) 09:07, 9 nov 2011 (CET)Rispondi[rispondi]
Acc. Mi è scappato il dito e devo riscrivere tutto il post. Allora. Sono partito da pdf a 96 dpi e mi sono ripulito, raddrizzato e a volte riscritto (copia incolla di lettere da un punto all'altro - ma vi sfido a capire dove :P) pagina per pagina. Ne ho tratto file tif a 200 dpi. Da questi tif ho tratto il secondo pdf, quello che hai usato. Potevo anche esagerare ma la NASA non mi ha mandato il loro computer che mi avevano promesso :PP. Proverò a esagerare nei prossimi giorni. Non lavorare "fuori di qui" e pian piano arrivo... comunque i tif stanno -pian piano- andando nel dropbox; se ti servono copiali e cancellali, se non servono cancellali e basta. se no li cancellerò fra qualche giorno sono 64 Mb! e non riuscivo nemmeno a ottenere il djvu da any2djvu. Bye!Silvio Gallio (disc.) 09:45, 9 nov 2011 (CET)Rispondi[rispondi]
DEVI assolutamente imparare a usare il mio scriptino pdf2tif.py. Cercherò di sistemarlo per renderlo più user-friendly possibile. Se parti dai tiff 96 dpi, è perfettamente inutile cercare di aumentare, in un secondo momento, la risoluzione... aimè.

Quindi i passaggi corretti sono:

  1. fai tu stesso le scansioni? imposta lo scanner a 300dpi e produci direttamente dei tiff a 300dpi; e conservali! Resisti alla tentazione di comprimerli, e guardati bene dal salvare le immagini come jpg.
  2. hai un pdf Google o IA copiato da Google? usa pdf2tif.py (appena potrai) a 300 dpi, produrrà delle "bestie" di tiff da quattro o cinque mega per pagina, conservali gelosamente: sono quelli da dare in pasto a DjvuToy (che peraltro su Piola ha fatto un bel casino), oppure anche, perchè no? al vecchio DjvuSolo, che non fa mica un cattivo lavoro, se parte da ottime immagini non compresse. --Alex brollo (disc.) 12:02, 9 nov 2011 (CET)Rispondi[rispondi]
OK io ho messo in source quello che mi hanno passato. (ahimé) Però da 96 a 200 dpi ho visto una discreta differenza. Anch'io ritengo pressoché inutile portarle più su (pressoché) ma un tentativo lo posso sempre fare. Quanto al tuo "scriptino" tremo solo all'idea. :) È una roba che devo scrivere le righe di comando ancoradinuovo? gesummaria! O_O Te lo ricordi, vero, che io sono pigro? Il limite minimo/massimo dei 300 dpi mi è storia abbastanza nota Ma se mi arriva un file a 96 non c'è molto da fare. quick-bye! Silvio Gallio (disc.) 22:06, 9 nov 2011 (CET)Rispondi[rispondi]
PS, non per fare il difensore d'ufficio ma credo che il Toy non abbia nulla a che fare col casino di Piola. come ti ho detto -e purtroppo l'ho scoperto solo molto più tardi- i problemi erano già presenti nel pdf di Google. RiBye! Silvio Gallio (disc.) 22:09, 9 nov 2011 (CET)Rispondi[rispondi]

I DjvuSourceModifica

Al momento ne abbiamo due.

I DjvuSource presentano, al momento della creazione di una pagina, il loro strato testo; normalmente, ciò che presenta un file djvu "normale" è l'OCR incorporato nello strato testo; i DjvuSource presentano invece il testo wiki, completo e formattato. L'intero contenuto delle pagine Pagina è incorporato nei loro strati testo.

La cosa non è che serva a molto, in un'opera già inserita; ma questa cosa apre la strada a varie possibilità, dirette o indirette.

  1. se lo stesso file viene aperto in un altro progetto wikisource (test in corso su vec.source con Georgiche) il testo formattato wiki viene importato tal quale (problema: discordanza nei template fra progetto e progetto...);
  2. ciò che è stato acquisito, nel corso di queste manipolazioni, potrà essere utilizzato per realizzare un agevole "editor di layer testo djvu" appoggiandosi a un qualsiasi text editor;
  3. si apre la strada a elaborazioni postOCR direttamente sul text layer, compresa l'introduzione di codice wiki ricorrente, che saranno disponibili alla prima apertura della pagina;
  4. inserendo il codice html delle pagine, invece che il codice wiki, è ipotizzabile un "visualizzatore" che, anche in assenza del software wiki, visualizzi sia le immagini delle pagine, che il loro contenuto formattato e "ipertestualizzato" (sono necessarie solo le routine djvuLibre e uno script locale in grado di interrogarle e di restituire una pagina html.
  5. altro?--Alex brollo (disc.) 08:47, 10 nov 2011 (CET)Rispondi[rispondi]

appello per pattugliamento dei pagelistModifica

Cari amici,

ebbene sì, intendo tornare sulla manutenzione delle pagine indice. Il controllo dei tag <pagelist /> nelle pagine indice è necessario: mi spiego.

Dal pagelist il Mediawiki:Proofreadpage pagenum template che inserisce i "segnaposto" come [p. 13 ] nel ns0 si basa su quel tag per la numerazione!

Nessun utente è tenuto per contratto a conoscere l'uso del tag pagelist, né si può per questo impedire a utenti volonterosi ma inesperti di creare pagine indice, ma gli utenti esperti che ne conoscono il funzionamento dovrebbero essere coscienti che il controllo degli ultimi indici creati è un altro tassello dell'opera di pattugliamento che mantiene in forma il progetto.

Inizialmente me ne sono occupato io, ma se è vero che la prima volta passarmi tutte le pagine indice è stata una sfacchinata non indifferente, non solo oggi gli indici sono molti molti di più, ma dato che di fatto sarebbero da controllare solo gli indici che non sono stati già controllati, occorrerebbe semplicemente avere uno strumento che elenchi gli indici creati recentemente.

Ad esempio: Speciale:PaginePiùRecenti può essere usato per mostrare gli indici nuovi, ma il suo limite cronologico (metà ottobre) è piuttosto ridotto. Cercasi suggerimento e soprattutto aiutanti. - εΔω 17:57, 10 nov 2011 (CET)Rispondi[rispondi]

Confermo: un tempo il pagelist mi sembrava un orpello paranoide... mi sono ricreduto. Io sono un aggiustatore di pagelist occasionale, lo faccio quando mi capitano a tiro; cercherò di farlo in modo un po' più sistematico. Forse una paginetta di "convenzioni" non ci starebbe male. --Alex brollo (disc.) 13:05, 17 nov 2011 (CET)Rispondi[rispondi]

Note nella coltivazione degli oliviModifica

Cari amici,

ho un problema:

abbiamo in La coltivazione degli olivi due sistemi di rappresentazione delle note. Occorre uniformare. Dato che comunque il lavoro è da svolgere e dato che io non sono sereno su questo vorrei condividere con voi la decisione sul da farsi.

Premessa
nel testo le note sono poste a fine di ogni libro e richiamate da rimandi numerici
conseguenza
ci sono nel primo libro note richiamate con Template:Nota separata; negli altri il template:Nota (peraltro da sistemare)
Considerazioni
  1. Il template nota separata non mi piace perché introduce section nel testo delle note e aggiunge nota a piè di pagina dove non appaiono nella pagina. Se si possono evitare delle section non sarebbe male e il Template:Nota fa giusto questo, inoltre la presenza delle nota a piè di pagina dove non sono presenti nel testo è a mio parere causa di confusione, infine il template si appoggia al template:Pagina che credevo destinato all'eliminazione per obsolescenza. L'indubbio vantaggio è che in ns0 i rimandi a lato delle singole note permettono una correzione al loro testo che il template:Nota non concede
  2. Il template:nota ha un uso piuttosto esoterico, che alla prova dei fatti non permette una combinazione "arbitraria" dei parametri; inoltre ai fautori del "Wikisource non è di carta" impone un clic in più e la lettura di note poste in pagine diverse proprio come sulla pagina cartacea. L'indubbio vantaggio è che la struttura delle note è mantenuta come nella versione cartacea (tra l'altro in questo libro le note seguirebbero il testo di ciascun libro nel medesimo tag pages), e non introducono oltre al template Nota altri elementi estranei al testo.

In che direzione dirigereste il lavoro? E perché? - εΔω 12:11, 17 nov 2011 (CET)Rispondi[rispondi]

Forse le novità introdotte con Dizionario Triestino, Zibalcone e Bibbia consentiranno di semplificare la parametrizzazione del Template:Nota (a prezzo della costruzione, una tantum, di una esotericissima pagina-dati). Proverò a riflettere un po' sulla questione. In fondo, i dati veramente necessari sono pochi: in nsPagina, numero di pagina dove sta la nota e numero della nota; in pagina note, il numero della pagina e lo stesso numero della nota. Il difficile viene nel momento della trasclusione, ma qui una pagina-dati che trasformi il numero della pagina Pagina in nome di una pagina ns0 è pensabile. Alla fine, il tl|Nota dovrebbe avere questa forma: {{Nota|numero della pagina|numero della nota}}. Nel caso ideale in cui le note hanno un ordine progressivo in tutto il libro, basterebbe perfino il solo dato numero della nota. --Alex brollo (disc.) 12:54, 17 nov 2011 (CET)Rispondi[rispondi]

Ho eliminato il secondo punto a sfavore di Nota separata: ora in nsPagina non si vede più la nota a pié di pagina ma solo il rimando ad essa. Inoltre non fa più uso del template:Pagina, anche se non capisco cosa tu abbia contro di lui, poverino, che ha sempre fatto il suo dovere :-). Rimane la storia delle section: e anche qui sinceramente non ho ben capito il motivo dell'opposizione... perché sono elementi estranei al testo? ma anche un template lo sarebbe... Candalùa (disc.) 16:46, 17 nov 2011 (CET)Rispondi[rispondi]

(Aggiungo un accorato appello ad Alex: ti supplico, la pagina dati no! :-) se uno deve pure compilare la pagina-dati, altro che semplificare! questo genere di soluzioni ha dimostrato di andare benone per le maxi-opere, dove c'è un utente esperto che compila tutto per benino e automatizza parte del lavoro, ma non generalizzerei la cosa se non è proprio indispensabile). Candalùa (disc.) 16:54, 17 nov 2011 (CET)Rispondi[rispondi]
Accolgo volentieri l'accorato appello (e spengo il cervello che stava immaginando una soluzione via bot :-) ). Per complicarmi la vita mi basta l'attuale trilemma: studio i parser xml per tirar fuori qualcosa dall'export xml dei djvu? Continuo a sviluppare la mia routine di parsing diretto dei file .dsed? Mi dedico alla sola rilettura per almeno un mese?  ;-) --Alex brollo (disc.) 17:00, 17 nov 2011 (CET)Rispondi[rispondi]

Mi è sembrato di capire, riguardo alla presenza di due modalità di inserimento note, che non si sia arrivati a una decisione definitiva. Riusciamo a trovarne una che ci soddisfi? Propenderei per nota separata per un semplice motivo: l'apice porta alla nota relativa al corrispettivo verso mentre per il template nota è necessario partire dalla nota per risalire al testo; l'avvertimento "Vedi note dell'autore" è un surplus, a mio avviso inutile, che si potrebbe evitare col template nota separata.--Barbaforcuta (disc.) 01:51, 1 feb 2012 (CET)Rispondi[rispondi]

Sono favorevole all'uso di Nota separata, sopratutto perchè non richiede un riferimento "assoluto" in Ns0 per la transclusione, permettendo di creare testi composti diversamente. L'unico limite sono le due pagine, ma visto i rari casi in cui sono più di due (esempio) col template pagina e <noinclude><includeonly> </includeonly></noinclude> si risolve bene. --Luigi62 (disc.) 09:12, 1 feb 2012 (CET)Rispondi[rispondi]
Anche se non a furor di popolo, mi sembra ci sia una preponderanza di favori nell'uso del template Nota separata. Se non ci sono obiezioni, m'accingerei quanto prima a modificare le note uniformandole secondo l'esempio del Libro I della stessa opera.--Barbaforcuta (disc.) 19:06, 23 feb 2012 (CET)Rispondi[rispondi]

Testi SAL 100% da proofreadizzareModifica

Inizio a buttare giù una lista di pagine al 100% da rendere proofread come da discussione qui. Modificate liberamente la lista e scrivete sotto di ognuna le vostre annotazioni, l'edizione che si può usare, lo stato di completamento ecc. Candalùa (disc.) 19:55, 13 dic 2011 (CET)Rispondi[rispondi]

Pagine singoleModifica

Il testo originale in realtà non esiste, nel senso che sarà un manoscritto rarissimo negli Archivi Vaticani. Abbiamo la trascrizione in vari testi (Edo qui suggerisce un paio di posti). Qui si può trovare un vecchio libro probabilmente utilissimo. Ma non so se possiamo scansionare solo le pagine che ci interessano (ma credo di sì, legalmente). --Aubrey McFato 11:54, 13 mar 2013 (CET)Rispondi[rispondi]

Opere su più pagineModifica

Testi da (ri)rileggereModifica

Lista dei testi, nominalmente al 100% o a Edizioni Wikisource, che sono stati dotati di scansioni a fronte e che andrebbero quindi (ri)riletti per confermarne la qualità. Quelli a 100% si possono portare a Edizioni Wikisource una volta riletti.

  1.      Amalfi    di Henry Wadsworth Longfellow (XIX secolo), traduzione dall'inglese di Giulio Minervini (1883)   Fatto - εΔω 19:54, 24 dic 2011 (CET)Rispondi[rispondi]
  2.   Annali   Fatto - εΔω 09:09, 25 dic 2011 (CET)Rispondi[rispondi]
  3.      A Carlo Alberto di Savoia un Italiano    di Giuseppe Mazzini (1831)   Fatto da Utente:Redqueen
  4.      A Vincenzo Bellini    di Mario Rapisardi (1867)   Fatto εΔω 11:23, 1 gen 2012 (CET)Rispondi[rispondi]
  5.      Epistola ad Ortalo    di Gaio Valerio Catullo (I secolo a.C.), traduzione dal latino di Ugo Foscolo (XIX secolo)   Fatto
  6.   Orlandino   Fatto - εΔω 18:11, 20 feb 2012 (CET)Rispondi[rispondi]
  7.      Sempre così    di Francesco Dall'Ongaro (1859)   Fatto - εΔω 09:17, 25 dic 2011 (CET)Rispondi[rispondi]
  8.      Sulla maniera e la utilità delle Traduzioni    di Anne Louise Germaine de Staël (XIX secolo), traduzione dal francese di Pietro Giordani (1816)   Fatto - εΔω 18:11, 20 feb 2012 (CET)Rispondi[rispondi]
  9.    Elegia di Tommaso Gray poeta inglese per esso scritta in un cimitero campestre tradotta in versi italiani