Discussioni utente:Divudi85/gen-giu2018

Ultimo commento: 5 anni fa, lasciato da Divudi85 in merito all'argomento Invito a cliccare split....

è=é? modifica

Questo titolo non può passare! :/ --Xavier121 22:18, 3 gen 2018 (CET)Rispondi

@Xavier121 intendi nel filename del djvu? --divudi (disc.) 22:20, 3 gen 2018 (CET)Rispondi
@Xavier121 va raso al suolo vero? --divudi (disc.) 22:37, 3 gen 2018 (CET)Rispondi
Ho chiesto il rename su commons: una volta avvenuto il rename qui occorrerà spostare tutto ciò che afferisce al file (indice, pagine e crop vari). - εΔω 07:37, 4 gen 2018 (CET)Rispondi
@Xavier121, OrbiliusMagister ho rifatto l'indice e copiato un po' di roba da uno all'altro Indice:Luigi_Barzini_-_L'Argentina_vista_come_è.djvu, si possono fare altri spostamenti prima di cancellare quello col titolo cannato? --divudi (disc.) 17:56, 5 gen 2018 (CET)Rispondi

La prossima volta che carichi un Indice segui sempre questo schema (es.): Barzini - L'Argentina vista come è, Tipografia del Corriere della Sera, Milano, 1902.djvu. Nessuna eccezione! :) --Xavier121 18:44, 5 gen 2018 (CET)Rispondi

Cos'è successo? Mi sembra di capire che creato il nuovo indice con la è giusta hai rifatto il match and split.... così ci sono le vecchie pagine con la é parzialmente rilette e le nuove pagine con la è "vergini". Mi confermi? In questo caso ferma tutto, la procedura giusta in questi casi è lo spostamento delle pagine rilette, non il rifacimento di tutto il lavoro daccapo. Un bot può farlo in pochi minuti! Procedo? --Alex brollo (disc.) 22:11, 5 gen 2018 (CET)Rispondi

Richiesta di M&S modifica

Caro Divudi85,

ho notato che hai caricato su IA questo libricino: sembra fatto apposta per esseere accoppiato a La trovatella di Milano. Ti segnalo dunque la possibilità di un M&S bello pronto. - εΔω 07:41, 4 gen 2018 (CET)Rispondi

@OrbiliusMagister Bellissima cosa, reverse-match&split : ) come procedo? Carico normalmente il file, creo l'indice e mi copio su una mia pagina il testo formattato per lo split?--divudi (disc.) 14:31, 4 gen 2018 (CET)Rispondi
Oh, mio giovane padawan, qui non c'è nulla di reverse: il concetto di M&S era stato pensato inizialmente proprio per l'accoppiamento di testi non proofread già presenti su Wikisource con versioni digitalizzate.
Il camino è semplice e in poche tappe:
  1. Carichi il djvu su commons (ad esempio col nome File:Invernizio - La trovatella di Milano, Barbini, Milano, 1889.djvu)
  2. Prepari qui la pagina indice Indice:Invernizio - La trovatella di Milano, Barbini, Milano, 1889.djvu con il suo bel pagelist e il suo sommario
  3. vai sulla prima pagina del testo qui su Wikisource e in modifica porrai appena sopra il testo del libro il codice corrispondete alla pagina di match:
    ==__MATCH__:[[Pagina:Invernizio - La trovatella di Milano, Barbini, Milano, 1889.djvu/9]]==
  4. Salvi e premi sul link "MATCH" creatosi: automaticamente Phe-bot ti prepara la pagina per lo split.
  5. premi sulla linguetta "split" creatasi dopo il match e il nostro testo viene riversato nelle pagine del djvu.
Se mi concedi un paio di consiglietti
  • Prima dello split ti direi di dare una passata che so, agli apostrofi per vedere che non ci rimangano apostrofi "informatici" non uncinati; trattini brevi "-" al posto di quelli linghi "—"; "é" odierne dove una volta c'erano solo le "è" ecc. ecc.: prima dello split puoi eseguire in una sola passata sostituzioni massicce che, se non eseguite per tempo, dopo lo split dovranno essere ripetute pagina per pagina;
  • Ci sono alcuni palesi errori di scansione: qui, qui e qui, e in diversi altri casi due facciate sono digitalizzate su una medesima facciata e andrebbero separate prima del caricamento su commons.
Se serve altro chiedi pure. - εΔω 23:03, 5 gen 2018 (CET)Rispondi
Grazie! Ho cominciato a splittare e matchare capitolo per capitolo.--divudi (disc.) 13:39, 6 gen 2018 (CET)Rispondi

avrei da offrirti un paio di grane :) modifica

Ciao. La prima grana è quel testo che hai messo tu sulle ferrovie economiche. Me lo somno ripassato e credo di aver sistemato tutti i piccoli problemi. Resta quello, grande, delle tabelle. Ce ne sono un'infinità e io... La seconda grana è che ho finito tutti i Barzini. Tu dirai che c'è un mare di roba ma, sai com'è, mi piace moltissimo questo tizio e volevo proporti -se ne hai voglia/tempo- di inserire quel malloppone del viaggio Parigi-Pechino. In fin dei conti la maggior parte di noi(io) conosce Barzini per questo! Nella pagina autore dice che è in I.A. Poi io cerco di smazzolarmelo fin che ce la faccio. Promesso :) saluton --Silvio Gallio (disc.) 21:00, 17 gen 2018 (CET)Rispondi

Certamente! Il problema di quella digi sono le immagini di bassa qualità ma ho in biblio il testo originale e avevo già pensato di fare le scansioni solo di quelle e caricarle in commons per poi inserirle bypassando croptool. Lo pulisco un po' e creo il djvu.
Ok anche per le ferrovie economiche, vedo di ripassarci ma visto che è un tabellomane si potrebbe coinvolgere anche @MauC66 : )
...Nel frattempo ti segnalo Indice:Sulle_ferrovie_economiche.djvu e tre che ho caricato su IA dimmi se ti possono interessare: barzini - venezia giulia, pancaldi - ferrate nord-ovest pancaldi - bologna. --divudi (disc.) 09:44, 18 gen 2018 (CET)Rispondi
ah ha presente. man mano si presentano le tabelle vedrete che non è difficile! attendo notizie :MauC66 (disc.) 11:07, 18 gen 2018 (CET)Rispondi
Ah beh, alooora!... Mi hai dato da mangiare per un po'; anzi, temo per un po' troppo. Dipende dal tempo libero. E poi verso aprile maggio probabilmente scomparirò in Austria per l'estate. Quindi il Barzino Pekino (per me) può aspettare. E mi ficco sulle tue novità. Specialmente Pancaldi slurp! Danke! --Silvio Gallio (disc.) 11:34, 18 gen 2018 (CET)Rispondi
Non so quanto ti possa interesasre ma ho finito (nei miei limiti) Indice:Sulle ferrovie economiche.djvu. Restano alcune pagine con piccole tabelline e quattro (mi pare) con delle tabellone. Ovviamente poi sarà da verdizzare ma questo non può essere un problema mio in quanto io=arrossatore. Piuttosto non ricordo (se lo sai) cosa fare con l'indice. qualcuno mette i link alle pagine dove comincia qualcuno non lo fa e comunque mi sembra che i numeri non coincidano. Salam --Silvio Gallio (disc.) 12:10, 23 gen 2018 (CET) dimenticavo: Aspetto pancaldi, eh! --Silvio Gallio (disc.) 12:13, 23 gen 2018 (CET)Rispondi
@Silvio Gallio Eccoli! Idea di progetto di... - Sulla rete delle strade ferrate.... Sto lavorando anche su Barzini, la scansione è un macello, sto cercando di sostituire le pagine corrotte con scansioni migliori, arriverà priamo o poi... --divudi (disc.) 21:32, 23 gen 2018 (CET)Rispondi
Benissimo, grazie, per un po' sono a posto :D Poi da metà febbraio forse scompaio ancora, (strane cose accadono - forse) Ciao 10q --Silvio Gallio (disc.) 21:49, 23 gen 2018 (CET)Rispondi
Uhm! Prima di procedere direi che serva una rinomina dei file. Bologna è scritto in minuscolo nei nomifile.. Non vorrei che dopo salti fuori che non va bene. OK se ne parlo a bar? ciao! --Silvio Gallio (disc.) 12:13, 22 gen 2018 (CET)Rispondi
sorry, m'è sfuggito --divudi (disc.) 13:27, 24 gen 2018 (CET)Rispondi

E quindi? Ci pensi tu? (io non saprei proprio come nfare) o ci affidiamo al Maestro? Silvio Gallio (disc.) 14:00, 24 gen 2018 (CET)Rispondi

Già richiesto il rename, basta andare sul file in commons e usare il tastino "move" --divudi (disc.) 15:33, 24 gen 2018 (CET)Rispondi

Il problema dei diritti della donna modifica

Ho visto che hai caricato il djvu File:Luchini - Il problema dei diritti della donna, Sansoni, Firenze, 1877.djvu. Come l'hai ottenuto, visto che IA Upload ha fallito? FineReader? Ripeto anche a te una calda raccomandazione: cerca di usare comunque per i caricamenti su Commons il template Book invece del poverissimo Information. E' una buona abitudine da prendere. --Alex brollo (disc.) 18:28, 19 gen 2018 (CET)Rispondi

Dicci di più. Ho visto che facevi questo appunto a qualcuno in bar ma non conosco la differenza. Ho scaricato il djvu corrotto l'ho riletto con finereader e l'ho caricato cliccando "carica" da commons ignaro di altre modalità. --divudi (disc.) 22:51, 19 gen 2018 (CET)Rispondi
@Alex brollo Ok, capii... sostituito template, lo farò coi prossimi e poi anche con i pregressi appena riesco, thanks --divudi (disc.) 23:55, 19 gen 2018 (CET)Rispondi
Immaginavo che tu avessi usato FineReader, hai fatto benissimo. L'unica alternativa è.... che lo faccia io, sto cercando di raffinare uno script che finisca quello che IA Upload ha iniziato (impappinandosi), e funziona, ma devo provarlo ancora a lungo. Per Book, se vai nella mia pagina utente Commons, trovi uno schema pronto da copiaincollare; è un peccato che nei casi in cui IA Upload fallisce, non permetta di recuperare il magnifico template che propone in fase di caricamento, se ti ricordi di copiartelo per poi utilizzarlo.... io me ne dimentico sistematicamente :-( --Alex brollo (disc.) 09:34, 20 gen 2018 (CET)Rispondi
@Alex brollo in questo caso specifico ci avevo provato perché aveva il filename su IA come i vecchi Upload (quelli pre-2010 che hanno tipo già il djvu pronto, avrai notato che per certi é istantaneo il passaggio IA-Commons). Per questi nuovi che abbiamo prodotto, ma non ancora caricato, per la biblio faccio tutto da finereader e pace...--divudi (disc.) 13:38, 20 gen 2018 (CET)Rispondi

Didascalie modifica

Ciao, nelle didascalie di Barzini sto usando il template "x-smaller" che le rimpicciolisce più simili all'immagine. POi vedi tu se ti è possibile templatizzarle in un colpo solo. Se no io ripasso e cambio. --Silvio Gallio (disc.) 17:15, 28 gen 2018 (CET)Rispondi

@Silvio Gallio Ho paura sia troppo piccolo per essere letto. Non è meglio smaller, così si vede che è più piccolo ma si legge agile? In ogni caso ho caricato le immagini fino a pagina 200 quindi su queste puoi tranquillamente usare il tastino con la mona lisa per inserire il template FI. --divudi (disc.) 17:18, 28 gen 2018 (CET)Rispondi
Ugh! Io ho quasi settant'anni e non ho problemi a leggerle in x-smaller. Per di più il testo diventa formattato come l'originale (sempre finora). Grazie per la dritta. Vedrò se riesco a capire 'sto template Fl. Ciao! Adesso chiudo. --Silvio Gallio (disc.) 17:22, 28 gen 2018 (CET)Rispondi
Mi accorgo che devo dare una ritoccata a tl|smaller e soci.... una cosa delicata. farò dei test. Vi siete accorti che un testo smaller di più righe ha una antiestetica altezza linea? Alex brollo (disc.) 00:02, 31 gen 2018 (CET)Rispondi

... in una variabile di sistema... modifica

La lista dei contributori che hanno aggiornato per ultimi il SAL è in localStorage.contributors, la vedi dalla console del browser. Il comando in console: alert(JSON.parse(localStorage.contributors).join("\n")) ti mostra l'elenco in un alert. --Alex brollo (disc.) 23:51, 30 gen 2018 (CET)Rispondi

Ma che figataaa! --divudi (disc.) 08:39, 31 gen 2018 (CET)Rispondi

Scusa mapperché... modifica

...se lavori sulle pagine al 75% poi non le segni al 100%? Un giro in meno, se non lo fai tu, prima che arrivi qualcuno a fare un lavoro a tappeto, 'avvoglia! (a parte il fatto chye non capiosco l'utilità, Mi pare che non sia necessario ricongiungere le righe. O sbaglio?) Ciao!--Silvio Gallio (disc.) 11:47, 2 feb 2018 (CET)Rispondi

Ripassavo per sistemare le immagini, non sapendo dove sono passo in eis su tutte. Cmq sì, post ocr, aggiusta paragrafi e unisci linee è bene farlo sempre. --divudi (disc.) 16:12, 2 feb 2018 (CET)Rispondi
Ueh! non ti devi scusare, siamo liberi (almeno qui). Però giacché ci sei un verde sarebbe più bello comodo, no? Poi se non ti va, non ti va e - appunto- siamo liberi (= LMF; hai letto -roba vecchia-"Galassia che vai" di E.F. Russell?? --Silvio Gallio (disc.) 16:18, 2 feb 2018 (CET)Rispondi
Infine... Grazie per la galoppata da Pechino a Parigi. Emozionante. E -pensa- ho trovato materiale (forse) per un articolo su alcune particolarità delle ferrovie russe del primo novecento. Per ora smetto o almeno rallento la presenza. Ho del lavoro da fare fuori di qui, per questo ho corso puiuttosto in fretta per i miei standard. Allo stato attuale posso inverdire solo tre pagine quindi poco lavoro. Ma una presenta un problema... Vai a vedere :D Pagina:Barzini - La metà del mondo vista da un'automobile, Milano, Hoepli, 1908.djvu/575. Un saluto --Silvio Gallio (disc.) 21:43, 5 feb 2018 (CET)Rispondi

Help modifica

Ho bisogno di alcune "dritte". Appena sarà finita la rilettura de Le Mille ed una Notti vorrei dedicarmi di nuovo a:

  • stressare IA Upload con nuovi tentativi di caricamento;
  • riprendere in mano la questione del Match and Split;
  • lavorare su pagine Indice "tutte rosse" o SAL 25% "grezze" per per stressare alcune novità fra cui il nuovo eis.

Per farlo ti chiedo suggerimenti su dove trovare opere semplici (novelle/romanzi/raccolte di poesie) da caricare da zero; per gli ultimi due punti posso, se non ti secca, saccheggiare gli elenchi della tua pagina utente, ma mi piacerebbe che tu mi indicassi qualche opera su cui fare i miei test. --Alex brollo (disc.) 09:37, 17 mar 2018 (CET)Rispondi

@Alex brollo Dunque dunque, sul mio IA ho dei testi della braidense che non ho ancora caricato qui, il più delle volte perchè già esistenti su ws a volte perchè non erano stati usati dal project gutenberg e quindi momentaneamente accantonati, magari controllo un attimo e ti indico dei testi specifici. La cosa più semplice credo sia pescare da qui Progetto:Trascrizioni/Gutenberg per i caricamenti da zero, mentre per quelli al 25% prendi pure tutto quello che ti serve dalla mia pagina. Se ti serve un bot-umano (molto inefficiente) ci sono : ). --divudi (disc.) 11:03, 17 mar 2018 (CET)Rispondi
@Alex brollo ping fallito? --divudi (disc.) 11:40, 19 mar 2018 (CET)Rispondi
No no, ping arrivato.... adesso ho finito con Mille, attacco Albertazzi. Grazie! --Alex brollo (disc.) 19:31, 19 mar 2018 (CET)Rispondi

Per te, audace utilizzatore del BAT.... modifica

Vedo dal tuo common.js che tu lavori in "ambiente BAT", mentre io l'ho per ora accantonato e lavoro in ambiente "normale", come gli utenti "normali". In effetti l'ambiente BAT non "vede" nessuna modifica dei gadget locali; cerco di sistemare appena possibile. --Alex brollo (disc.) 15:27, 29 mar 2018 (CEST)Rispondi

Che fatica riattivare BAT... ho cercato di emulare il tuo ambiente, mi funzia aggiungendo una riga al common.js, l'ho aggiunta anche al tuo: per favore, verifica se adesso ti funzia. Anyway, si tratta solo di chiamare, in qualche modo, la funzione testoXml() senza paremetri. --Alex brollo (disc.) 16:21, 29 mar 2018 (CEST)Rispondi
@Alex brollo funzaaaa... grazie! --divudi (disc.) 18:21, 29 mar 2018 (CEST)Rispondi

Share your experience and feedback as a Wikimedian in this global survey modifica

WMF Surveys, 20:36, 29 mar 2018 (CEST)Rispondi

I bambini delle diverse nazioni modifica

Ci stavo lavorando io !!! mi hai fatto perdere 3/4 righe. Attento. Ciao --Susanna Giaccai (disc.) 19:28, 30 mar 2018 (CEST)Rispondi

@Giaccai ti ho pingato sulla discussione indice ma forse non hai visto. NON lavorarci fino a che il filename é sistemato altrimenti vanno spostate tutte le pagine.--divudi (disc.) 19:33, 30 mar 2018 (CEST)Rispondi
Spiegami per favore che errore ho fatto nel caricare il file. --Susanna Giaccai (disc.) 21:03, 30 mar 2018 (CEST)Rispondi
@Giaccai quando uploadi su commons devi dargli un nome file il più specifico possibile, la regola sarebbe "cognome autore - titolo, città, editore, anno.djvu", nella pagina indice poi ricorda che puoi usare un trucco per costruire l'indice, non so se c'è una documentazione. É una roba magica e velocissima. Ti cerco se c'è una pagina d'aiuto, sennò provo a farla io. --divudi (disc.) 21:30, 30 mar 2018 (CEST)Rispondi
Grazie se mi spieghi il trucco, perchè fare l'indice è veramente noioso ;-( Il nome del file è restato lo stesso in WIkisource, va bene così?--Susanna Giaccai (disc.) 10:07, 31 mar 2018 (CEST)Rispondi
@Giaccai qualcosa è andato storto, il filemover s'è perso per strada un pezzo del nome, ho ri-fatto la richiesta. Nel frattempo ti mando per mail la guida indice così ti ci posso mettere gli screenshot --divudi (disc.) 10:40, 31 mar 2018 (CEST)Rispondi

Incontro a Pontedera modifica

Ciao, buona Pasqua! Starei per attivarmi sull'incontro a Pontedera, potresti dirmi quali giorni saresti presente di qui fino al 15 maggio?--Alexmar983 (disc.) 09:56, 1 apr 2018 (CEST)Rispondi

@Alexmar983 Ciao! Il lunedì mi andrebbe sempre bene... oppure ho un weekend libero ogni due : 14-15 / 28-29 Aprile - 12-13 Maggio. In linea di massima anche il mercoledì, lavoro sempre ma sono ore che mi posso gestire e recuperare con un minimo di flessibilità... --divudi (disc.) 10:43, 1 apr 2018 (CEST)Rispondi

Reminder: Share your feedback in this Wikimedia survey modifica

WMF Surveys, 03:34, 13 apr 2018 (CEST)Rispondi

Imagine modifica

Il "selettore" ideale (con otto "handles", acchiappi, uno per angolo e uno per lato) ce l'ho, e so come metterlo per bene sull'immagine della pagina. Adesso basta ragionare con calma sulle coordinate.... e l'acchiappatore di testo sull'immagine della pagina, identico a quello di djview, diventa pian piano fattibile. Sarai il primo a provarlo se vuoi! --Alex brollo (disc.) 23:52, 13 apr 2018 (CEST)Rispondi

yee, beta testiing! --divudi (disc.) 10:18, 14 apr 2018 (CEST)Rispondi
Alfa, alfa... hai voglia prima di arrivare al beta... :-)
Farò in modo che le funzioni sperimentali si attivino solo per i testatori. Primo risultato banale che voglio ottenere: racchiudere il testo in un box (appena percepibile). Se mi riesce, secondo passo: autocropping, ossia: modifica delle dimensioni dell'immagine e sua centratura in modo che il testo occupi tutto lo spazio destinato all'immagine, tranne un gradevole bordo. E questo sarà utile. Terzo passo: trasformare lo stesso rettangolo in un selettore, attivando prima la possibilità di ridimensionarlo, poi di selezionare il testo corrispondente. Da qui comincia un'avventura in un terreno poco esplorato. Ma intanto: editare, editare! Altrimenti perdo mano.... --Alex brollo (disc.) 16:58, 15 apr 2018 (CEST)Rispondi
Uffa... ho trovato un inatteso intoppo, un "Capo di Buona Speranza" da doppiare.... ma ce la farò :-) --Alex brollo (disc.) 07:49, 19 apr 2018 (CEST)Rispondi
Doppiato, ma ho dovuto "cambiare le vele".... per utilizzare la nuova versione (stravolta) ci vogliono due pulsanti, Xml e Reorder, in "bottoniera". Vedo se riesco a farteli comparire. --Alex brollo (disc.) 09:51, 20 apr 2018 (CEST)Rispondi
fremo : ) --divudi (disc.) 10:28, 20 apr 2018 (CEST)Rispondi
Problemucciolo: vedo che Utente:Divudi85/PersonalButtons è attivo, mentre Utente:Divudi85/PersonalButtons.js non esiste. Questo significa che lavori sotto BAT, ambiente che io ho abbandonato per "mettermi nei panni dei normali utenti". Vediamo. --Alex brollo (disc.) 14:40, 20 apr 2018 (CEST)Rispondi
@Alex brollo Ah ok, posso avere le stesse cose senza BAT? di certi bottoni non credo di poterne fare a meno... --divudi (disc.) 14:56, 20 apr 2018 (CEST)Rispondi
Non ricordavo che avevo già predisposto l'account secondario Utente:Alex brollo bis in emulazione Divudi85, in emulazione funzionano le due righette di codice che ti ho aggiunto nel tuo common.js.
Creano due bottoni: Xml e Reorder. Entrambi caricano il testo xml della pagina (se c'è) in memoria se non è già caricato; inoltre, traduzono il codice in normale testo, il primo riproducendo tal quale la struttura del testo come l'ha vista FineReader, il secondo riordinando le parole in base alle loro coordinate. Per testare l'effetto, usa una della pagine SAL 25% di Opere Metastasio I o Opere Metastasio II, dopo essere entrato in modalità modifica o eis. Il bello è che chiamato, per esempio, xml (che dà una pessima resa in questa particolare struttura pagina) puoi "pentirti" e usare invece Reorder (che riorganizza il testo in modo molto migliore). Il trucco sta proprio nel fatto che il testo originale xml è comunque salvato e può essere quindi riutilizzato per farci qualsiasi cosa, finchè non passi a un'altra pagina. Naturalmente, se non c'è xml i due tasti fanno un bel niente.
In futuro il tool caricherà la cronologia della pagina per trovare eventuale versione xml in una delle versioni precedenti, per ora non lo fa, la cosa funziona solo se la pagina, al momento dell'apertura, contiene xml. Spero che ti funzioni! Alex brollo (disc.) 22:07, 20 apr 2018 (CEST)Rispondi
PS: non è stato tempo perso, adesso so che in BAT si possono introdurre nuovi pulsanti anche con newButton "classico"! Dovresti poterne aggiungere di nuovi di tua fantasia con la sintassi che vedi in qualsiasi file PersonalButtons.js ad esempio Utente:Alex brollo/PersonalButtons.js, prova con qualcuno con il comando "incapsula", tipo newButton("Sm", "incapsula('{{Smaller|','}}')", "es","Applica il template Smaller");; occhio agli apostrofi semplici e doppi. Alex brollo (disc.) 22:33, 20 apr 2018 (CEST)Rispondi

Your feedback matters: Final reminder to take the global Wikimedia survey modifica

WMF Surveys, 02:44, 20 apr 2018 (CEST)Rispondi

Io, tu e Paolina modifica

Caro Divudi85,

mi sono imbattuto casualmente nel tuo lavoro su Paolina di Tarchetti. Intanto complimenti per il lavorone, poi permettimi di buttarti lì un consiglietto per chi come te è un po' smanettone: guarda questa differenza: noterai che le sostituzioni da me compiute "quasi a mano" (apostrofi "dritti" da rendere "uncinati" e lineete di caporiga da eliminare) possono essere compiuti a monte preparando il testo per il match: una passata di trova e sostituisci a una sola pagina è molto più rapida e funzionale della stessa operazione su molte pagine, a maggior ragione se tale operazione finisse per essere compiuta da diversi utenti in un lungo periodo con conseguente possibilità di distrazioni e omissioni. Per capirci con esempi, dopo il Match

  • QUI ho messo i nop per gli inizi paragrafi a inizio pagina, sostituito virgolette anonime con virgolette specifiche e allungato a — i trattini che originariamente erano -
  • qui ho sostituito gli apostrofi a molte pagine di testo in un colpo solo

Di solito le azioni che compio offline osservando la fonte cartacea sono

  • Eliminazione dei caporiga e delle parole spezzate, dei doppi spazi o degli errori OCr più evidenti
  • passaggio "é" -> "è" per i testi antichi
  • sistemazione di apostrofi e trattini
  • formattazione uniforme delle intestazioni

Caricato il tutto in una sandbox effettuo il match e a quel punto

  • metto i nop o i ref follow dove occorra
  • se i testi non sono enormi o hanno poche note
    • metto i tag ref intorno alle note
    • elaboro le parole spezzate con i {{pt}}

In pratica lo split deposita in nsPagina dei testi prive solo di intestazione e poco altro. - εΔω 14:14, 20 apr 2018 (CEST)Rispondi

@OrbiliusMagister Hai ragione, era meglio farle prima, contavo cmq di impostare delle regex per pulire tutto. Oppure ri-matcho tutto... Questi testi che ho caricato per ultimi si basano sul lavoro di DigitaMI, producono (anche se in maniera discontinua) il pdf e l'rtf e stavo facendo delle prove per vedere come venivano, molte cose non si "traducono" bene. Purtroppo non c'è niente di meglio dell'utf-8 del gutenberg proj. che ti permetta di piazzare accapo, corsivi e grassetti senza sbattimento.
Già che ci siamo chiedo consiglio anche a te, mi sono reso conto solo dopo il lavoro sul djvu e il match&split che esisteva già una versione caricata da Xavier qui (lui in quando autore dell'altra versione l'ho pingato nella pagina discussione dell'altro indice). Il djvu importato da IA è però pieno di difetti (pagine sfasate, doppio ritratto...) che io invece ho pulito. Che fare? Cancello la mia e rifaccio tutto sul file più anziano, sostituendo il djvu? --divudi (disc.) 14:23, 20 apr 2018 (CEST)Rispondi
Per quel che mi riguarda, dato che il tuo lavoro è in stato più avanzato e riguarda il medesimo libro non avrei remore a cancellare Indice:Tarchetti - Paolina, 1875.djvu. Lo farei già io ma lascio il testimone a @Xavier121. - εΔω 16:01, 20 apr 2018 (CEST)Rispondi
Ho origliato questa interessante discussione, vedo che stiamo seguendo strategie diverse, con "convergenze evolutive". Io, come avrete visto, cerco di ottimizzare la correzione automatica pagina per pagina, che è eccellente se chi "azzanna" un'opera la trascrive personalmente dalla prima all'ultima pagina (chiamiamola "post-elaborazione") e uso poco M&S; ma l'approccio della "pre-elaborazione" di Edo è eccellente se l'opera è invece destinata a una correzione a più mani. Le due cose non si escludono affatto a vicenda. Alex brollo (disc.) 22:20, 20 apr 2018 (CEST)Rispondi
Aggiornamento: Ho ricreato il djvu a colori visto che Xavier preferiva così e coglierò l'occasione per cercare di rifare il match&split con tutti gli accorgimenti di pulizia necessari. Thanks --divudi (disc.) 19:44, 21 apr 2018 (CEST)Rispondi

Indice:Storie lodigiane 1847.djvu ‎ modifica

mi spieghi dove sbaglio, non riesco a correggere l'errore.Grazie --Susanna Giaccai (disc.) 17:29, 26 apr 2018 (CEST)Rispondi

ho risolto. Ciao --Susanna Giaccai (disc.) 18:36, 26 apr 2018 (CEST)Rispondi
@Giaccai te ne avevo fatti un paio per farti vedere, bisogna però sempre seguire "l'albero" delle pagine. Es. introduzione e dedica sono allo stesso livello, mentre libri e memorie è un "ramo" di introduzione. ora mi ci metto --divudi (disc.) 09:55, 27 apr 2018 (CEST)Rispondi

Serao - Dal vero modifica

Uei ciao, giusto per salutarti e dirti che effettivamente correggere solo la formattazione spiccia dà molte più soddisfazioni che non iniziare daccapo, con un testo dove si deve fare tutto. Se non mi passa la voglia, ritornerò anche a quella monografia su Roma. --Camelia (disc.) 18:00, 16 mag 2018 (CEST)Rispondi

@Camelia.boban, grande! Quando trovi una pagina più pazza del normale pingami sulla pagina che la si fa assieme. E ricorda che non c'è niente di più utile che cliccare su "Una pagina a caso" (in alto a sinistra) e poi aprirle in modifica per vedere come hanno fatto a formattarla --divudi (disc.) 21:18, 16 mag 2018 (CEST)Rispondi

Sito ostico modifica

Mi perdo nel sito "Italian writer women", non trovo gli html.... :-(

Mi aiuti a orientarmi? --Alex brollo (disc.) 11:37, 8 giu 2018 (CEST)Rispondi

@Alex brollo Sì, è abbastanza un bordello... per vedere a random quel che c'è faccio così, find full-text titles -> year of death: 1800-1946 eppoi clicchi sul titolo oppure, da find editions -> year of edition: 1800-1946 e seleziono full-text availability. in alternativa se cerchi un titolo in specifico, lo cerco da find editions e vedo se c'è la voce digitized text (da intendersi testo html, non pdf). --divudi (disc.) 13:35, 8 giu 2018 (CEST)Rispondi
OK! La struttura dell'html è molto interessante, devo verificare se è possibile un grabbing intelligente; farò le mie prove su "Dopo il perdono". Ci sono due strade comode: basandosi sulla pagina Indice e facendo il parsing dei ai capitoli, o si acchiappa il testo dei capitoli in blocco, lo si depura e lo si prepara per uno split diretto (ci sono i numeri pagina che possono essere convertiti in codice split dopo mutatis mutandis) capitolo per capitolo, oppure, sfruttando la suddivisione in pagine, si salta lo split e si carica direttamente il testo sulle pagine. Non c'è formattazione da recuperare. Vedo un paio di altre opere a caso per verificare che l'organizzazione sia simile nelle varie opere. --Alex brollo (disc.) 14:33, 8 giu 2018 (CEST)Rispondi
Yes yes yes: la struttura è uniforme :-) Se il mio grabber grabba siamo a posto (unico fastidio: il numero della prima pagina del capitolo è in fondo al testo del capitolo precedente). --Alex brollo (disc.) 14:43, 8 giu 2018 (CEST)Rispondi
@Alex brollo Quel sito è una miniera, nel frattempo ho matchsplittato      Il nonno    di Grazia Deledda (1908),      Teresa    di Neera (1897) e      Il nostro padrone    di Grazia Deledda (1920) --divudi (disc.) 15:36, 8 giu 2018 (CEST)Rispondi

P.S. @Alex brollo come hai fatto per Teresa? quelle due pagine proprio non c'erano sul sito.. --divudi (disc.) 15:37, 8 giu 2018 (CEST)Rispondi

Dal contesto mi sembrava che potessero essere pagine bianche, e le ho inserite; spero di aver indovinato. Sempre che parliamo delle stesse pagine....
Visto che sei molto avanti con i djvu, ti dico che inserendo o cancellando o riordinando pagine con djvm succede che sballi il numero pagina (quello che compare in alto e che viene usato per "saltare" a una pagina), questo perchè ogni pagina ha un numero d'ordine implicito e un "titolo". C'è modo di sistemare il "titolo" disallineato con djvused, comando set-page-title, ripetuto pagina per pagina:
select 10
set-page-title 10
attribuisce alla pagina numero 10 il title 10, qualsiasi pasticcio sia avvenuto.

Alex brollo (disc.) 15:50, 8 giu 2018 (CEST)Rispondi

Ah interessante, a volte mi è capitato di tagliare/inserire pagine, forse ho fatto dei casini... : ) --divudi (disc.) 15:53, 8 giu 2018 (CEST)Rispondi
Dopo aver cancellato pagine che non andavano cancellate e inserito pagine nel punto sbagliato della sequenza, mi sono accorto del fatto che confondere il numero pagina con il title, quando sono disallineati, è fastidioso. Comunque l'errore emerge subito ricontrollando il djvu risultante. --Alex brollo (disc.) 16:18, 8 giu 2018 (CEST)Rispondi

Match e Split modifica

Ti sei accorto che Match e Split sono procedure totalmente indipendenti? Il Match richiede che ci sia il testo e un djvu con strato testo da allineare e aggiunge i codici Split su per giù nel punto giusto fra pagina e pagina; lo Split usa i codici Split e ignora tutto il resto. Quindi, se nel testo da matchare ci sono riferimenti al numero pagina, e se questi riferimento poosono essere trasformati con qualche trucco in codici split validi.... che le pagine Pagina siano djvu o pdf, che abbiano o non abbiano lo strato testo per split è uguale. Forse lo sanno tutti, ma forse anche no. --Alex brollo (disc.) 16:12, 8 giu 2018 (CEST)Rispondi

si me ne ero reso conto ma non ci avevo mai riflettuto su questa cosa, comodo in molto casi... --divudi (disc.) 22:24, 10 giu 2018 (CEST)Rispondi
@Alex brollo, fatto la prova di solo-split con I giuochi, è stato divertente trovare il modo per sostituire al numero della pagina il codice split, notepad++ forever --divudi (disc.) 15:48, 11 giu 2018 (CEST)Rispondi

Fantasticando su Italian women writers modifica

Grabber.py "grabba" le pagine html del sito. E' quindi possibile leggere una pagina, estrarre i link, seguirli uno a uno fino alla pagina che contiene il testo, e scaricarlo. E' possibile estrarre dalle pagine tutti i dati che contengono, oltre al testo, compresa l'organizzazione in capitoli e i dati bibliografici. Insomma, sembra possibile fare tutto. L'unica cosa che non ho ancora verificato è se esistono le immagini scansionate delle pagine, e se esista una relazione robusta fra pagina html e pagina immagine. --Alex brollo (disc.) 07:46, 9 giu 2018 (CEST)Rispondi

Parto con uno script iww.py, appena decente lo condivido. Confermami per favore che su Italian women writers NON ci sono le immagini delle scansioni (io non sono riuscito a trovarle). --Alex brollo (disc.) 12:18, 9 giu 2018 (CEST)Rispondi
Manca poco all'estrazione massiccia di tutti i testi dei capitoli e sottocapitoli di un'opera IWW. Resta da risolvere il problema dell'allineamento numero pagina libro-numero pagina djvu, c'è qualche pagina Indice con nsPagina vuoto, corrispondente a un testo IWW per fare test? --Alex brollo (disc.) 16:34, 9 giu 2018 (CEST)Rispondi
Test su questo: Indice:Deledda - Chiaroscuro.djvu. Lo script deve arrangiarsi a fare tutto, dandogli solo il primo link vs. IWW e il nome della pagina Indice (il pagelist deve trovarlo compilato). --Alex brollo (disc.) 19:10, 9 giu 2018 (CEST)Rispondi
@Alex brolloSorry, sono un po' latitante in questo periodo... ho visto tutto ora. Su chiaroscuro ancora devi fare il passaggio al testo, giusto? peccato non ci siano altre digitalizzazioni (intendo pdf) --divudi (disc.) 22:21, 10 giu 2018 (CEST)Rispondi
A dire il vero sto furiosamente ripassando BeautifulSoup :-(. L'obiettivo provvisorio è quello di produrre un "testone" con i paragrafi ben separati, con i codici split pronti e un qualcosina di formattazione; insomma una roba che basti pigiare "split" e parta. Ma devo fare parecchie rifiniture. Nel frattempo lavoro su Lydia in modo standard per alimentare la statistica :-) --Alex brollo (disc.) 23:56, 10 giu 2018 (CEST)Rispondi

Invito a cliccare split.... modifica

.... sulla pagina Chiaroscuro/testo, primo output di prova dello script "grabbatore" iww.py. Tu hai avuto l'idea, a te il test.

L'unico comando che ho dato (ma avevo predisposto un po' di variabili ad hoc) è stato go(testUrl), dopodichè ho fatto un semplice copia-incolla dal file testo prodotto. --Alex brollo (disc.) 19:20, 11 giu 2018 (CEST)Rispondi

@Alex brollo oh jeez, che emozion! --divudi (disc.) 19:37, 11 giu 2018 (CEST)Rispondi
Nel frettempo ho fatto test solo split con      I giuochi della vita    di Grazia Deledda (1920) (continuerò, ma è tutto spezzettato) eppoi ho matchsplitatto      Il fanciullo nascosto    di Grazia Deledda (1921) e      Piccole anime    di Matilde Serao (1890)... sto cercando altri testi dei quali abbiamo già gli scan, ne ho trovato solo uno della Vivanti... non mi sembra ci sia granchè altro, ho fatto un po' di scraping alla cieca in base alla struttura url che mi aspettavo ma ho trovato solo roba in tedesco... vabbò --divudi (disc.) 19:44, 11 giu 2018 (CEST)Rispondi
Cerco di rimediare al disastro.... ok, sbagliando si impara (talora si impara a sbagliare) :-( --Alex brollo (disc.) 22:51, 11 giu 2018 (CEST)Rispondi
Capito il problema: semplicemente mi sono fidato dell'inaffidabile.... i numeri pagina nel sito IWW sono spesso semplicemente errati. Bella lezione; mai fidarsi dell'apparenza e dall'apparente autorevolezza! --Alex brollo (disc.) 23:02, 11 giu 2018 (CEST)Rispondi
Forse però tutto dipende da qualche errore nella sequenza pagine del pdf di IA nell'item chiaroscuro00deledda. Provo a restarurare il djvu, magari poi tu rivedi il pdf. ILO primo errore è la pagina djvu 20, finita lì chissa come. --Alex brollo (disc.) 05:43, 12 giu 2018 (CEST)Rispondi
@Alex brollo hai ragione, il PDF sembra incasinato, provo a ri-scaricarlo, pure io mi son fidato... Già un altro aveva due pagine ripetute... Mah, 'sta università di Chicago... Ahahahah --divudi (disc.) 07:34, 12 giu 2018 (CEST)Rispondi

Incontro per la strategia WMI Pisa 23 luglio modifica

Ciao utente di it.wikisource! Ti informiamo che domani, per tutta la giornata, wikimediani e soci wikimedia si ritroveranno a Pisa, presso il Polo Piagge, per la discussione sulla strategia di WMI. Se vuoi lasciare degli appunti per la discussione o aderire all'ultimo momento, sei il benvenuto.


per non ricevere più questa tipologia di messaggi rimuovi il tuo nome da questa lista


Alexmar983

Ritorna alla pagina utente di "Divudi85/gen-giu2018".