Catonif

Benvenuto!

Ultimo commento: 2 anni fa1 commento1 partecipante alla discussione

se non lo vedi, clicca qui!

Benvenuto su Wikisource!

Ciao Catonif, un saluto di benvenuto su Wikisource, la biblioteca libera!

Per iniziare la tua collaborazione, leggi come prima cosa cos'è Wikisource, la pagina delle linee guida ed i manuali contenuti nella sezione aiuto. Se hai domande, dubbi o curiosità non esitare a chiedere al Bar, a un amministratore o a qualsiasi utente vedessi collegato seguendo le ultime modifiche.

Buon lavoro e buon divertimento da tutti i wikisourciani.

Naturalmente benvenuto anche da parte mia e se avessi bisogno non esitare a contattarmi.

εΔ ω 16:53, 7 nov 2022 (CET)Rispondi

Un esempio vale molti discorsi

Ultimo commento: 2 anni fa2 commenti2 partecipanti alla discussione

Caro Catonif,

ho dato un'occhiata alle tue modifiche: intanto complimenti per l'ottimo inserimento! Dai un'occhiata tramite la cronologia delle pagine ai miei cambiamenti e noterai gli interventi:

con vc dividi le ottave senza chiudere e riaprire il poem
con RigaIntestazione regoli i numeri di pagina
con il template nota separata gestisci le note a fine canti
con i tag section gestisci ora le note ora il caso di canti che iniziano a metà pagina.

Ora sono di fretta ma mano a mano se avrai problemi chiedi pure al Bar o a uno degli Amministratori. εΔ ω 07:28, 9 nov 2022 (CET)Rispondi

@OrbiliusMagister: Grazie per i chiarimenti, quelli erano proprio i punti su cui ero in dubbio. Catonif (disc.) 11:43, 9 nov 2022 (CET)Rispondi

Ancore nel vocabolario

Ultimo commento: 1 anno fa19 commenti2 partecipanti alla discussione

Sto raccogliendo le idee sull'inserimento delle ancore per i lemmi e relativi link. Noto che ci sono difformità fra le parole nei link (tutte minuscole, accentazione incostante) e i lemmi (sempre iniziale maiuscola, accentazione meticolosa). Sono incerto fra l'applicazione di una normalizzazione per l'ancora e per i link, il che provocherebbe qualche falsa omonimia e quindi qualche errore di selezione del bersaglio, o l'allineamento, fin dove possibile, l'ortografia dei link a quella dei lemmi, ma sugli accenti prevedo problemi difficili da risolvere in automatico che provocherebbero il mancato riconoscimento del target. Propendo per la prima delle due strategie: anche se il bersaglio viene mancato, viene mancato di poco, il bersaglio giusto dovrebbe essere vicinissimo.

Sei disponibile a darmi una mano? Penso di sperimentare sui lemmi e sui link di una lettera non troppo pesante (la B, per esempio) e si tratterebbe di verificare a fondo la presenza di problemi inattesi. Alex brollo (disc.). 17:25, 20 gen 2023 (CET)Rispondi

@Alex brollo Grazie per occupartene, e certo che sono disponibile! :) Io gli accenti dalle ancore li rimuoverei, in quanto altrimenti sarebbe quasi impossibile automatizzare il linkaggio: il povero bot come lo va a capire a quali accenti deve indirizzare, se nei "link" forniti dal Traina non ci stanno? Suggerirei quindi, dopo che ciò ci abbia fatto perdere la distinzione tra ad esempio Bàgghiu e Bagghìu, di aggiungere un -2 alla seconda ancora, a scopo di disambiguazione. I casi di omografia comunque ci sono anche senza differenze di accentuazione, come ad esempio Allampari, quindi in un modo o nell'altro questo -2 ci serve. Così il bersaglio viene sì mancato di poco dal bot, e poi il paziente essere umano, fornito d'una lista di questi link a parole omografe da controllare (spèrasi anch'essa generabile automaticamente) che non dovrebbe essere troppo lunga, può andare a linkare il lemma giusto. Catonif (disc.) 18:57, 20 gen 2023 (CET)Rispondi

Io normalizzerei ancore e link così: tutte minuscole, underscore per eventuali spazi, via gli accenti. Spero che non ci siano casi particolari, ma ci saranno di certo... :-( Alex brollo (disc.). 22:30, 20 gen 2023 (CET)Rispondi

@Alex brollo Esattamente come li normalizzerei anch'io. Per il fatto delle forme multiple, abbiamo casi come Cucutrigghiu, che puntano a Cuncutrigghiu che a sua volta è una forma alternativa, ovvero dopo la virgola, di Cuncutriddu, che vorrebbe dunque dire che per risolvere il problema dovremmo mettere le ancore anche sulle forme alternative, ma siccome sembrano molto ridoandanti, io opterei invece, nel lemma Cucutrigghiu, di scrivere V. {{Sc|[[#cuncutriddu|cuncutrigghiu]]}}, il fatto è che questo il bot non lo sa fare... Forse in una sua prima run il bot potrebbe creare tutte le ancore e tutti i link, appuntandosi in due array appunto tutte le ancore e i link che ha creato, successivamente andrebbe a guardare quali dei valori nell'array dei link non sono presenti in quello delle ancore, e lì subentra l'umano che li va ad aggiustare manualmente.

A proposito, vedo a pagina 107, che la graffa di Bacchittiatedda e Bacchittiatina viene ingegnosamente sostituita con una virgola. Ci piace così? Catonif (disc.) 22:51, 20 gen 2023 (CET)Rispondi

@Catonif Orpo, vedo che sei un bottolatore anche tu.... per quanto riguarda la graffa, mi sembra che la soluzione di sostituirla con una virgola sia una ragionevole iniziativa del trascrittore che abbiamo saccheggiato. Per quanto riguarda le forme alternative dei lemmi, separate da virgole o talora indicate solo con la desinenza preceduta da trattino, sono preoccupato, perchè sono certo della regola "quello compreso in codice bold a inizio riga è un lemma", ma per i testi bold non a inizio riga le cose si complicano. Intanto ci penso e preparo gli strumenti necessari, spero che tu non abbia fretta di vedere risultati. Alex brollo (disc.). 23:13, 20 gen 2023 (CET)Rispondi

@Alex brollo Fretta decisamente no, dato che se davvero bisogna aspettare che il testo venga prima portato al SAL 75% per far girare il bot, di tempo per pensare ne abbiamo più che a bizzeffe. :) Effettivamente pare che la regola per riconoscere un lemma da ancorare sia più complessa del previsto, ma non dovrebbe comunque essere nulla di infattibile. Catonif (disc.) 23:34, 20 gen 2023 (CET)Rispondi

Prime prove di estrazione lemmi-ricerca omonimi: nella lettera A si estraggono 5162 lemmi, 58 dei quali certamente duplicati dopo normalizzazione. Al momento, estratte solo le forme base + le forme alternative diverse per la sola desinenza (es. Abbajaturi –tura –trici -> abbajaturi abbajatura abbajatrici), non quelle dopo virgola. Prossimo, giro estrazione link dei due tipi, V. .... e per .... V. Alex brollo (disc.). 15:20, 21 gen 2023 (CET)Rispondi

┌────────────────────────────────────────────────────────────────────────────────────────────────────┘ Questo il codice applicato per prova in pag 19, voce Abbabbaniri: {{Sc|{{Pt|abbabbiri|[[../A#abbabbiri|abbabbiri]]}}}}. Funzia (produce il link funzionante solo in ns0) Alex brollo (disc.). 18:47, 21 gen 2023 (CET)Rispondi

@Alex brollo Wow (a questo e al messaggio precedente)! Vero che in questo caso {{Sc|[[#abbabbiri|abbabbiri]]}} funzierebbe sia in nsPagina che in ns0; in parole su pagine diverse porterebbe semplicemente al nulla (sempre meglio di un redlink) come qui; mentre nelle parole che avendo iniziali diverse devono specificarle, per evitare il redlink possono solo usare questo {Pt}. Questo però porterebbe alla mancanza di uniformità negli nsPagina, con alcuni link che esistono mentre altri no, quindi se vogliamo uniformità, ovvero nessun link negli nsPagina, usiamo il {Pt} ovunque, sperando di non imbatterci nel limite di template di cui accennavi.

Ma per Abbajaturi hai intenzione di avere '''{{§|abbajaturi|Abbajaturi}} {{§|abbajatura|–tura}} {{§|abbajatrici|–trici}}'''? Credo convenga semplicemente {{§|abbajaturi|'''Abbajaturi –tura –trici'''}}: ovvero, trovare il testo da ancorare con /^'''.+'''/gm, mentre poi la vera ancora con /(?<=^''').+?(?=(?:'''| —))/ sulla stringa ottenuta, che successivamente viene normalizzata. Catonif (disc.) 00:07, 22 gen 2023 (CET)Rispondi

L'idea è la prima delle due, se ne occupa python dopo lo splitting delle voci multiple con trattino. La seconda per me ha il fascino del mistero: non ne capisco la sintassi§.... devo studiarmela bene e approfondire le specificazioni di ? :-(

In generale, il "problema del limite template" dipende principalmente dalle ancore, i link sono molto meno numerosi. Quanto alle omonimie dei lemmi, non sono affatto frequenti: in una prima passata, ne ho trovate una cinquantina su oltre 5000 lemmi della lettera A.

§ Scoperto l'arcano... avevo sempre saltato, studiacchiando le regex, i costrutti lookahead e lookbehind. Ci metterò un bel po' per interiorizzarli... uffa. Per ora ho capito che esistono. Alex brollo (disc.). 09:32, 22 gen 2023 (CET)Rispondi

@Alex brollo Nulla di speciale, non ti preoccupare, :) qui i lookahead e lookbehind servono solamente ad escludere la prima e l'ultima parte dal match, per esempio:

se proviamo il regex /^'''.+?(?:'''| —)/ quindi senza i lookahead e behind, sulle stringhe seguenti: (queste stringhe sono i match di /^'''.+'''/gm sul testo completo)
- '''Abbabbaniri''' otteniamo '''Abbabbaniri''' (qui il match è uguale all'input)
- '''Bacchittiatedda''', '''Bacchittiatina''' otteniamo '''Bacchittiatedda'''
- '''Abbajaturi –tura –trici''' otteniamo '''Abbajaturi –

Come puoi vedere il ''' iniziale e il ''' o – finale, che servono solo come check per capire quale sia l'inizio e quale la fine dell'ancora, e quindi non dovrebbero ritrovarsi nel match:

se proviamo il regex /(?<=^''').+?(?=(?:'''|—))/ con i lookahead e behind, sulle stesse stringhe:
- '''Abbabbaniri''' otteniamo Abbabbaniri
- '''Bacchittiatedda''', '''Bacchittiatina''' otteniamo Bacchittiatedda
- '''Abbajaturi –tura –trici''' otteniamo Abbajaturi

Dove (?: ... ), giusto per essere sicuro di essere chiaro, è un non-capturing group, che ci serve per la pipe. Catonif (disc.) 16:51, 22 gen 2023 (CET)Rispondi

Grazie, ci rifletterò. Ci sono comunque un paio di verifiche da fare: 1. i link puntano sempre sul primo elemento di un lemma con varianti (probabilmente sì, e allora mettere ancore sulle varianti servirebbe solo per link esterni)? 2. È vero o no che nei link mancano accenti indispensabili (è stata una mia impressione, va verificata)? 3. Come reagisce il server a varie migliaia di template § + varie migliaia di template Sc + varie centinaia di template compositi Sc+Pt (se reagisce male toccherà ridurre sensibilmente la dimensione delle pagine ns0, es. usando due lettere invece che una per la sottopagina)? Alex brollo (disc.). 18:01, 22 gen 2023 (CET)Rispondi

@Alex brollo 1) Come già accennato, dopo aver annotato in una lista tutti i casi omonimi, che dai numeri che fornisci dovrebbero essere l'1%, in fase di linkaggio lo script potrebbe controllare se il lemma a cui sta linkando fa parte di quest'1% di termini, e se sì se lo annota in una lista che poi mi porge affinché io vada a controllare per linkare al lemma giusto. 2) Non so dire, ma l'umano del punto 1 può risolvere anche questo. 3) Incrociamo le dita. Per ridurre i template suggerisco solo di non usare il {{Pt}} per i casi in cui l'iniziale combaci. Catonif (disc.) 18:49, 22 gen 2023 (CET)Rispondi

@Àncilu Ti pingo, questo è il problema delle ancore. Alex brollo (disc.). 09:49, 30 gen 2023 (CET)Rispondi

@Catonif Il punto della situazione: ho dato una grossolana sistemata alle pagine 19-125, aggiungendo i RigaIntestazione e correggendo i piccoli errori di splitting. Procederei con un test di applicazione del tl|§, l'attuale script python può applicarle, nelle sequenze di lemmi, solo al lemma iniziale o al lemma e alle sue desinenze; per ora non gestisce le alternative separate da una e. Quale delle due? Il test ha lo scopo di verificare subito se il server ce la fa, sono ottimista (vedi Discussione:Nuovo vocabolario siciliano-italiano/A). Attendo fino a domani: opzione che preferisco, fra le due, la seconda. Per le ancore sinonimiche, si può pensarci in un secondo tempo. Alex brollo (disc.). 09:56, 30 gen 2023 (CET)Rispondi

@Alex brollo Bene! :) Io sarei ancóra dell'idea che una triplice àncora per i lemmi con desinenze sia un po' un'esagerazione, ma vediamo come va. Faccio notare che ci sono lemmi come Cundannè (A la che contengono una parentesi che sarebbe forse bene rimuovere dall'ancora durante la normalizzazione di quest'ultima. Catonif (disc.) 14:19, 30 gen 2023 (CET)Rispondi

@Catonif Notato, ci sono anche altre stranezze, ma rare. Comunque non intervengo sulle pagine a cui non ho dato almeno un'occhiata. Poi mi aspetto che in un testo di oltre 1000 pagine ne succedano di tutti i colori: ho trovato, per esempio, due pagine in cui mancava l'intera prima colonna del testo (eppure nell'html c'era). Alex brollo (disc.). 18:06, 30 gen 2023 (CET)Rispondi

@Catonif @Àncilu Non ce la fa.... Alex brollo (disc.). 00:46, 31 gen 2023 (CET)Rispondi

@Catonif In corso splitting delle pagine ns0 in base a due iniziali. Il sistema deve funzionare anche con una sola iniziale (portando alla prima pagina della lettera dove ci sarà un indice delle sottopagine divise per due iniziali). Oltre ai lemmi che finiscono con testo fra parentesi, ci sono anche parecchi lemmi che iniziano con un apostrofo: sarà ignorato nella normalizzazione dell'ancora. Infine c'è il problema del supplemento, ho in mente una soluzione. per permettere di raggiungere comunque anche quei lemmi con il link "canonico". Alex brollo (disc.). 18:34, 31 gen 2023 (CET)Rispondi

Vocabolario's news

Ultimo commento: 1 anno fa2 commenti2 partecipanti alla discussione

@Àncilu @Catonif

mi sono stufato di compilare RigaIntestazione, da pag 500 lo farà il bot.
penso di anticipare il giro del bot, ho verificato che uil codice aggiuntivo non ostacola la rilettura in modo significativo.
l'indentatura inversa errata della prima riga si elimina aggiungendo una sola riga vuota a inizio pagina.
è indispensabile applicare le ancore anche ai lemmi "graffati", trascritti come serie separata da virgole. Nel vocabilario hanno chiaramente dignità di lemmi autonomi. Volendo si può aggiungere anche la graffa, ma direi di soprassedere.
dalla pagina 500 in avanti, rivedrò quindi pagine formattate, e dopo la rapida sistemazione registrerò un SAL 75%.

Alex brollo (disc.). 19:02, 4 feb 2023 (CET)Rispondi

@Alex brollo Grande! :) Catonif (disc.) 12:37, 5 feb 2023 (CET)Rispondi

Aggiungi argomento