Discussioni indice:Antologia provenzale, Hoepli, 1911.djvu

Ultimo commento: 28 giorni fa, lasciato da Alex brollo in merito all'argomento Nomi delle pagine ns0


Il_cipresso_di_San_Bartolomeo

modifica

@OrbiliusMagister   Fatto, giusto un lavoro veloce, puoi rivedere il tl|Book su Commons e magari anche i metadati qui? Non ho affrontato spesso antologie. Grazie! Alex brollo (disc.). 23:55, 29 mag 2024 (CEST)Rispondi

OCR e styles.css

modifica

Il djvu è privo di strato OCR perchè ottenuto dal pdf IA di migliore qualità disponibile. Il gadget Trascrivi il testo (motore Google) dà un risultato eccellente in entrambe le lingue. Volendo è in elaborazione un "caricamento massivo preformattato", ma va verificata la qualità dell'OCR di IA nel testo occitano.

Il nome autore, la data di nascita-morte, il titolo delle poesie sono completamente formattati via styles.css (rispettivamente classi autore, data, titolo). Vedi proposta di codifica in Pagina:Antologia provenzale, Hoepli, 1911.djvu/436.

Caro @Alex,
Ogni aiuto alla trascrizione di un testo è benvenuto: un OCR preesistente può attirare anche utenti nuovi, dunque vai pure di OCR preformattato.
Porta pazienza ma non riesco a ricreare via css in pochi secondi la spaziatura tra righe tra autore, titolo e rule di divisione. - εΔω 08:27, 30 mag 2024 (CEST)Rispondi
@OrbiliusMagister L'OCR IA di certo non riconosce il carattere ç, ma per il resto non è malaccio. Procedo con la preformattazione offline (ci vorrà un po' di tempo). OK per le spaziature, cerco di renderle più simili all'originale. Alex brollo (disc.). 13:46, 30 mag 2024 (CEST)Rispondi
INtanto provo a contattare gli utenti che stanno raccogliendo testi in occitano su mul.source εΔω 14:21, 30 mag 2024 (CEST)Rispondi
@OrbiliusMagister Dammi tempo, il caso non è semplice ma è una sfida che mi sarà utile per altri casi. :-) Naturalmente il "precaricamento" ha un'opzione di default per saltare le pagine già esistenti, quindi non distruggerà eventuali contributi di altri. Alex brollo (disc.). 11:05, 31 mag 2024 (CEST)Rispondi
@OrbiliusMagister Il test va avanti, ma non sono soddisfatto... ho ripiegato su un "caricamento filtrato", facendo caricare allo script solo le pagine con formattazione che soddisfa alcuni requisiti di base; ma sono poche e c'è tutto il testo da rivedere per i vari errori OCR. Sono incerto se proseguire. Se hai tempo/voglia, prova a dare un'occhiata. Alex brollo (disc.). 23:50, 31 mag 2024 (CEST)Rispondi
Il sonno mi ha portato consiglio: provo a caricare un po' di pagine scartate dal filtro, ma marcate con SAL 50%, per evidenziare il fatto che sono "problematiche" per formattazione incompleta. Alex brollo (disc.). 09:14, 1 giu 2024 (CEST)Rispondi

memoRegex

modifica

{"<noinclude></noinclude>":["","","g"], "^r$":["(regex)","{{Rule|t=1|v=1}}","gm"], "^t (.+)":["(regex)","{{Ct|c=titolo|$1}}","gm"], " I$":["(regex)","!","gm"], "<section begin=\"s1\" /><poem>":["(regex)","<section begin=\"s1\" />\n<poem>","gm"], "<section\\ end=\"s1\"\\ /><section\\ begin=\"s2\"\\ />":["","<section end=\"s1\" />\n{{Rule|v=2|t=2}}\n<section begin=\"s2\" />","g"], "\\+3\\ ":["","+2 ","g"], "^au (.+)":["(regex)","{{Ct|c=autore|$1}}","gm"], "^d (.+)":["(regex)","{{Ct|c=data|$1}}","gm"], "^st (.+)":["(regex)","{{Ct|c=sottotitolo|$1}}","gm"], "^ad \\((..+)\\)":["(regex)","{{a destra|(''$1''))}}","gm"], "- ":["(regex)","— ","gm"], "^ bad (.+)":["(regex)","{{blocco a destra|{{centrato|$1}}}}","gm"], "^bad (.+)":["(regex)","{{blocco a destra|{{centrato|$1}}}}","gm"], "<!\\-\\-fatto\\-\\->":["","","g"], "c=numero":["","c=sottotitolo","g"]}

Nomi delle pagine ns0

modifica

@OrbiliusMagister Una domanda.... premesso che è bene seguire l'approccio "solo pagine principali" per le poesie, proprio come Il cipresso di San Bartolomeo, mi sarebbe estremamente comodo usare, come nome pagina, esattamente la voce dell'Indice finale, autore - titolo originale, anche se non è ben allineata alle nostre convenzioni.

Intanto trascrivo l'indice, poi vediamo. Alex brollo (disc.). 15:01, 1 giu 2024 (CEST)Rispondi

Caro @Alex,
se proprio mi interpelli ti condivido le mie idee piuttosto originali, che hai già visto in Il cipresso di San Bartolomeo:
  • Inizialmente pensavo di transcludere solo l'italiano, lasciando il provenzale ad altri progetti,
  • poi ho notato che
    • La traduzione italiana è in prosa mentre l'originale è in poesia: manca nella traduzione dell'"informazione" presente nell'originale
    • La Wikisource in occitano-provenzale è in incubazione e poco attiva: finché teniamo le nostre belle section chiunque in futuro vorrà riutilizzare il nostro codice troverà già un lavoro svolto; intanto trascriviamo e teniamo il lavoro qui
  • ...dunque ho trascritto in ns0 il contenuto delle pagine ma invertendo l'ordine di italiano e provenzale: prima riporto il testo italiano, poi per chi si chieda quale sia l'aspetto dell'originale con versi e rime, lo trova sooto a mo' di appendice.

Non escludo che in futuro le poesie provenzali finiranno in un altro progetto e che elimineremo dal nostro ns0: per noi si tratterà di togliere una riga di codice in fondo pagina.

P.S. A me l'idea del titolo in italiano garba assaissimo e la vorrei adottata sistematicamente. Se volessimo essere perfettini creerei per ogni poesia un redirect dal titolo provenzale a quello italiano. Mi rendo conto che questo significa ripensare l'utilità dell'indice. - εΔω 22:23, 1 giu 2024 (CEST)Rispondi

@OrbiliusMagister Ammetto che mi era sfuggito l'esempio di transclusione in Il cipresso di San Bartolomeo. Mi pare una ottima idea. Mi fermo a riflettere.
Alcune note tecniche:
  1. questa soluzione richiede che TUTTE le poesie, anche quelle in una sola pagina, siano "sezionate";
  2. la sezione Sommario della pagina Indice va ricostruita; io però aggiungerei al titolo in italiano il nome dell'autore, magari fra parentesi, il che otterrebbe nomi pagina ns0 quasi sicuramente univoci; spero di poterlo fare, in larga parte, in via automatica lavorando sul testo offline, il che è una interessantissima sfida informatica :-)
  3. per comodità, continuerei a marcare con s1 la parte occitana, e con s2 la parte italiana.
Come hai visto, procedo con prudenza, proprio in previsione di ripensamenti. Il lavoro fatto finora lo considero semplicemente un test, quindi i tuoi suggerimenti sono preziosi. Alex brollo (disc.). 07:46, 2 giu 2024 (CEST)Rispondi
@Alex, D'accordo su tutto. Limiterei il nome d'autore solo ai titoli da disambiguare. - εΔω 07:57, 2 giu 2024 (CEST)Rispondi
Test su Amouretti (Frédéric) - Pér. Non è bene che si perda, nel testo italiano, il blocco nome autore e data. Si può fare identificando il blocco con section s1, il testo occitano con s2 e la traduzione con s3. C'è poi il problema della riga di separazione fra le due lingue: meglio evitare sempre di transcluderla, e aggiungerla volendo in ns0 fra il pages s3 e il pages s2. Alex brollo (disc.). 08:04, 2 giu 2024 (CEST)Rispondi
Fatto il test, sono perplesso: sia per un motivo generale, che discuterò in bar, sia perchè si perderebbe l'elemento "suffisso" delle poesie, che contiene dati significativi, e resterebbe "attaccato" alla sola versione occitana. Per ora, lavoro sulle traduzioni italiane dei titoli, tenendo aperta la possibilità di aggiungere il come autore come disambigua. Alex brollo (disc.). 08:12, 2 giu 2024 (CEST)Rispondi

Suggerimenti di formattazione (forse definitivi)

modifica
  • Tutte le poesie sono rese come pagine principali (con l'eccezione di I quattro castelli, che raccoglie 4 diverse poesie), ciascuna con un template Intestazione completo in cui va specificato il nome autore, sostituendo il Autori vari che compare automaticamente.
  • In ciascuna pagine il testo occitano (parte in alto) è seguita dalla traduzione italiana (in basso); la prima va marcata con una section s1, la seconda con una section s2. La riga di separazione NON va transclusa.
  • La poesia in occitano e la sua traduzione vanno transcluse sulla stessa pagina con due tag pages separati, che differiscono solo per il tag onlysection=s1 (occitano) oppure onlysection=s2 (italiano). L'eventuale codice per la riga di separazione va inserito fra i due tag pages (vedi Per.
  • Per la formattazione del testo al di fuori dei versi, in parte precaricata, è bene seguire l'esempio di alcune poesie già SAL 75% come Il cipresso di San Bartolomeo.
Ritorna alla pagina "Antologia provenzale, Hoepli, 1911.djvu".