Contenuto cancellato Contenuto aggiunto
Riga 24:
::: Grazie delle spiegazioni! Immaginavo che non potevi averle trovate cercando "qua e là". Abbiamo due approcci totalmente diversi.... bello sarebbe fonderli. Io invece lavoro con python sul dump xml completo di source; una mia routine lo "indicizza" completamente, producendo un listone con offset, lunghezza in byte, nome pagina e namespace di ciascuna pagina; questo listone-indice serve a altri script che leggono direttamente con accesso casuale il file xml, e estraggono i dati (testo, e altro). Dopodichè, pagina per pagina, dei testi ci faccio ciò che voglio. Beninteso: non uso un parser xml; uso uno script fatto da me, di una banalità sconcertante, che lavora in base a ricerca di stringhe, senza neppure regex. Primordiale, ma ci mette pochi minuti a passarsi ''l'intero contenuto del dump''... in confronto, il parser xml "canonico" è una lumaca.
::: Appena il dump viene aggiornato, lo ripasso. --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 23:54, 4 mar 2010 (CET)
== Template "ben conformati" ==
Visto che ho constatato la tua esperienza in tema di software, se hai qualche minuto mi piacerebbe dissodare un pochino con te una questione teorica, ma con ricadute pratiche interessanti: la questione del "codice ben conformato". Non occorre che te ne dica l'importanza: tutto l'xml si "appoggia" su questo concetto... una delle sue caratteristiche è la netta separazione fra codice di formattazione e "contenuti" su cui tale codice agisce; e la chiarezza del segnale "inizio tag" e "fine tag".
 
Ebbene, ho notato che numerosissimi problemi del markup wiki originano proprio dal fatto che il markup non è "ben conformato". Non lo è nei tag più comuni (banale il caso del bold e dell'italic, o nel codice per i livelli di header dei titolo); non lo è nemmeno in quei template a cui vengono "passati" come parametro dei contenuti testuali.
 
Sto riflettendo sulla possibilità:
# di evitare "come la peste" i tag semplici non ben conformati, incoraggiando l'uso di analoghi html/xml;
# modificare, rendendoli "ben conformati", tutti i template (in cui sia possibile farlo) in modo che sia avitato di "passare" dei contenuti come parametro.
 
Riguardo il secondo punto, nei casi più semplici, si tratta solo di spezzare il template in due: un "inizio template" e un "fine template". In moltissimi casi, il "fine template" si riduce a un tag di fine blocco, span o div. Facendo così, circoscrivere un contenuto con inizio template-fine template equivale a passare il contenuto al template come parametro. Ho cominciato a modificare template comuni con questa filosofia: tl|Centrato, tl|§. Non solo la cosa funziona, ma evita anche alcuni trabocchetti; in alcuni casi, infatti, il software non "gradisce" che all'interno dei parametri di un template ci sia codice. Tipico caso, quello in cui si cerca di "passare" a un template una tabella: i caratteri | confliggono, e ci vuole lo "sporco trucco" del tl|!.--[[Speciale:Contributi/193.43.176.29|193.43.176.29]] 09:18, 11 mar 2010 (CET)