Contenuto cancellato Contenuto aggiunto
Qualc1 (discussione | contributi)
Riga 120:
</pre>
--[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 23:45, 12 gen 2009 (CET)
 
:Di sicuro non sono inutili :)
:Non ci sono funzioni standard del python che si possono usare per sostituire direttamente queste. Come hai detto anche tu sarebbe possibile scriverle anche usando le espressioni regolari, ma anche in questo caso sarebbero complicate e richederebbero comunque più di una espressione regolare...
:Un altro modo per leggere le informazioni da file xml è usare delle librerie apposite per la gestione dell'xml. Io avevo provato ad usare ''lxml'' ([http://codespeak.net/lxml/ sito ufficiale], [http://codespeak.net/lxml/tutorial.html il loro tutorial]), ma avevo problemi a caricare file delle dimensioni del dump di wikisource.
 
:Proprio questa mattina ho scoperto questo progetto: [http://wikixmldb.dyndns.org/ WikiXMLDB].
:Utilizzando Sedna, un database basato su xml, dovrebbe permette di eseguire velocemente operazioni di ricerca sul dump. Sul loro sito mostrano esempi che utilizzano en.wikipedia, provo a vedere se riesco a utilizzarlo per wikisource ed ad utilizzarlo tramite python. Poi ti faccio sapere...
:--[[User:Qualc1|qualc1]] ([[User talk:Qualc1|disc.]]) 12:01, 18 gen 2009 (CET)
 
== Indicizzazione python dei dump xml di wiki ==