Contenuto cancellato Contenuto aggiunto
Riga 154:
Caro xavier, ho riesumato le vecchie routine che estraggono le parole da un testo. Con il senno di poi, gli ho dato una raffinata, lavorando sul testo LiberLiber di Hypnerotomachia, e adesso ha girato per la prima volta una routine che non solo produce l'elenco delle parole utilizzate nell'opera (30.000 e rotte, differenziando maiuscole/minuscole), ma di ciascuna calcola la frequenza assoluta e produce l'elenco delle pagine in cui è utilizzata. Python lo fa in poche decine di secondi. Il blocco dati risultante è di circa 2.5Mby; il mero elenco delle parole in ordine alfabetico occupa circa 280 kBy, che è la dimensione di una jpg a discreta risoluzione, quindi non mi sono fatto problemi a caricarlo in una mia sottopagina: [[Utente:Alex brollo/Elenco parole di Hypnerotomachia Poliphili]]. Ti viene in testa qualche idea? --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 10:49, 13 gen 2011 (CET)
 
:far correre lo script per es. sulla Commedia di Dante e sapere quante volte compare in ''rima'' la parola ''Dio''? --'''[[Utente:Xavier121|<span style="color:orange;">X</span><span style="color:black;">avier</span>]][[Discussioni_utente:Xavier121|<span style="color:orange;">1</span><span style="color:black;">21</span>]]''' 18:19, 13 gen 2011 (CET)
:: Al momento no; la posizione della parola nel suo contesto non viene elaborata (ma viene conservata). Conosci le "liste" python? nel corso dell'elaborazione, ogni stringa viene spezzettata in una lista, la sequenza delle unità che contengono caratteri ''contigui'' dello stesso tipo ("buoni" e "non buoni"). Esempio: se io dico che i caratteri "non buoni" sono: spazio, virgola, punto, e quindi dico che sono buoni tutti gli altri, la stringa "rispuose, poi che lagrimar mi vide," viene trasformata nella lista ["rispuose",", ","poi"," ","che"," ","lagrimar"," ","mi"," ","vide",","], che ha alcune interessanti proprietà: prima, segue la regola "buona - no buona - buona - no buona", in regolare alternanza; seconda, la trasformazione è reversibile (accodando semplicemente gli elementi della sequenza si ricava esattamente la stringa di partenza). Il passo successivo è quello di selezionare gli elementi "buoni" e cominciare a lavorarci.
 
::altra cosa: se le parole sono inserite in ''categorie alfabetiche'' se ne ricava anche il numero esatto, giusto? --'''[[Utente:Xavier121|<span style="color:orange;">X</span><span style="color:black;">avier</span>]][[Discussioni_utente:Xavier121|<span style="color:orange;">1</span><span style="color:black;">21</span>]]''' 18:21, 13 gen 2011 (CET)
::: Si e no. Al momento la routine conteggia effettivamente, in modo ''esatto'', gli elementi "buoni" presenti nell'opera, ma non distingue quelli che appartengono al testo dell'opera e quelli che, magari, provengono da tag o template o commenti, cosicchè nella lista delle parole di Hypnerotomachia trovi sicuramente poem, ma forse anche OrbiliusMagister... :-D. Tuttavia il fatto che oltre che il numero globale ci sia anche l'elenco di tutti i numeri pagina in cui la parola compare, facilmente trasformabili in link html funzionanti, costitusce la base dell'esercizio toolserver che mi propongo di realizzare: una paginetta htnm interattiva che restituisca la lista dei link funzionanti che puntano a una parola specifica. Già perfettamente fattibile via bot, costruendo una pagina di richiesta al bot/risposta; ma pesantuccio perchè ogni richiesta implicherebbe ''due'' aggiornamenti della pagina che finirebbero nella sua cronologia, cosa che urta la mia notoria tirchieria riguardo al consumo di risorse. --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 09:37, 14 gen 2011 (CET)--'''