Discussioni utente:Alex brollo/varie/djvuXml2Txt.py: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Nessun oggetto della modifica
domande e commenti
Riga 2:
{{ping|Ruthven}} condivido un attrezzo che sto usando con soddisfazione per la collana [[Wikisource:Scrittori d'Italia]], con molti indici "vuoti" e spesso con OCR molto scadente (ottenuto con pdf2djvu e rispecchiante lo strato testo BEIC originale) --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 22:07, 28 mag 2020 (CEST)
: {{ping|Ruthven}} Ripingo, il primo ping è certamente fallito. --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 22:08, 28 mag 2020 (CEST)
::Grazie per il ping. Usi il file xml perché estrarre il testo dà risultati scadenti?
::Oggi ho fatto le mie prime prove con djvutext, con risultati medi (ma dipende dall'OCR suppongo). Ci sarebbe un modo di splittare un testo che fornisco io (magari perché trascritto da google o da un'altra fonte)) e poi caricarlo (sempre automaticamente) su Wikisource?
::Avevo un'altra domanda: che aspetto hanno i tuoi file regex.txt? Ciao --<span style="font-family:Times; color:#219">'''[[Utente:Ruthven|Ruthven]]'''</span> <span style="color:#0070EE"><small>([[User talk:Ruthven|<span style="color:#101090">msg</span>]])</small></span> 02:22, 30 mag 2020 (CEST)
Ritorna alla pagina utente di "Alex brollo/varie/djvuXml2Txt.py".