Wikisource:Bar/Archivio/2016.11: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Ilario (discussione | contributi)
Riga 755:
Ciao a tutti, me ne ero già accorto ma adesso ne ho la conferma. Inserendo le immagini con CropTool non è semplice creare la giusta spaziatura verticale. [https://it.wikisource.org/wiki/Pagina:Bellamy_-_L%27avvenire,_1891.djvu/1 Qui] ho provato con ''<nowiki><br/></nowiki>'' seguito da altrettanti ''Nuova Riga'' per avere un risultato mediocre. Stò sbagliando qualcosa o il tool fa a pugni con qualche template. --[[User:Stefano mariucci|Stefano mariucci]] ([[User talk:Stefano mariucci|disc.]]) 05:55, 8 nov 2016 (CET)
: Se possibile bisognerebbe trovare sempre alternative al tag <br/>. Usando il template {{Tl|FI}} si ottiene un ottimo controllo delle spaziature verticali sopra e sotto con i parametri aggiuntivi margin-top e margin-bottom; per la spaziatura delle righe di testo, sto usando esclusivamente il template {{Tl|Ct}} che è utilissimo in tutti i titoli, ma particolarmente utile nelle pagine di intestazione, utilizzando il parametro <code>v=</code> che permette di gestire molto finemente la spaziatura verticale fra le righe di testo. Lo stesso parametro <code>v=</code> è accettato anche da {{Tl|Rule}}. Mi ero sonoramente stufato di combattere con i br e con le righe vuote! --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 09:57, 9 nov 2016 (CET)
 
== Natural Language Processing e trascrizione dei testi ==
 
Sono qui a chiedervi un parere. Wikimedia CH nel proprio piano annuale vorrebbe ''testare'' l'utilizzo del [[:it:w:Elaborazione del linguaggio naturale|Natural Language Processing]] per migliorare la trascrizione dei testi mediante OCR. In parole povere i passaggi sono questi:
 
* OCR dei testi secondo gli stumenti canonici;
* Passaggio attraverso uno strumento di Natural Language Processing per migliorare il testo prodotto e fissare alcuni errori rilevanti;
* Rilascio del testo rivisto da NLP.
 
Quindi tra l'OCR e il normale lavoro di rilettura dei testi ci sarebbe uno strato intermedio automatizzato che andrebbe a rilasciare un testo "ripulito" basandosi su regole sintattiche, su ricerche su diversi dizionari, e su errori ricorrenti.
 
Abbiamo fatto un test con uno strumento esistente al di fuori dei progetti Wikimedia che usi un database NLP su cui si è lavorato per oltre 10 anni e i risultati sono molto incoraggianti. In pratica si potrebbero correggere almeno il 60-70% degli errori di interpretazione derivati da OCR. I limiti dello NLP sono che non riuscirà mai a ottenere il 100% delle correzioni, ma già ottenere il 60% sarebbe un successo.
 
Natural Language Processing è un bel termine, ma se alla base non c'è un ottimo database di regole, è come non avere il cuore. In questo caso andremmo a utilizzare un database sviluppato da moltissimi anni e utilizzato in diverse progetti (esterni a Wikimedia).
 
Ritenete che uno strumento del genere possa esservi utile? Consideriamo che si tratta di un investimento di una certa rilevanza a livello di costi, ma se si potrebbe ridurre il lungo e laborioso lavoro di correzione dei testi, non sarebbe male. --[[User:Ilario|Ilario]] ([[User talk:Ilario|disc.]]) 16:47, 9 nov 2016 (CET)