Wikisource:Bar/Archivio/2016.11: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Ilario (discussione | contributi)
Riga 783:
:::Concordo. Per fare un lavoro davvero fatto bene, ci vuole intanto una scansione di qualità (e già qui spesso siamo fregati), e poi ci vuole non solo un database di regole ''coi contropappafichi'' (sto rileggendo Salgari, perdonate...), che tenga conto delle convenzioni orto- e tipo-grafiche di ogni epoca paese lingua e magari editore e autore, ma anche la possibilità per chi lo usa di dire di volta in volta al sistema quale convenzione usare (pretendere che il sistema lo capisca da solo credo sia un po' troppo). Comunque vedendo gli errori OCR più comuni, in realtà non è detto che serva la Luna: già un OCR che sia impostato su "italiano" e conosca un po' di vocabolario aulico potrebbe costituire un miglioramento rispetto a ciò che spesso ci troviamo di fronte; a patto che non peggiori le cose credendo di far bene, cioè che non corregga cose che non sono scorrette ma solo desuete. [[User:Candalua|Can da Lua]] ([[User talk:Candalua|disc.]]) 17:54, 10 nov 2016 (CET)
:::::bella fregatura, la maggioranza dei testi sono liberi in quanto vecchi, argo desueti, ergo non inquadrabili in uno strumento generalista. Esempio più semplice: correggerebbe mi sa tutti i "perchè" scritti con l'accento al contrario. Non so proprio come poter sfruttare qui questa bella cosa...--[[User:Alexmar983|Alexmar983]] ([[User talk:Alexmar983|disc.]]) 06:41, 11 nov 2016 (CET)
:::La bellezza di questo srumento è che il database NLP è configurabile, quindi aiuta ad ignorare errori ortografici frequenti. La prova è stata fatta su un testo di Giambattista Marino, la persona che ha creato il database è un docente di italiano che ha creato il database su testi antichi. Infatti è stato il mio dubbio, ma anche per questo abbiamo pensato ad una fase di test prima di capire se continuare o se abbandonare il progetto. La questione del testo scannerizzato in altissima qualità è proprio risolvibile con NLP. --[[User:Ilario|Ilario]] ([[User talk:Ilario|disc.]]) 12:19, 11 nov 2016 (CET)
 
== Caricamento testo da Internet archive ==