Wikisource:Bar/Archivio/2018.12: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
Riga 537:
::::: {{ping|Ruthven}} Non ne sapevo nulla, grazie! A Como non ho avuto il tempo di parlare a fondo del file IA _abbyy.gz; oltre a maree di altri dati, il file contiene,pagina per pagina, le coordinate de box a contenuto non testuale. Ci giurerei che IA ha sfruttato questi dati per l'autocrop... il file xml che contiene è spaventoso, indigesto per un buon parser python, ma una volta fatto a pezzi (per pagina) diventa pienamente digeribile. Lo conosci già? Ti interessa la struttura? --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 17:09, 28 dic 2018 (CET)
::::::Non l'ho mai esplorato.Ma magari Fae ha gli script già pronti, nel caso tu ne abbia bisogno e voglia chiedere. È un'idea. --<span style="font-family:Times; color:#219">'''[[Utente:Ruthven|Ruthven]]'''</span> <span style="color:#0070EE"><small>([[User talk:Ruthven|<span style="color:#101090">msg</span>]])</small></span> 21:54, 28 dic 2018 (CET)
::::::: {{ping|Ruthven}} ''Elo'' qua: https://abbyy.technology/en:features:ocr:xml , nel file _abbyy.gz c'è ''la versione più completa''. Il lavoro di Fae è straordinario e merita attento studio, ma a una prima guardata m pare che si appoggi sull'esportazione che IA fa in Flickr, mentre rovistare in _abbyy.gz permette di capire come IA fa il caricamento; ossia di "liberarsi" dal caricamento su Flickr e dalle sue eventuali scelte (a noi interessano anche immagini banali che potrebbero essere state escluse). Io dei "non testi" mi sono sempre disinteressato, ho fatto malissimo :-) --[[User:Alex brollo|Alex brollo]] ([[User talk:Alex brollo|disc.]]) 12:33, 29 dic 2018 (CET)
 
== passaggio commons -> wikisource ==