Discussioni indice:Parlamento subalpino - Atti parlamentari, 1853-54, Documenti I.pdf

Ultimo commento: 2 anni fa, lasciato da Alex brollo in merito all'argomento Scorciatoie memoRegex

memoRegex modifica

{"\\ \\ ":[""," ","g"], "\\ \\.\\.\\.":["","","g"], "\\.\\.\\.":["","","g"], "\\ \\)":["",")","g"], "ó\\ ":["","ò ","g"], "ė":["","è","g"], "á":["","à","g"], "\\ \\.":["",".","g"], "\\ \\ \\ ":[""," ","g"], "Senalo":["","Senato","g"], "\\\t":[""," ","g"], "diiigenze":["","diligenze","g"], "^p(\\d+[13579])$":["(regex)","{{RigaIntestazione||— $1 —|riga=si}} {{RigaIntestazione||{{Sc|sessione del 1853-54}}|riga=si}}","gi"], "^p(\\d+[02468])$":["(regex)","{{RigaIntestazione||— $1 —|riga=si}} {{RigaIntestazione||{{Sc|documenti parlamentari}}|riga=si}}","gi"], "^rd$":["(regex)","{{Rule|8em|t=1}}{{Rule|8em|v=1}}","gm"], "^rs$":["(regex)","{{Rule|8em|t=1|v=1}}","gm"], "\\{\\{Centrato\\|":["","{{Ct|f=101%|t=1|v=1|","g"]}

Test via Internet Archive modifica

@Carlomorino, Silvio Gallio Questo è un test di caricamento brutale delle immagini jpg estratte dalla biblioteca del parlamento su IA; è il volume I della serie di cui abbiamo già caricato il vol. III. Il vantaggio è la relativa semplicità della procedura, dal punto di vista dell'elaborazione (sul mio pc ci vogliono parecchie ore...); lo svantaggio è una certa riduzione della qualità delle immagini e un cattivo OCR, rimediabile con un precaricamento del testo ocr di Internet Archive, opportunamente aggiustato, o forse anche con i nuovi strumenti OCR di wikisource. Mi lancio nell'avventura e nella sperimentazione. --Alex brollo (disc.). 07:54, 17 apr 2022 (CEST)Rispondi

L'OCR tesseract di wikisource non è per niente male, e mi sembra che riconosca bene anche le due colonne di testo. Non resta che provare con qualche testo ferroviario... Alex brollo (disc.). 08:01, 17 apr 2022 (CEST)Rispondi
... ma lo confronterò per bene con l'OCR di Internet Archive e con l'OCR di FineReader su qualche pagina in più, la prima impressione forse era ottimistica :-(. --Alex brollo (disc.). 10:23, 17 apr 2022 (CEST)Rispondi


Scorciatoie memoRegex modifica

Condivido un paio di trucchi che ho predisposto per risparmiare un po' di tempo. Transcludo questa nota anche nelle pagine discussione indice degli altri due volumi per non dover aggiornare su pagine multiple, il testo fonte sta qui.

  1. nell'header, un numero preceduto da una p (es. p123), (che sia l'unico contenuto però!), viene espanso nell'intero ambaradan della doppia RigaIntestazione con un click su postOCR o un Alt+7;
  2. nel testo, aggiungendo su una riga vuota le due sigle rs oppure rd e richiamando postOCR come sopra, la sigla viene espansa in un rule rispettivamente singolo (rs mnemonico per "rule singolo") o doppio (rd mnemonico per "rule doppio"). --Alex brollo (disc.). 09:54, 19 apr 2022 (CEST)Rispondi
Ritorna alla pagina "Parlamento subalpino - Atti parlamentari, 1853-54, Documenti I.pdf".