Aiuto:Strumenti per la rilettura/postOCR: differenze tra le versioni
Contenuto cancellato Contenuto aggiunto
m Ho riscritto la prima parte di questa voce. |
Riscrittura completata. |
||
Riga 1:
Lo strumento '''postOCR''', richiamabile da tastiera con la combinazione <code>Alt+7</code>, ingloba diverse operazioni di correzione del testo ed ha un duplice scopo: rimuovere gran parte dei difetti tipicamente presenti in un testo ottenuto da software [[w:Riconoscimento_ottico_dei_caratteri|OCR]] - denominati [[wikt:en:scanno|scannos]] - e inserire automaticamente del codice di formattazione. La versione attuale dello script preserva le parti già formattate - tabelle, link, template, ... - e ciò consente di eseguirlo più volte senza causare modifiche indesiderate alla struttura della pagina; ad esempio, grazie a postOCR è possibile velocizzare la procedura di inserimento degli apostrofi ''tipografici'' <ref>La [[Wikisource:Convenzioni_di_trascrizione#Apostrofi|convenzione]] sul trattamento degli apostrofi in sede di trascrizione ''prevederebbe'' un utilizzo prevalente dell'apostrofo dattilografico, per la maggior facilità di inserimento. Utilizzando postOCR, si può parzialmente rimediare a quest'impedimento.</ref> ponendo in fase iniziale degli apostrofi ''dattilografici'' - più facilmente inseribili tramite tastiera - e lanciando poi un'istanza dello strumento.▼
▲Lo strumento '''postOCR''' ingloba diverse operazioni di correzione del testo ed ha un duplice scopo: rimuovere gran parte dei difetti tipicamente presenti in un testo ottenuto da software [[w:Riconoscimento_ottico_dei_caratteri|OCR]] - denominati [[wikt:en:scanno|scannos]] - e inserire automaticamente del codice di formattazione. La versione attuale dello script preserva le parti già formattate - tabelle, link, template, ... - e ciò consente di eseguirlo più volte senza causare modifiche indesiderate alla struttura della pagina; ad esempio, grazie a postOCR è possibile velocizzare la procedura di inserimento degli apostrofi ''tipografici'' <ref>La [[Wikisource:Convenzioni_di_trascrizione#Apostrofi|convenzione]] sul trattamento degli apostrofi in sede di trascrizione ''prevederebbe'' un utilizzo prevalente dell'apostrofo dattilografico, per la maggior facilità di inserimento. Utilizzando postOCR, si può parzialmente rimediare a quest'impedimento.</ref> ponendo in fase iniziale degli apostrofi ''dattilografici'' - più facilmente inseribili tramite tastiera - e lanciando poi un'istanza dello strumento.
La quantità di operazioni effettuate da postOCR fa di questo strumento un'importante risorsa durante lo svolgimento dell'attività che costituisce il "cuore pulsante" di Wikisource: la correzione del testo e l'inserimento di template ricorrenti in [[Aiuto:Namespace_pagina|nsPagina]]. E lo è nonostante alcune delle sue funzioni siano eseguite automaticamente durante il caricamento del testo fornito dal software OCR in una nuova pagina, poiché esso incorpora alcune procedure che possono essere riutilizzate durante la fase di modifica - e che, se conosciute, consentono di svolgere il lavoro più efficacemente.
===Approfondimento: come funziona?===
Per capire a fondo l'utilità di postOCR, occorre avere le idee ben chiare sulle operazioni (ripetitive e laboriose) che è necessario fare sul testo prodotto da un OCR (anche di elevata qualità) per trasformarlo in un testo che soddisfi quanto più possibile i requisiti di un testo ''accuratamente corretto'' e, successivamente, ''ben formattato''.▼
Un elenco incompleto delle cose da fare per correggere il testo è:▼
# verificare che il testo (punteggiatura compresa) corrisponda fedelmente all'originale a fronte;▼
# correggere gli errori di scansione generali e ricorrenti;▼
# correggere gli errori di scansione specifici di una certa opera;▼
# correggere le spaziature in corrispondenza dei segni di interpunzione;▼
# trasformare gli apostrofi da dattilografici a tipografici;▼
# marcare le aree in versi con il tag poem;▼
## identificare i paragrafi aggiungendo una riga vuota fra un paragrafo e il successivo;▼
▲
# verificare se nella pagina sono contenute citazioni a autori o a opere e aggiungere i template {{tl|AutoreCitato}} e/o {{tl|TestoCitato}}▼
PostOCR può eseguire buona parte delle cose da fare della prima lista e almeno una della seconda lista (inserimento RigaIntestazione). Il suo lavoro viene completato, in genere, dai due strumenti ''[[Aiuto:Strumenti_per_la_rilettura/aggiusta paragrafi|aggiusta paragrafi]]'' e ''[[Aiuto:Strumenti_per_la_rilettura/unisci linee|unisci linee]]'', che però vanno usati ''solo dopo aver marcato, con il tag poem, le eventuali parti in versi''. Per eseguire il lavoro 3 (''correggere gli errori di scansione specifici di una certa opera'') postOCR lavora in cooperazione con il tool ''[[Aiuto:Strumenti_per_la_rilettura/trova e sostituisci|trova e sostituisci]]'', ma questa operazione è piuttosto complessa per la necessità di caricare in memoria, e salvare in una pagina, le liste di sostituzioni opera-specifiche che sono state "ricordate" e sarà trattata a parte.▼
# Rimuovere porzioni di testo non facenti parte del corpo della pagina, come intestazione di pagina, piè di pagina e residui di pagine precedenti o successive.
▲#
▲##
# Ricomporre le parole spezzare a fine riga, trascurando inizialmente gli "a capo".
# Nei testi in prosa, esternamente alle aree in versi:
▲##
## Ricomporre ogni paragrafo rimuovendo gli "a capo" presenti tra i suoi periodi.
All'interno del namespace Pagina vanno poi eseguite le seguenti operazioni:
# Aggiungere in testa alla pagina, nella sezione ''header'', l'intestazione. Ciò dev'essere fatto utilizzando il template {{tl|RigaIntestazione}}, opportunamente compilato: in genere, si devono inserire il numero di pagina ed un riferimento all'opera o al capitolo.
# Sistemare le parole spezzate a inizio o fine pagina, usando il template {{tl|Pt}} ("parola tronca").
▲#
# Sistemare le note a piè di pagina usando i tag <nowiki><ref>...</ref></nowiki>
# Aggiungere, se presente, il piè di pagina nella sezione ''footer'', utilizzando {{tl|PieDiPagina}}.
▲
L'automazione dell'inserimento dell'intestazione di pagina si basa sull'analisi - lettura e caricamento in memoria - del testo completo presente due facciate prima rispetto a quella corrente, alla ricerca della presenza del template {{tl|RigaIntestazione}}. Le intestazioni di pagina sono infatti simili rispettivamente per il recto ed il verso di una pagina di libro <ref>[[w:Recto_e_verso|recto e verso]] di una pagina indicano la facciata destra e sinistra, a seconda della tipologia di scrittura di una lingua.</ref>, tranne che per il numero di pagina; da libro a libro, l'intestazione di pagina può differire in base al capitolo. Ciò che fa postOCR è leggere la riga di intestazione ottenuta, identificare il numero di pagina, adeguarlo per la pagina attualmente in fase di modifica, e inserire in ''header'' il risultato ottenuto; nel caso di un cambio radicale di intestazione da una pagina all'altra, è necessaria una correzione manuale. Lo script non inserisce nessuna riga di intestazione se si verifica una condizione tra:
# L'analisi non restituisce alcuna riga di intestazione - quindi, nella facciata ispezionata non si trovava alcun template {{tl|RigaIntestazione}}.
# Nella pagina che si sta modificando è già presente {{tl|RigaIntestazione}}.
Inoltre, prima di inserire un nuovo template {{tl|RigaIntestazione}}, postOCR verifica - in caso non vi sia ancora alcuna riga di intestazione - la corrispondenza della prima riga del corpo pagina con la riga di intestazione calcolata: se la somiglianza è sufficientemente alta, esso rimuove automaticamente tale riga.
|