Aiuto:Guida alla pubblicazione di un testo/Costruire il file djvu/Bozza nuova versione

Wikisource utilizza abitualmente il formato djvu, che condivide con il formato pdf tre caratteriustiche:

può riprodurre le immagini delle pagine di un libro, ottenute con uno scanner o con apparati fotografici specializzati;
"sotto" l'immagine può ospitare il testo ottenuto da un programma OCR;
se esiste il testo nascosto, è possibile effettuare una ricerca per parole; le parole trovate dalla ricerca sono evidenziate sull'immagine della pagina;
lo strato testo, pagina per pagina, può essere estratto ed utilizzato come base per la trascrizione pagina per pagina.

Rispetto al formato pdf, il djvu offre due vantaggi:

è "aperto", completamente gestibile con programmi liberi;
possiede un potente sistema di compressione delle immagini che permette di "alleggerire" i file (caratteristica molto importante in passato, meno importante oggi, vista l'attuale velocità di trasmissione dati)

Come mediawiki utilizza i file djvu con strato testo

Dopo caricato su Commons un file djvu o pdf il server è in grado di:

esportare le immagini delle pagine in formato jpg (larghezza 1024 px) per visualizzarle in nsPagina;
estrarre il testo delle pagine e caricarlo in nsPagina al momento della creazione di una nuova pagina;
eseguire un OCR partendo dall'immagine (pulsante OCR); il risultato in genere ha una qualità subottimale.

Per il lavoro su wikisource, è importante che le immagini siano ben leggibili e che la qualità dell'OCR sia la migliore tecnicamente possibile; correggere un OCR molto difettoso richiede una quantità di tempo simile a quella di una introduzione completa da tastiera, 5-10 volte maggiore di quello richiesto dalla correzione di un ottimo OCR (che può arrivare a una accuratezza di oltre il 99% dei caratteri).

La necessità di ottenere un djvu con immagini e testo di buona qualità, con uno strato testo OCR di qualità eccellente (la migliore possibile) impone di utilizzare i migliori programmi OCR attualmente disponibile, o di appoggiarsi a siti (non commerciali) che lo utilizzano.

Prima di tutto....

Prima di imbarcarsi nel lavoro di costruire un djvu con ottimo strato testo, occorre verificare che non esista già in rete; la maggiore raccolta free di testi (moltissimi già convertiti in djvu; tutti con file sufficienti a costruire un ottimo djvu) è Internet archive, che quindi è il primo sito da rovistare a fondo. Attenzione: il sistema di indicizzazione è caotico, perchè si basa sui metadati degli utenti che hanno caricato le immagini. La ricerca talora è laboriosa e difficile.

Se la ricerca su Internet Archive non dà esito, occorre reperire nel web le immagini del testo oppure produrle personalmente con uno scanner; per trasformarle in un file djvu con strato testo, vedi le opzioni seguenti.

Prima opzione

I programmi AABBY FineReader costituiscono un eccellente strumento per l'OCR di una serie di immagini o di un file multipagina privo di strato testo (pdf, djvu) in una varietà di formati, compreso il djvu con strato testo. La prima opzione per produrre autonomamente file djvu adatti all'uso su wikisource, quindi, è quella di acquistare il programma e di installarlo sul proprio PC.

Seconda opzione

Il sito Internet archive permette ai propri utenti registrati di caricare vari tipi di media liberi da copyright, che vengono elaborati e pubblicati. Una grandissima sezione del sito è dedicato ai libri; dopo il caricamento delle immagini il sito esegue una complessa elaborazione, che comprende anche l'interpretazione OCR con una versione di ABBYY FineReader. Tutti i file derivati sono accessibili e liberamente scaricabili.

Avendo a disposizione buone scansioni di un libro (scaricate dal web o prodotte personalmente) è possibile, dopo registrazione, caricarle su Internet Archive e ottenerne la derivazione.

Fino al 2017 i file scaricabili comprendevano anche il formato djvu; al momento la produzione dei file djvu è stata soppressa; tuttavia i file derivati contengono tutte le informazioni necessarie a "montare" un ottimo djvu con eccellente strato testo.

Il tool mediawiki IA Upload, inizialmente progettato per scaricare i file djvu da Internet Archive e caricarli su Commons, è stato rivisto e attualmente è in grado di scaricare i file necessari e costruire un ottimo djvu caricandolo su Commons a fine elaborazione. Il processo di elaborazione è piuttosto complesso e quindi è abbastanza lento; in alcuni casi fallisce parzialmente (viene prodotto un djvu senza strato testo) o completamente.

Terza opzione

Caldamente consigliata agli utenti meno esperti: un messaggio nel Wikisource:Bar per chiedere una mano.... naturalmente dopo aver trovato online o averle prodotte in proprio con un buon scanner.