Progetto:Trascrizioni/Testo "mappato"

Il testo "mappato" consiste nell'associare ad un testo presente in una pagina/in un'immagine di una pagina le coordinate delle singole parole, ed eventualmente dei blocchi di parole di ordine superiore (linea, paragrafo....)

I file pdf e djvu "ricercabili" ossia che permettono l'evidenziazione sull'immagine delle parole trovate con la funzione ricerca propria del lettore del file sfruttano una delle possibilità offerte dal testo "mappato".

Rappresentazioni del testo mappatoModifica

Qualsiasi rappresentazione del "testo mappato" di una pagina può essere, con minime limitazioni, trasformata in un'altra rappresentazione; si tratta di dati omologhi. Le più comuni rappresentazioni sono:

  • formato dsed, LISP-like, caratteristico dei file djvu ed estraibile con il programma djvused.exe e djvutxt.exe;
  • formato xml, variante DjvuLibre, estraibile con djvutoxml.exe; pubblicato da Internet Archive come file _djvu.xml;
  • formato xml, variante DjvuToy, estraibile con la funzione di esportazione di DjvuToy;
  • formato hOCR, adattamento html del formato xml, ottenibile opzionalmente da tesseract;
  • formato xml ABBYY, prodotto daglo OCR Engines ABBYY a vari livelli di dettaglio; quello a maggiore dettaglio è pubblicato da Internet Archive nei file _abbyy.gz in formato compresso, si tratta di file mostruosi dove le coordinate e numerose caratteristiche specifiche vengono registrate a livello di singolo carattere.

Naturalmente dalla rappresentazione più analitica (ABBYY) si possono ricavare, con opportune elaborazioni, tutte le rappresentazioni con minore dettaglio.

Uso del testo mappatoModifica

Il lettore di djvu, DjView, usa il testo mappato per due funzioni:

  1. funzione ricerca, con evidenziazione sulle pagine delle parole trovate dalla ricerca:
  2. funzione "selezione testo", che permette di estrarre dallo strato testo le parole comprese da una selezione rettangolare tracciata sull'immagine della pagina. Questa funzione sembra esclusiva di djvu e non sembra presente in pdf dove possono essere invece selezionate solo parole consecutive.

Al momento, il software mediawiki di base non consente il recupero e l'uso del testo mappato dei file djvu; consente solo l'estrazione del "puro testo", nella sola fase di creazione pagina.

Un tool di Phe, scritto utilizzando esperienze di it.source, restituisce (con un'attesa di qualche secondo) la trasformazione hOCR dello strato testo. L'utilizzazione sembra limitarsi alla evidenziazione sull'immagine del testo selezionato nella trascrizione della pagina.

Possibili utilizzi del testo mappatoModifica

  • evidenziazione sull'immagine di parole selezionate nel testo di nsPagina;
  • evidenziazione sull'immagine di strutture testuali di ordine superiore (linea, paragrafo, regione, colonna);
  • selezione sull'immagine di aree e estrazione selettiva del testo dell'area selezionata;
  • analisi delle strutture testuali e loro interpretazione a fini di autoformattazione
    • riconoscimento di testi centrati
    • riconoscimento degli header e footer
    • riconoscimento delle aree con font ridotto o aumentato
    • riconoscimento delle annotazioni
    • distinzione fra prosa e testi in versi
    • riconoscimento dei particolari dei testi in versi (strofe, indentature)
    • ....
  • ....

Lavorando sulla rappresentazione xml ABBYY (centinaia di kByte per pagina) si potrebbero estrarre numerosissime altre informazioni di dettaglio (tipo di carattere, grassetto, italico, certezza/incertezza del riconoscimento OCR....)

Le strategie di recupero e utilizzo del testo mappatoModifica

Disponendo di un file djvu il testo mappato può essere estratto, con la chiamata a un programma DjvuLibre, sia in formato dsed LISP-Like che in formato xml.

Disponendo di un solo file pdf, il testo mappato può essere estratto trasformando il file pdf in djvu con pdf2djvu e poi utilizzando le routine DjvuLibre.

Disponendo di un item IA il testo mappato (versione _djvu.xml e versione _abbyy.gz) possono essere recuperati semplicemente scaricando i file già predisposti e raggiungibili sia dalla pagina web (link "Show all") sia via routine software.

Per l'analisi delle coordinate e il riconoscimento di "gruppi fra loro omogenei" occorrono strumenti statistici di clustering per distiguere piccole variazioni casuali da variazioni significative.