Discussioni indice:Le mille ed una notti, 1852, VII-VIII.djvu

Ultimo commento: 6 anni fa, lasciato da Alex brollo in merito all'argomento Problemi indici pari - risolti

Suggerimento procedura da sal 25% a 75% modifica

Dalla pagina in modifica,

  1. se il numero sta in riga da sola, faccio elimina riga 1 Alt+5, poi
  2. postOCR Alt+7,
  3. aggiusta paragrafi Alt+6 (opzionale)
  4. unisci linee Alt+8
  5. converti é->è (non serve aggiunti tutte le lettere con diacritico inverso nei regex)

A quel punto si rilegge il testo e si corregge.

Titoli: t1 + spazio + titolo se è NOTTE ... t2 + spazio + ... se è STORIA t3 + spazio + ... se è titolo novella . Non occorrono a capo prima, tra i e dopo i titoli.

«» mancanti li inserisco con << o >> e poi applico postOCR, anche posticipando l'applicazione alla fine delle correzioni.

Applico i pt o va cliccato autoPT .

Infine, per evitare il rientro errato, nel caso non ci vada, aggiungo un a capo all'inizio. Se a inizio pagina inizia anche il paragrafo o ci sono titoli, si utilizzi due a capo per evitare problemi di trasclusione.

Se in tutta la pagina non c'è un acapo a fine testo vanno messi un paio di noinclude per evitare il rientro a inizio pagina.

Se il testo conclude un capitolo/sezione/storia/notte e ne comincia un'altro va racchiusa ogni sezione con tra "" s1 ed s2 per due sezioni. Si trova tra Elabora pagine sotto.

Errori comuni dell'ocr da correggere: e<->o<->c l<->t<->i ... A<->fi I<->! T->l'

 MauC66 (disc.) 08:25, 16 feb 2018 (CET)Rispondi

Commenti memoregex modifica

MauC66 (disc.) 22:05, 26 gen 2018 (CET)Rispondi

Utilizzando postOCR oppure carica regex ed esegui regex.

per i titoli si usi quanto sotto, t1 t2 e t3. Eventualmente è possibile aggiustarli.

riduzione spazi in eccesso a 1

<+spazio sostituito con « e spazio+> con »

memoRegex modifica

{"^ «—":["(regex)","« —","gm"], "^ +":["(regex)","","gm"], "«\\ ":["eliminazione spazio dopo caporale aperto","«","g"], "\\ »":["eliminazione spazio prima di caporale chiuso","»","g"], "^\\d+ .+\\n":["Eliminazione riga header che inizia con numero(regex)","","g"], "Dig.+ by .+le":["Eliminazione Digitized by Google (regex)","","g"], "cbe":["cbe -> che","che","g"], "\\ c\\ ":["c isolato per e"," e ","g"], "qn":["inversione n in u","qu","g"], "([^aeiouAEIOU])’ +":["Normalizzazione spazi dopo apostrofo che segue consonante(regex)","$1’","g"], "(\\w)[ ]([;,:\\.?!])":["Normalizzazione spazi prima di segno di punteggiatura (regex)","$1$2","g"], "\\n:":["due punti a inizio riga, non markup wiki (regex)",":","g"], "1’":["scanno comune per l'","l’","g"], "\\ cosi\\ ":["scanno comune per così"," così ","g"], "’1":["scanno comune per 'l","’l","g"], "\\(\\ ":["eliminazione spazio dopo parentesi aperta","(","g"], "\\ \\)":["eliminazione spazio prima di parentesi chiusa",")","g"], "\\t":["sostituzione di carattere TAB con uno spazio(regex)"," ","g"], "\\ \\ ":["sostituzione di doppio spazio con spazio singolo"," ","g"], "U’":["scanno comune","ll’","g"], "\\ clic\\ ":["scanno comune"," che ","g"], "sciam":["","sclam","g"], "fatai":["","fatal","g"], "db, ":["Eliminazione Digitized by Google (regex)","","g"], "Google":["Eliminazione Digitized by Google (regex)","","g"], "\\ «\\ ":["","«","g"], "/»":["","/>","g"], "Atlaf":["","Attaf","g"], "Altaf":["","Attaf","g"], "¡":["","i","g"], "é":["","è","g"], "ó":["","ò","g"], "á":["","à","g"], "í":["","ì","g"], "ú":["","ù","g"], "É":["","È","g"], "^t1 (.+)":["(regex)","{{ct|f=175%|v=3|t=3|'''$1'''}}","gm"], "^t2 (.+)":["(regex)","{{ct|f=130%|v=1.5|t=2|'''$1'''}}","gm"], "^t3 (.+)":["(regex)","{{ct|f=120%|v=2|L=2px|$1}}","gm"], "^Digi.*":["(regex)","","gm"], "<<":["","«","g"], "\\-\\-":["","—","g"], ">>":["","»","g"], "([oea])ir ([oeaiu])":["ir (regex)","$1ll’$2","g"], "([aeiou])’([bcdfglmnpqrstv])":["(regex)","$1’ $2","g"], "^\\d+$":["(regex)","","gm"], ",([^ ])":["(regex)",", $1","g"], "([,;:])(\\S)":["(regex)","$1 $2","g"], "\\,\\ »":["",",»","g"], "\\n*.*(NOTTE [MDCLXVI-]+).+\\n+":["Normalizzazione titoli t1 (regex)","\n{{c|sv=titolo1|$1}}\n","g"], "\\n*.+?'''(.+)'''.*":["(regex)","{{c|sv=titolo2|$1}}","g"], "{{ct\\|f=115%.+\\|(.+)}}":["(regex)","{{c|sv=titolo3|$1}}","g"]}

ErroriOrtografici modifica

{
  "regex": [
  ],
  "eccezioni": [ "Aaron" ]
}

Problemi indici pari - risolti modifica

--MauC66 (disc.) 22:05, 26 gen 2018 (CET) ... Utilizzato {{LinkPagineIndice|delta=12|1}}Rispondi

@MauC66 Ho combattuto duramente con gli indici, pagina transclusa; c'era un serio problema derivante dal fatto che l'opera è multi-indice. Alla fine mi pare di aver risolto: ho anche riunito tutte le translcusioni delle pagine Indice in un indice unico a fine testo. Se ti va bene, questa è fatta. La prossima volta, nei volumi compositi in cui la numerazione delle pagine riprende daccapo, meglio "separare" il djvu in due pagine Indice. --Alex brollo (disc.) 10:09, 18 feb 2018 (CET)Rispondi
ah bene, tutto è bene ciò che finisce bene. Non sapevo dei "combattimenti" pensavo fosse una cosa normale da risolvere lato utente/correttore con opportuna scienza, difatti avevo trovato quello stratagemma. --MauC66 (disc.) 10:14, 18 feb 2018 (CET)Rispondi
@MauC66 Magari fosse stato semplice... qui la complicazione era doppia: più indici confluenti in ns0, e ciascuno con doppia numerazione pagine. Sono vivo per miracolo ;-) --Alex brollo (disc.) 10:37, 18 feb 2018 (CET)Rispondi
i problemi fortificano, se non ci fossero che ci staremmo a fare ? ;-P --MauC66 (disc.) 10:39, 18 feb 2018 (CET)Rispondi
Mica mi arrendo.... ho vagamente in mente come far funzionare Modulo:Pg anche nel caso di indici a doppia numerazione che riparte da 1 ma.... niente da fare se trovo un indice a tripla numerazione; in quel caso, lo spappolo immediatamente in pagine Indice separate :-)
PS: Modulo:Pg è l'unico, penso, in cui ho dovuto separare, in Lua, i dati dallo script che li usa; non è dettyo che non si debba ripetere l'operazione se Modulo:StyleVoc avesse successo e si arrivasse all'ideale del vocabolario di abbreviazioni di stile specifico per opera. Alex brollo (disc.) 22:38, 18 feb 2018 (CET)Rispondi

Uniformazione stili modifica

by MauC66 (disc.) 22:02, 26 gen 2018 (CET)Rispondi

chiamata sugli stili, vorrei Uniformare gli stili per tutto il libro, se siete d'accordo. Se non lo siete battete un colpo.

Ipotesi proposte uniformanti: modifica

vedi anche nuova proposta sotto. a capo non necessari nè prima nè dopo ct, valori ct aggiustabili leggermente

Notte : t1 + spazio + testo .

Storia : t2 + spazio + testo .

titolo storia : t3 + spazio + testo .


Frontespizi: se necessario Uniformiamo al primo ? Pagina:Le mille e una notti, 1852, I-II.djvu/15

Altri titoli:

{{Ct|v=1|'''LE'''}}
{{Ct|v=1|f=250%|'''MILLE ED UNA NOTTI'''}}
{{Ct|v=2|f=150%|'''NOVELLE ARABE'''}}
{{Rule|6em|v=3}}

Altro ... da fare.

Altre indicazioni utili: modifica

Si propone di non mettere {{nop}} + riga vuota all'inizio delle pagine che iniziano con un nuovo paragrafo (riconoscibile dall'indentatura), basta inserire due righe vuote. Il {{nop}} nella prima delle due righe comunque non fa danni.

Si propone di lasciare SEMPRE una riga vuota nei casi in cui il testo della pagina continua un paragrafo precedente; la prima riga verrà visualizzata non indentata e gradevolmente staccata dall'header. In Visualizzatore, i due tipi di riga risulteranno allineati.

Non serve tradurre sotto

Mille e una notte e numeri

.

Va tolto rimasugli di digitized by google mal scannerizzati.

Piccoletto modifica

--MauC66 (disc.) 21:17, 18 feb 2018 (CET)Rispondi

Usare {{smaller block|sv=smbl1}} racchiudendo il testo {{smaller block|sv=smbl1| testo testo testo}} oppure mettendo un <\div> a fine testo piccoletto. Vedere discussione su bar o su mio discussione ... per cambiamenti eventuali o guida del template per ulteriori.

Sezioni e indici modifica

Ci sono da aggiungere le divisioni di sezione. In pratica quando in una pagina ci sono due sezioni conviene mettere due sezioni. La prima si evidenzia e poi si fa section begin end qui sotto. Poi si evidenza la sezione seguente e si clicca di nuovo su section. Si numerano in sequenza ad es. s1 ed s2 o "s1" ed "s2".

Autori citati e riferimenti modifica

E' da ripassare il testo ed eventualmente mettere link dove serve. Non sono un gran esperto di link e autori.--MauC66 (disc.) 16:20, 27 gen 2018 (CET)Rispondi

Contributori modifica

Nuova proposta per la formattazione dei titoli (con il template Ct) modifica

by Alex brollo (disc.) 19:54, 7 feb 2018 (CET)Rispondi

  • NOTTE DLI: titolo di primo livello.
    • Codice proposto: {{ct|f=175%|v=3|t=3|'''NOTTE DLI'''}}
    • prefisso regex: t1+spazio
  • STORIA: titolo di secondo livello
    • Codice proposto: {{ct|f=130%|v=1.5|t=2|'''STORIA'''}}
    • prefisso regex: t2+spazio
  • DEL CANESTRO: titolo di terzo livello
    • Codice proposto: {{ct|f=120%|v=2|L=2px|DEL CANESTRO.}}
    • prefisso regex: t3+spazio
 

Risultato:

affari del suo impero.

NOTTE DLI

Scheherazade cominciò in codesti sensi la novella promessa la mattina indietro al consorte:

STORIA

DEL CANESTRO.

— Sire, la storia antica ci offre l’esempio d’un giovine re di nome

NOTA
@MauC66 Il "prefisso regex" è una breve abbreviazione che va digitata immediatamente prima della riga da formattare. Saranno registrate delle regex che individuano le righe che iniziano con la sigla e che applicano al testo la formattazione standard. Prima di registrare le regex è opportuno provare delle modifiche dei parametri, fino a raggiungere un compromesso concordato e graficamente gradevole, da applicare poi a tutti i titoli dei 4 doppi volumi. Alex brollo (disc.) 19:54, 7 feb 2018 (CET)Rispondi

Nuovo OCR modifica

Ho ricostruito lo strato OCR, mi pare che ci sia un bel miglioramento. Adatterò il memoRegex per eventuali differenze sistematiche. --Alex brollo (disc.) 00:40, 10 feb 2018 (CET)Rispondi

Ritorna alla pagina "Le mille ed una notti, 1852, VII-VIII.djvu".