pulizia
Microsoft Word e la pulizia dei file dei libri digitalizzati con uno scanner.
Nunziante Esposito su uiciechi.it, 2013-05.

Quando si parla di Word, software commerciale della suite Office di Microsoft che non costa poco, 
con chiunque ne parli, sei certo di parlare di una cosa conosciuta, anche se la conoscenza di 
questo software da parte degli utenti è molto superficiale. Infatti, se ne fa un uso molto limitato 
e per la massima parte degli utenti se ne potrebbe fare a meno, usando WordPad che è inserito 
gratuitamente in tutti i sistemi operativi della Microsoft.

Personalmente, anche se non ne faccio un uso completo, mi servo di questo software per qualsiasi 
manipolazione di testi abbia bisogno, sfruttando quello che il software mette a disposizione. 
Siccome sono delle cose alle quali non tutti pensano, ne fornisco di seguito una sufficiente 
spiegazioni per consentire a qualcuno che gli necessita, di avere una opportunità per elaborare 
meglio i testi con i quali ha a che fare, magari per modificare o correggere testi già scritti o 
digitalizzati con un comune scanner ed un OCR.

Per prima cosa, vediamo alcuni codici ed alcuni simboli che ci serviranno per dare i comandi adatti 
alla funzione "Trova e sostituisci" di Microsoft Word, per avere la possibilità di fare quello che 
ci necessita e che verrà spiegato di seguito.

Codici numerici per alcuni caratteri speciali.

Tutti i caratteri che digitiamo normalmente con la tastiera si ottengono tenendo premuto alt di 
sinistra e digitando sul tastierino numerico con i numeri inseriti il numero che si trova a fianco 
di ogni carattere della lista che segue.

Nota bene: da tener presente che i caratteri speciali che seguono non sono tutti quelli esistenti e 
che se si volesse trovarne altri, basta premere alt di sinistra e digitare un numero a 4 cifre sul 
TN.

Per poter leggere tutti i simboli, basta avere la punteggiatura su tutto. In ogni caso, ci sono dei 
caratteri che non vengono letti dalla sintesi Eloquence, mentre vengono letti da altre sintesi e 
viceversa. Se si hanno altre sintesi disponibili, basta provare per quei simboli che Eloquence non 
legge.

Ecco i caratteri:

``{, 0123``

``|, 0124. Paip.``

``}, 0125``

``~, 0126. Tilde.``

``€, 0128``

``Œ, 0140``

``•, 0149``

``˜, 0152``

``Œ, 0156``

``¡, 0161``

``¢, 0162``

``£, 0163``

``¤, 0164``

``¥, 0165``

``¦, 0166``

``§, 0167``

``¨, 0168``

``(c), 0169``

``ª, 0170``

``", 0171``

``¬, 0172``

``(r), 0174``

``¯, 0175``

``°, 0176``

``±, 0177``

``², 0178``

``³, 0179``

``µ, 0181``

``¶, 0182``

``·, 0183``

``¸, 0184``

``¹, 0185``

``º, 0186``

``", 0187. Chiuse virgolette``

``1/4, 0188``

``1/2, 0189``

``3/4, 0190``

``¿, 0191``

Questi sono i simboli che, secondo la mia esperienza,  si può aver bisogno di togliere dai testi 
digitalizzati con lo scanner. Vedremo di seguito come impiegarli per pulire i testi.

Quando si trova un carattere che non ci viene letto, per poterlo riprodurre nel trova e sostituisci 
si può fare in due modi diversi.

Modalità 1:

1. Ci posizioniamo sul carattere.

2. Premiamo shift più freccia destra per selezionarlo.

3. Premiamo control più C per copiarlo negli appunti.

4. Apriamo il trova e sostituisci con control più shift più S.

5. Incolliamo con control più V.

Modalità 2:

1. Ci posizioniamo sul carattere.

2. Leggiamo il suo codice, premendo tre volte il 5 del tastierino numerico con i numeri disinseriti.

3. Apriamo il trova e sostituisci con control più shift più S.

4. Digitiamo alt di sinistra più il numero che Jaws ci ha letto. Se il numero è composto da un 
numero di cifre inferiori a 4,  anteporre uno o più zeri al numero per avere 4 cifre. Per esempio, 
se premendo il 5 TN su un carattere che Jaws normalmente non legge, si ottenesse il codice 126, 
dobbiamo digitare alt più 0126.

Caratteri speciali di formattazione.

Di seguito sono riportati i caratteri speciali di formattazione e quelli per dare indicazioni per 
la ricerca nel testo in trova e sostituisci di Microsoft Word.

Questi caratteri rappresentano i codici usati da Microsoft Word, in modalità nascosta nei 
documenti, per visualizzare a schermo il testo. Questi caratteri speciali si possono usare per 
cercare all'interno del testo particolari parole o parti di esse, per sostituirle con altro testo, 
oppure, per cercare  segni di formattazione specifici e sostituirli con altri segni, oppure, per 
eliminarli.

Come già detto, questi simboli usabili nel trova e sostituisci, sono quelli più usati in un comune 
testo. Nella lista che segue, sulla stessa riga è riportato il simbolo rappresentato dal segno di 
accento circonflesso che si genera premendo shift più  la i accentata, e da un altro carattere. Di 
fianco ad ogni simbolo, c'è una breve spiegazione indicante la sua funzione:

``^p, ritorno a capo, segno di paragrafo.``

``^?, qualsiasi testo.``

``^t, segno di tabulazione.``

``^#, qualsiasi numero.``

``^$, qualsiasi lettera.``

``^^, accento circonflesso.``

``^%, paragrafo carattere sessione.``

``^v, marcatore paragrafo, carattere paragrafo.``

``^n, interruzione di colonna.``

``^+, lineetta.``

``^=, trattino.``

``^e, rimando nota di chiusura.``

``^d, campo.``

``^f, rimando nota a piè di pagina.``

``^g, grafica.``

``^l, interruzione di riga manuale.``

``^m, interruzione di pagina manuale.``

``^~, segno meno unificatore.``

``^s, spazio unificatore.``

``^-, segno meno facoltativo.``

``^b, interruzione di sezione.``

``^w, spazio vuoto.``

Come utilizzare la simbologia sopra riportata.

Premesse:

1. Tanto per essere chiari, riportando l'esperienza per l'uso che ne faccio io, vi comincio a dire 
che generalmente  non tutti questi simboli servono, ma sono stati riportati tutti quelli che avevo 
disponibili.

2. Alcuni di questi simboli non possono essere usati in Trova e sostituisci, ma bensì solo in 
trova, comando rapido control più shift più T.

3.Quando si usa un programma di digitazione testi come Microsoft Word, certi automatismi aiutano 
tanto nel trattamento dei testi, e non solo il copia ed incolla o il taglia ed incolla. Quando 
invece siamo al cospetto di testi digitalizzati con uno scanner, questo tipo di software diventa 
indispensabile se non si vogliono usare programmi specifici che, poi, detto in modo molto 
semplicistico, per lo più utilizzano funzioni come quelle di Microsoft Word per funzionare.

4. il comando sostituisci tutto è alt più U per le versioni di Microsoft Word fino alla 2003 e alt 
più S per le versioni successive.

Per prima cosa, vediamo come si esegue un "Trova e sostituisci" in Microsoft Word, tenendo presente 
che il comando da tastiera per aprire questa funzione è control più shift più S. Con la finestra di 
questo software a schermo e con al suo interno del testo sul quale dobbiamo operare il Trova e 
sostituisci, faremo come segue:

1. Premiamo control più shift più S.

2. Si apre una finestra e siamo sul campo editazione trova e sostituisci.

3. Scriviamo il testo da trovare, facendo attenzione a qualsiasi carattere, spazi compresi.

4. Premiamo tab e siamo sul campo editazione sostituisci con ... e digitiamo il testo che deve 
sostituire quello digitato nel campo editazione precedente.

5. Premiamo il comando rapido per sostituisci tutto. Tale comando è alt più U, o alt più S, a 
seconda che si usi Microsoft Word fino alla versione 2003 o successive, come spiegato sopra.

Alla pressione del comando sostituisci tutto, tutte le occorrenze trovate come testo da trovare, 
vengono sostituite con il testo inserito nel campo editazione Sostituisci con.... e Jaws ci avvisa 
quante sostituzioni sono state operate sul documento.

Quando una sostituzione viene eseguita su una porzione del documento che deve essere prima 
selezionata, la procedura di sostituzione, dopo aver eseguito l'operazione sulla parte selezionata, 
ci chiede se vogliamo eseguire la sostituzione anche sulla restante parte del documento, 
consentendoci di scegliere se effettuarla o meno. Jaws ci informa diligentemente di tutto.

Tenendo ben presente la procedura di sostituzione appena descritta, basta dire che se al posto del 
testo digitato nei due campi suddetti per il trova e sostituisci inseriamo dei segni di 
formattazione, possiamo operare le sostituzioni di formattazione allo stesso modo di come 
sostituiamo il testo. Ecco alcuni esempi:

Esempio 1: eliminiamo le interruzioni di pagine forzate, per intenderci, per compattare il testo 
quando si hanno pagine che contengono poche righe. Faremo come segue:

1. Premiamo control più shift più S.

2. Si apre una finestra e siamo sul campo editazione trova e sostituisci.

3. Scriviamo il testo che rappresenta il simbolo di formattazione per una nuova pagina forzata che 
è ``^m``.il simbolo accento circonflesso si ottiene premendo shift più i accentata. Scrivere la m 
minuscola e non mettere spazi ne prima, ne dopo.

4. Premiamo tab e siamo sul campo editazione sostituisci con ... e digitiamo quello che sostituirà 
il segno di formattazione di pagina a capo forzata. Per esempio, potremmo inserire uno spazio, un 
ritorno a capo che è ``^p``, oppure altro testo o carattere. Insomma, quello che ci serve, nel caso 
ci serve di fare altro.

5. Premiamo il comando rapido per sostituisci tutto. Tale comando è alt più U, o alt più S, a 
seconda che si usi Microsoft Word fino alla versione 2003 o successive, come spiegato sopra, e 
tutti i segni di pagina a capo forzata vengono sostituiti con quello che abbiamo digitato nel campo 
Sostituisci con ...

Esempio 2: eliminare tra un paragrafo e l'altro troppi ritorni a capo e li sostituiamo con solo due 
ritorni a capo, quindi, una sola riga vuota. Faremo come segue:

1. Premiamo control più shift più S.

2. Si apre una finestra e siamo sul campo editazione trova e sostituisci.

3. Scriviamo tre volte il testo che rappresenta il simbolo di formattazione per il ritorno a capo 
che è ``^p``.il simbolo accento circonflesso si ottiene premendo shift più i accentata. Scrivere la 
p minuscola e non mettere spazi ne prima, ne dopo. Scriveremo: ``^p^p^p``

4. Premiamo tab e siamo sul campo editazione sostituisci con ... e digitiamo quello che sostituirà 
i tre segni di ritorno a capo, quindi, due ritorni a capo: ``^p^p``

5. Premiamo il comando rapido per sostituisci tutto e tutti i segni di ritorno a capo superiori a 
due, vengono eliminati. Bisogna ripetere il comando di sostituisci tutto, fino a quando non ci 
viene fornito il messaggio che sono stati sostituiti zero elementi.

6. Chiudiamo la finestra con alt più F4.

Esempio 3: eliminare i trattini con ritorno a capo, tipici dei testi presi allo scanner da libri 
cartacei.

1. Premiamo control più shift più S.

2. Si apre una finestra e siamo sul campo editazione trova e sostituisci.

3. Scriviamo il segno meno (trattino) e il testo che rappresenta il simbolo di formattazione per il 
ritorno a capo che è ``^p``. Il simbolo accento circonflesso si ottiene premendo shift più i 
accentata. Scrivere la p minuscola e non mettere spazi ne prima e ne dopo. Scriveremo: ``-^p``

4. Premiamo tab e siamo sul campo editazione sostituisci con ... e digitiamo quello che sostituirà 
i segni di formattazione digitati sopra. Siccome dobbiamo unire le due parole ed eliminare il segno 
meno ed il ritorno a capo, nel campo sostituisci con ... non inseriremo nessun carattere, 
cancellando tutto con la pressione ripetuta di backspace fino a quando Jaws non ci dice vuoto.

5. Premiamo il comando rapido per sostituisci tutto e tutti i segni meno seguiti dal ritorno a capo 
vengono eliminati, unendo le parole spezzate.

6. Chiudiamo la finestra con alt più F4.

Esempio 4: eliminare una dicitura con il numero di pagina, per esempio, pagina xXx, dove xXx è un 
numero che al massimo prevediamo di 4 cifre. In questo caso, facciamo l'ipotesi che a fine di ogni 
pagina cartacea ci sia la scritta Pagina 1, pagina 2, pagina 3, ... Pagina 300, Pagina 301, 
eccetera. Questa procedura è valida anche se al posto della parola pagina che precede il numero, ci 
fosse il titolo del libro, oppure altro testo, cosa che accertiamo scorrendo le prime pagine del 
libro.

1. Premiamo control più shift più S.

2. Si apre una finestra e siamo sul campo editazione trova e sostituisci.

3. Scriviamo il testo, il simbolo per qualsiasi numero 4 volte ed il testo che rappresenta il 
simbolo di formattazione per il ritorno a capo. Per l'esempio ipotizzato, scriveremo: Pagina 
``^#^#^#^#^p``

4. Premiamo tab e siamo sul campo editazione sostituisci con ... e digitiamo quello che sostituirà 
i segni di formattazione digitati sopra. Siccome dobbiamo eliminare la parola Pagina seguita da 4 
numeri, lasceremo solo il ritorno a capo, inseriremo solo ``^p``.

5. Premiamo il comando rapido per sostituisci tutto e tutte le occorrenze di testo "Pagina" seguite 
da uno spazio e 4 cifre, vengono eliminate. Siccome in un libro è difficile raggiungere un numero 
di pagine con 4 cifre, molto probabilmente avremo la sostituzione di zero elementi.

6. Siamo di nuovo sul campo trova e sostituisci, dove è scritto il testo digitato prima. Qui 
modifichiamo, riducendo a 3 solo i simboli per qualsiasi numero. Il testo scritto sarà: Pagina 
``^#^#^#^p``

7. sul campo editazione sostituisci con ... il testo rimarrà lo stesso.

8. Premiamo il comando rapido per sostituisci tutto e tutte le occorrenze di testo "Pagina" seguite 
da uno spazio e 3 cifre, vengono eliminate.

9. Siamo di nuovo sul campo trova e sostituisci, dove è scritto il testo digitato prima. Qui 
modifichiamo, riducendo a 2 solo i simboli per qualsiasi numero. Il testo scritto sarà: Pagina 
``^#^#^p``

10. sul campo editazione sostituisci con ... il testo rimarrà lo stesso.

11. Premiamo il comando rapido per sostituisci tutto e tutte le occorrenze di testo "Pagina" 
seguite da uno spazio e 2 cifre, vengono eliminate.

12. Siamo di nuovo sul campo trova e sostituisci, dove è scritto il testo digitato prima. Qui 
modifichiamo, riducendo a 1 solo i simboli per qualsiasi numero. Il testo scritto sarà: Pagina 
``^#^p``

13. sul campo editazione sostituisci con ... il testo rimarrà lo stesso.

14. Premiamo il comando rapido per sostituisci tutto e tutte le occorrenze di testo "Pagina" 
seguite da uno spazio e una cifra, vengono eliminate.

15. Chiudiamo la finestra con alt più F4.

Se abbiamo eseguito tutto come descritto, avremo pulito il testo da tutte queste occorrenze che, 
sui libri cartacei vengono riportate a fine di ogni pagina.

Gli esempi fatti sopra, consentono di capire bene il meccanismo da usare, in modo che qualsiasi 
sostituzione volete fare, ne avete la possibilità, non essendoci limiti alla fantasia.

Per non avere la sorpresa di rovinare un libro e non poterlo più recuperare, e non vale solo per 
chi non ha esperienza in queste cose, consiglio di lavorare sempre su una copia del file del libro 
da pulire, e in ogni caso, del testo da trattare.

`************`

Per ulteriori spiegazioni, scrivere a: `Nunziante Esposito nunziante.esposito@uiciechi.it`_

Torna all'indice