ascolta
Il computer ti ascolta
Art. postato da G. servidio su mondoinformatica, 01\11\2013, h. 09.05.

Telecomandi, tastiere, mouse, addio..

Le tecnologie che riconoscono la nostra voce sono già realtà.

Come funzionano.

Come imparano a capire. (e farsi capire) sempre meglio.

Come cambieranno la nostra vita digitale.

Eliminare una volta per tutte telecomandi, mouse, tastiere.

E sostituirli con la più semplice interfaccia che si possa immaginare.

Era uno degli ultimi desideri di Steve Jobs, rivelato al proprio biografo
pochi mesi prima della scomparsa.

Allepoca, il fondatore di Apple stava lavorando sulla tv di prossima
genrazione e non si riferiva di certo a una nuova funzionalità touch, ma a
un sitema di controllo basato sulla facolta umana più naturale: la voce.

Questo sogno si sarebbe (in parte realizzato) poche settimane dopo la sua
morte, con il lancio di Siri, l'assistente virtuale per smartphone che si
basa proprio sul riconoscimento vocale.

Di lì a poco programmi simili sono arrivati in massa anche nelle auto e
sugli schermi che si trovano nei salotti delle nostre case, su console di
giochi come la X Box o nelle sedi delle grandi corporation.

Tanto che ora, nell'era della domotica e dei gadget che si indossano (come
gli orologi e gli occhiali alla Google Glass), la voce si candida a
diventare il "mouse" unico con cui potremo controllare gran parte della
nostra vita digitale.

In maniera più comoda, veloce e sicura rispetto a tutte le altre interfacce
usate fino a ora.

I primi, rudimentali sistemi di riconoscimento vocale sono stati realizzati
negli anni 50, ma all'epoca erano in grado a malapena di comprendere poche
sillabe.

Per molti decenni la ricerca è andata avanti, ma se si escludono le
frustranti esperienze con i call center automatici, si è dovuto aspettare il
2012 per vedere la tecnologia vocale diventare per tutti con gli smartphoni
di fascia medio-alta.

"Nei prossimi due-tre anni diventerà una funzionalità presente su tutti i
gadget che usiamo in mobilità.

Anche perché i controlli vocali rivelano la loro utilità soprattutto quando
abbiamo le mani o gli occhi impegnati in altre attività" è pronto a
scommettere Agostino Bertoldi, vice presidente Enterprise e mobile di Nuance
Communications, la più grande azienda produttrice di software di
riconoscimento vocale (i suoi prodotti sono utilizzati da Apple, Tamsung e
molti altri "-tech; può essere considerata l'equivalente per le tecnologie
vocali di Intel, casa produttrice dei microprocessori che si trovano su
molti dispositivi elettronici).

Per ora questi software si limitano a svolgere un lavoro simile a quello di
una segretaria zelante, ma poco flessibile: se parliamo con calma e
scandiamo per bene le parole, facendo le pause giuste, riescono a fare una
chiamata, aggiungere appuntamenti all'agenda, svolgere ricerche su una mappa
prendendo in considerazione anche la posizione in cui ci troviamo.

Ma tutto deve rientrare all'interno di tracce prestabilite, altrimenti "si
perdono".

Al momento, infatti, i programmi come Siri della Apple, Now di Google o Blue
(nome in codice per Windows Phone) funzionano grosso modo così: ogni qual
volta facciamo una richiesta, un piccolo file audio viene spedito ai server
dell'azienda produttrice, dove c'è un sistema di riconoscimento vocale che
compara il nostro suono con un modello statistico per ricostruire quali sono
le lettere che lo compongono.

Una volta definite quali sono le vocali e le consonanti, entra in gioco un
modello di comprensione del linguaggio naturale che determina invece le
parole che abbiamo pronunciato secondo un ordine di probabilità.

E' questa la fase più delicata, perché è a questo livello che subentrano le
maggiori ambiguità semantiche.

Se, ad esempio, la richiesta recita "Chiama mia figlia" e quest'ultima non è
registrata come "figlia" nella rubrica del telefono, il sistema avrà molta
difficoltà a comporre il numero giusto.

Se chiediamo "trova un ristorante nelle vicinanze" tutto fila liscio, ma se
usiamo espressioni colloquiali come "cerca una trattoria in centro" si
rischiano equivoci.

Il settore in cui negli ultimi anni sono stati cmpiuti passi da gigante è
senza dubbio quello del riconoscimento del suono.

Le applicazioni di dettatura in dotazione sugli smartphone (e disponibili
per computer) ormai comprendono abbastanza bene le parole pronunciate nel
microfono.

In caso di errore, poi, si può correggere il testo ed evitare che lo
ripetano in futuro.

Ma la sfida non finisce qui.

Se i software capiscono meglio, sono anche anche in grado di rispondere in
maniera più pertinente.

Now, l'applicazione mobile di Google per le ricerche vocali, non solo
esaudisce senza problemi richieste del tipo "Mostrami le foto di Roma", ma è
in grado di rispondere correttamente a "Quanto è lontano da Qui?" (capisce
il senso specifico di quel "Qui" integrando la dettatura con altre
informazioni sull'utente).

Ancora più sofisticato è il call center della compagnia United Airwans che
ha utilizzato la tecnologia di Nuance per le telefonate che arrivano ogni
giorno.

Il software anticipa il possibile senso delle richieste: se ad esempio, la
chiamata arriva quattro mesi prima del volo, il sistema prevede che
probabilmente c'è una prenotazione da cambiare.

Poche ore prima della partenza, invece, aumentano le possibilità che il
chiamante voglia sapere se il volo è in orario.

Queste soluzioni personalizzate sveltiscono le telefonate e permettono al
software di interpretare meglio voci tanto diverse tra loro.

Quando ci si sposta nella vita reale, però, si deve lottare non solo con le
tante ambiguità semantiche, ma anche con rumori di fondo e parlanti che
pronunciano le stesse parole in modi completamente diversi.

"Fino a poco tempo fa questi software si basavano su corpora, (e, cioè,
campionari di voci) registrati in laboratorio, in un ambiente controllato e
con toni impostati" spiega Piero cosi, direttore della sede di Padova dell'Istituto
di Scienze e Tecnologie della Cognizione del Cor.

"Ma bastava la voce di un anziano o un bambino per mandarli facelmente in
tilt.

Per non parlare di uno straniero che parla una lingua non sua".

Da quando, però, i sistemi di riconoscimento vocale sono stati integrati
sugli smartphone molte cose sono cambiate: ogni volta che si parla con il
proprio telefonino, infatti, l'azienda produttrice conserva le nostre
richieste sui propri server.

"E così, grazie al cloud computing, può analizzare questi suoni e elaborare
modelli di comprensione sempre più efficaci".

Una sorta di apprendimento destinato a migliorare sempre di più con il
tempo.

Al di là dei "Campioni di voci" sempre più grandi, i programmi basati sui i
comandi vocali saranno più efficaci grazie all'integrazione con Internet e
il Gps.

E questo già avviene su vari modelli di auto a cui si possono chiedere
indicazioni stradali, o di azionare la radio, o di inviare E-mail senza
distrarssi dalla guida.

E possono offrire anche servizi aggiuntivi, come informazioni localizzate:
"Qual è il castello che vedo sulla sinistra," o - se si avvicina l'ora di
pranzo - l'elenco delle trattorie nelle vicinanze.

Gli assistenti vocali saranno tanto più bravi quanto più potranno accedere a
informazioni dettagliate sul nostro conto: non solo chi siamo e dove ci
troviamo, ma anche quali sono i nostri gusti e abitudini.

"Quando un software di riconoscimento è integrato con la rubrica o con il
nostro account Facebook, è molto più facile per lui capire qual è il numero
da comporre se gli si chiede "Chiama mia figlia"" spiega Bertoldi.

Tutto questo, ovviamente, apre anche nuovi problemi per la privacy, si
tratta di ulteriori informazioni che stiamo chiedendo a compagnie private
che poi le trattengono per molto tempo (da una recente inchiesta è emerso
che Aplle lo fa per ben due anni).

La personalizzazione diventa elemento di svolta anche per gli
elettrodomestici " i tech che si trovano nelle nostre case.

Man man che le nostre vite digitali saranno più connesse e la domotica
diventerà mainstream, arriveranno applicazioni dirompenti.

Pensate alla possibilità di dire al proprio televisore di trovare il
percorso da fare per andare a un incontro e poi di visualizzarlo sullo
schermo dell'auto.

Ci stanno lavorando Google, Microsoft e Apple con i sistemi operativi di
nuova generazione basati sul riconoscimento vocale.

Obiettivo, far dialogare tra loro telefonini, tablet, computer, con
elettrodomestici e console intelligenti che abbiamo in casa, e con tutti i
wearable (indossabili, come occhiali e orologi) destinati a dilagare sul
mercato.

Invece di tastiere e strumenti di controllo diversi, basterà la sola voce ad
azionarli.

Sicuuramente Steve Jobes pensava a qualcosa del genere quando diceva di
voler mettere a punto l'interfaccia più semplice per le nostre vite
digitali.

Meglio di una password

Impronte digitali, riconoscimento facciale o, ancora, lettura dell'iride o
dei gesti.

La ricerca biometrica sta facendo passi in avanti per rendere più sicuro l'accesso
ai tanti servizi online che utilizziamo ogni giorno.

E, anche qui, la voce si candida a diventare uno dei metodi preferiti per la
sua semplicità (soprattutto sui telefoni) e, al tempo stesso, unicità.

I parametri di riconoscimento vocale non sono infatti legati al suono, ma ad
aspetti fisiologici che sono specifici per ciascuno parlante.

Questa caratteristica rende le impronte vocali sempre più utilizzate, anche
per l'accesso ai servizi di e-banking.

E' il caso, ad esempio, dell'istituto inglese Barclays che, usando le
tecnologie di Nuance, per alcuni suoi servizi ha sostituito password e pin
con una semplice chiamata al call center.

Servizi di questo tipo arriveranno anche in Italia entro l'estate.

Sicurezza: stra- garantita.

Se, per assurdo, è possibile tagliare il dito di una persona per usarne l'impronta
digitale , nel caso della voce bisogna che quella persona sia sempre
presente.

Altro vantaggio della voce è poi il suo essere dinamica: si possono far
registrare al parlante una serie di suoni e poi porgli domande casuali (del
tipo: "dica il numero 237").

In questo modo si evitano anche i problemi legati a un eventuale uso di
voci registrate.
Torna all'indice