ascolta Il computer ti ascolta Art. postato da G. servidio su mondoinformatica, 01\11\2013, h. 09.05. Telecomandi, tastiere, mouse, addio.. Le tecnologie che riconoscono la nostra voce sono già realtà. Come funzionano. Come imparano a capire. (e farsi capire) sempre meglio. Come cambieranno la nostra vita digitale. Eliminare una volta per tutte telecomandi, mouse, tastiere. E sostituirli con la più semplice interfaccia che si possa immaginare. Era uno degli ultimi desideri di Steve Jobs, rivelato al proprio biografo pochi mesi prima della scomparsa. Allepoca, il fondatore di Apple stava lavorando sulla tv di prossima genrazione e non si riferiva di certo a una nuova funzionalità touch, ma a un sitema di controllo basato sulla facolta umana più naturale: la voce. Questo sogno si sarebbe (in parte realizzato) poche settimane dopo la sua morte, con il lancio di Siri, l'assistente virtuale per smartphone che si basa proprio sul riconoscimento vocale. Di lì a poco programmi simili sono arrivati in massa anche nelle auto e sugli schermi che si trovano nei salotti delle nostre case, su console di giochi come la X Box o nelle sedi delle grandi corporation. Tanto che ora, nell'era della domotica e dei gadget che si indossano (come gli orologi e gli occhiali alla Google Glass), la voce si candida a diventare il "mouse" unico con cui potremo controllare gran parte della nostra vita digitale. In maniera più comoda, veloce e sicura rispetto a tutte le altre interfacce usate fino a ora. I primi, rudimentali sistemi di riconoscimento vocale sono stati realizzati negli anni 50, ma all'epoca erano in grado a malapena di comprendere poche sillabe. Per molti decenni la ricerca è andata avanti, ma se si escludono le frustranti esperienze con i call center automatici, si è dovuto aspettare il 2012 per vedere la tecnologia vocale diventare per tutti con gli smartphoni di fascia medio-alta. "Nei prossimi due-tre anni diventerà una funzionalità presente su tutti i gadget che usiamo in mobilità. Anche perché i controlli vocali rivelano la loro utilità soprattutto quando abbiamo le mani o gli occhi impegnati in altre attività" è pronto a scommettere Agostino Bertoldi, vice presidente Enterprise e mobile di Nuance Communications, la più grande azienda produttrice di software di riconoscimento vocale (i suoi prodotti sono utilizzati da Apple, Tamsung e molti altri "-tech; può essere considerata l'equivalente per le tecnologie vocali di Intel, casa produttrice dei microprocessori che si trovano su molti dispositivi elettronici). Per ora questi software si limitano a svolgere un lavoro simile a quello di una segretaria zelante, ma poco flessibile: se parliamo con calma e scandiamo per bene le parole, facendo le pause giuste, riescono a fare una chiamata, aggiungere appuntamenti all'agenda, svolgere ricerche su una mappa prendendo in considerazione anche la posizione in cui ci troviamo. Ma tutto deve rientrare all'interno di tracce prestabilite, altrimenti "si perdono". Al momento, infatti, i programmi come Siri della Apple, Now di Google o Blue (nome in codice per Windows Phone) funzionano grosso modo così: ogni qual volta facciamo una richiesta, un piccolo file audio viene spedito ai server dell'azienda produttrice, dove c'è un sistema di riconoscimento vocale che compara il nostro suono con un modello statistico per ricostruire quali sono le lettere che lo compongono. Una volta definite quali sono le vocali e le consonanti, entra in gioco un modello di comprensione del linguaggio naturale che determina invece le parole che abbiamo pronunciato secondo un ordine di probabilità. E' questa la fase più delicata, perché è a questo livello che subentrano le maggiori ambiguità semantiche. Se, ad esempio, la richiesta recita "Chiama mia figlia" e quest'ultima non è registrata come "figlia" nella rubrica del telefono, il sistema avrà molta difficoltà a comporre il numero giusto. Se chiediamo "trova un ristorante nelle vicinanze" tutto fila liscio, ma se usiamo espressioni colloquiali come "cerca una trattoria in centro" si rischiano equivoci. Il settore in cui negli ultimi anni sono stati cmpiuti passi da gigante è senza dubbio quello del riconoscimento del suono. Le applicazioni di dettatura in dotazione sugli smartphone (e disponibili per computer) ormai comprendono abbastanza bene le parole pronunciate nel microfono. In caso di errore, poi, si può correggere il testo ed evitare che lo ripetano in futuro. Ma la sfida non finisce qui. Se i software capiscono meglio, sono anche anche in grado di rispondere in maniera più pertinente. Now, l'applicazione mobile di Google per le ricerche vocali, non solo esaudisce senza problemi richieste del tipo "Mostrami le foto di Roma", ma è in grado di rispondere correttamente a "Quanto è lontano da Qui?" (capisce il senso specifico di quel "Qui" integrando la dettatura con altre informazioni sull'utente). Ancora più sofisticato è il call center della compagnia United Airwans che ha utilizzato la tecnologia di Nuance per le telefonate che arrivano ogni giorno. Il software anticipa il possibile senso delle richieste: se ad esempio, la chiamata arriva quattro mesi prima del volo, il sistema prevede che probabilmente c'è una prenotazione da cambiare. Poche ore prima della partenza, invece, aumentano le possibilità che il chiamante voglia sapere se il volo è in orario. Queste soluzioni personalizzate sveltiscono le telefonate e permettono al software di interpretare meglio voci tanto diverse tra loro. Quando ci si sposta nella vita reale, però, si deve lottare non solo con le tante ambiguità semantiche, ma anche con rumori di fondo e parlanti che pronunciano le stesse parole in modi completamente diversi. "Fino a poco tempo fa questi software si basavano su corpora, (e, cioè, campionari di voci) registrati in laboratorio, in un ambiente controllato e con toni impostati" spiega Piero cosi, direttore della sede di Padova dell'Istituto di Scienze e Tecnologie della Cognizione del Cor. "Ma bastava la voce di un anziano o un bambino per mandarli facelmente in tilt. Per non parlare di uno straniero che parla una lingua non sua". Da quando, però, i sistemi di riconoscimento vocale sono stati integrati sugli smartphone molte cose sono cambiate: ogni volta che si parla con il proprio telefonino, infatti, l'azienda produttrice conserva le nostre richieste sui propri server. "E così, grazie al cloud computing, può analizzare questi suoni e elaborare modelli di comprensione sempre più efficaci". Una sorta di apprendimento destinato a migliorare sempre di più con il tempo. Al di là dei "Campioni di voci" sempre più grandi, i programmi basati sui i comandi vocali saranno più efficaci grazie all'integrazione con Internet e il Gps. E questo già avviene su vari modelli di auto a cui si possono chiedere indicazioni stradali, o di azionare la radio, o di inviare E-mail senza distrarssi dalla guida. E possono offrire anche servizi aggiuntivi, come informazioni localizzate: "Qual è il castello che vedo sulla sinistra," o - se si avvicina l'ora di pranzo - l'elenco delle trattorie nelle vicinanze. Gli assistenti vocali saranno tanto più bravi quanto più potranno accedere a informazioni dettagliate sul nostro conto: non solo chi siamo e dove ci troviamo, ma anche quali sono i nostri gusti e abitudini. "Quando un software di riconoscimento è integrato con la rubrica o con il nostro account Facebook, è molto più facile per lui capire qual è il numero da comporre se gli si chiede "Chiama mia figlia"" spiega Bertoldi. Tutto questo, ovviamente, apre anche nuovi problemi per la privacy, si tratta di ulteriori informazioni che stiamo chiedendo a compagnie private che poi le trattengono per molto tempo (da una recente inchiesta è emerso che Aplle lo fa per ben due anni). La personalizzazione diventa elemento di svolta anche per gli elettrodomestici " i tech che si trovano nelle nostre case. Man man che le nostre vite digitali saranno più connesse e la domotica diventerà mainstream, arriveranno applicazioni dirompenti. Pensate alla possibilità di dire al proprio televisore di trovare il percorso da fare per andare a un incontro e poi di visualizzarlo sullo schermo dell'auto. Ci stanno lavorando Google, Microsoft e Apple con i sistemi operativi di nuova generazione basati sul riconoscimento vocale. Obiettivo, far dialogare tra loro telefonini, tablet, computer, con elettrodomestici e console intelligenti che abbiamo in casa, e con tutti i wearable (indossabili, come occhiali e orologi) destinati a dilagare sul mercato. Invece di tastiere e strumenti di controllo diversi, basterà la sola voce ad azionarli. Sicuuramente Steve Jobes pensava a qualcosa del genere quando diceva di voler mettere a punto l'interfaccia più semplice per le nostre vite digitali. Meglio di una password Impronte digitali, riconoscimento facciale o, ancora, lettura dell'iride o dei gesti. La ricerca biometrica sta facendo passi in avanti per rendere più sicuro l'accesso ai tanti servizi online che utilizziamo ogni giorno. E, anche qui, la voce si candida a diventare uno dei metodi preferiti per la sua semplicità (soprattutto sui telefoni) e, al tempo stesso, unicità. I parametri di riconoscimento vocale non sono infatti legati al suono, ma ad aspetti fisiologici che sono specifici per ciascuno parlante. Questa caratteristica rende le impronte vocali sempre più utilizzate, anche per l'accesso ai servizi di e-banking. E' il caso, ad esempio, dell'istituto inglese Barclays che, usando le tecnologie di Nuance, per alcuni suoi servizi ha sostituito password e pin con una semplice chiamata al call center. Servizi di questo tipo arriveranno anche in Italia entro l'estate. Sicurezza: stra- garantita. Se, per assurdo, è possibile tagliare il dito di una persona per usarne l'impronta digitale , nel caso della voce bisogna che quella persona sia sempre presente. Altro vantaggio della voce è poi il suo essere dinamica: si possono far registrare al parlante una serie di suoni e poi porgli domande casuali (del tipo: "dica il numero 237"). In questo modo si evitano anche i problemi legati a un eventuale uso di voci registrate.Torna all'indice