sintesi
Una sintesi vocale on line fatta in casa.
Donato Taddei su nvda, 03\02\2014, h. 18.04.

Vi presento questo mio esperimento:
donatotaddei.altervista.org/parla.php
un banale form in cui inserire il testo da ascoltare in voce  e il pulsante
vai.
Se non funge, e con Ie non funge, dopo aver premuto il pulsante "vai"
attivare il link per scaricare il file audio.
Segue quanto si legge cliccando sul pulsante "per saperne di più.
Questa banale sintesi è basata su un approccio in auge negli anni Novanta,
in cui la sintesi avveniva mediante la concatenazione di suoni più o meno
sillabici, ricavati per estrapolazione dalle registrazioni di voce umana:
per esempio la parola "bar" risulta dalla concatenazione dei suoni "ba" e
"ar".
A differenza delle sue analoghe degne del nome di sintesi, questa si limita
alla brutale concatenazione dei campioni, senza effettuare alcun
aggiustamento o rimodellamento., limitandosi a metterli l'uno dopo l'altro,
pescando tra i circa 1300 presenti in un file
Per questo motivo, allo stato, non è possibile agire sui parametri tipici
delle sintesi vocali: volume, tonalità, velocità, prosodia.
E, per finire, i campioni non derivano dalla registrazione di voce umana, ma
sono frutto di una serie di derivazioni da database informatici:
sono stati generati utilizzando la sintesi Mbrola, un progetto multilingua e
multipiattaforma sviluppato negli anni novanta al politecnico di Mons
(belgio) da Vincent Pagel e dal prof. Thierry Dutoit, progetto cui ho avuto
l'onore di collaborare;
A sua volta però, il database fonetico utilizzato da mbrola per la sintesi
della voce italiana era stato derivato mediante rielaborazione informatica
da quanto prodotto dall'istituto di fonetica e dialettologia del CNR di
Padova, all'interno del progetto Festival:
dunque qui la voce umana è solo un ricordo.
La sfida è stata appunto questa:
La cosa è partita dal voler sperimentare le nuove possibilità di html 5 per
l'audio, suoni e rumori, messaggi vocali.
E ho sperimentato che ogni browser allo stato fa a modo suo.
E ho sperimentato che, nonostante il formato wav sia nativo di casa
Microsoft, propio Ie non lo supporta come tag audio.
E ho sperimentato che, nonostante il browser del mio cell Nokya del 2007
sappia poco di html 5, si comporta come i browser più moderni.
In conclusione funziona bene con Chrome, Firefox e pure col browser Nokya
del n.82.
Gli utenti di Internet explorer potranno sempre utilizzare il link al file
audio.
Tornando alla sintesi, ho cercato di raggiungere i seguenti obbiettivi:
.ricavare da questa concatenazione qualcosa di comprensibile, sia pure un po
a fatica,
.ottenere qualcosa un tantino meno meccanico delle classiche voci dei robot
dei racconti di Asimov
.realizzare un compromesso tra stress e chiarezza di pronuncia;
.Gestire le pause per emulare la punteggiatura e diminuire la monotonia.
.introdurre elementi di calore nella voce, qualcosa di meno neutrale del
pulito livellamento tipico delle buone voci di sintesi
E ciò sempre allo scopo di "camuffare" l'assenza di prosodia e di
modulazione
Se e quanto questi obbiettivi sono stati raggiunti, o quanto potranno essere
migliorati, è cosa di cui al momento non ho idea.
Do per scontato la rigenerazione dei campioni parecchie altre volte. Perciò
la pubblico:
sono stufo di averla per le mani da qualche settimana.
Già quasi così può assolvere al compito prefissato di brevi messaggi vocali,
e, per un verso, la sua estrema banalità è perfino un vantaggio:
.pesa poco più di tre mega, dimensioni oggi compatibili con le più piccole
memorie di massa ed EPROM, ivi compreso il famoso Arduino;
.si compone di soli tre files, che diventeranno due;
.Data la sua banalità il codice sorgente, compresi commenti, righe vuote e
costanti, si riduce a meno di 200 righe.
.200 righe di codice si trasducono facilmente da un linguaggio di
programmazione all'altro, per cui gli stessi campioni e indici potrebbero
essere implementati facilmente in qualsiasi altro contesto di scripting.
.Il tutto è liberamente utilizzabili senza obblighi di alcun tipo.
Il codice, solo per vergogna della mia sciatteria programmatoria, non viene
pubblicato con la licenza GPL, ma è da intendersi open-source a richiesta,
col solo impegno da parte mia di fornirlo aggiungendo qualche spartano
commento a chiarimento delle mie contorsioni, dunque come si dice "as is"
Grazie per l'interessamento
Torna all'indice