La nouvelle voix des machines

N° 310 - Publié le 5 juin 2013
© J-C&D PRATT-PHOTONONSTOP
Les serveurs vocaux et la téléphonie d’entreprise vont bénéficier des progrès de la synthèse vocale.

Deux sociétés bretonnes innovent dans le domaine de la synthèse vocale. Et donnent une voix aux machines.

Oubliez la voix des androïdes, atone et métallique, des vieux films de science-fiction ! La synthèse vocale développée par la société Voxygen (Lannion) reproduit des voix bien humaines. « Nous enregistrons une personne en studio, elle lit au micro environ 6 000 phrases pendant trois jours, explique Édouard Hinard, le directeur général. Pour synthétiser sa voix, nous prélevons des séquences unitaires (phonèmes) qui sont ensuite assemblées. L’objectif est de faire lire à cette voix n’importe quelle phrase. » Pour découvrir cette technologie d’interface homme-machine, une démonstration amusante est en ligne sur voxygen.fr. Il suffit de choisir l’une des vingt-huit voix et d’écrire une phrase !

Dix ans de recherche

Outre une trentaine de voix francophones, ainsi que des voix anglaises, espagnoles et arabes au catalogue, Voxygen veut développer d’autres langues, dont l’italien et l’allemand. Créée en 2011, l’entreprise est bénéficiaire depuis l’an dernier et consacre 40 % de ses dépenses à la recherche. Elle emploie seize salariés, dont des anciens d’Orange Labs. Sa technologie s’appuie sur un logiciel acheté à Orange Labs, fruit de dix ans de recherche en synthèse vocale.

La voix des malades

Les serveurs vocaux et la téléphonie d’entreprise sont les premières applications. Voxygen a remporté récemment deux appels d’offres, lancés par Météo France et EDF. La voix d’EDF, auparavant assurée par une interlocutrice unique pour toute la France, est désormais une voix de synthèse. Cela permet de créer de nouveaux messages en quelques clics. Les médias sur Internet (voix off d’une vidéo en ligne) ou l’électronique embarquée (GPS, téléphone mobile) constituent d’autres applications. Cette technologie peut aussi intéresser le secteur de la santé. Par le passé, l’équipe de Voxygen a collaboré avec l’hôpital de Saint- Brieuc, pour synthétiser la voix de personnes souffrant d’une maladie dégénérative entraînant la perte de la parole. « Les contraintes sont fortes, car le patient doit rester en studio, se concentrer et être motivé. Mais les applications sont nombreuses dans ce domaine. » Le patient devenu muet fait parler sa propre voix, en écrivant son texte à l’ordinateur ou sur tablette. Des projets sont en cours avec l’hôpital Georges-Pompidou (Paris) et une start-up lilloise.

À Rennes, la société CreaWave développe une autre synthèse vocale innovante. Sa technologie prend également ses racines à Orange Labs (Lannion). Son directeur technique Didier Cadic, docteur en physique, y était ingénieur de recherche durant huit ans. « Après un an de développement, notre technologie est mûre depuis six mois, explique-t-il. Elle permet de générer, à la volée, des voix off de haute qualité. Notre premier marché concerne les jeux vidéo, pour créer des commentaires en temps réel. » Ses autres marchés sont la création d’annonces téléphoniques, pour lesquelles un premier service sera lancé l’automne prochain, et les interfaces vocales des équipements électroniques.

Les jeux vidéo sportifs

À la différence de Voxygen, cette technologie ne met pas en voix n’importe quelle liste de mots. Les phrases potentiellement prononcées s’inscrivent dans un contexte défini selon une syntaxe précise. « Nous partons d’un ensemble de scénarios vocaux, explique Didier Cadic. Nous enregistrons un comédien et obtenons une base de données vocale de phrases. Les paroles sont segmentées et recombinées en temps réel, pour créer de nouveaux échantillons sonores. » Contrairement à un jeu vidéo classique, pour lequel le comédien n’enregistre qu’un nombre limité de phrases, cette technologie permet une grande combinaison de voix off. Et surtout, ces paroles sont très fluides et expressives : comment croire que ce commentaire, qui s’accentue parfaitement, n’a pas été enregistré d’un seul tenant ? Dans un jeu vidéo de sport, la voix donne ainsi le score précis, tout en restituant la montée d’adrénaline ou la déception navrée. CreaWave est aujourd’hui en contact avec plusieurs studios de jeux vidéo dans le monde.

Nicolas Guillas

TOUT LE DOSSIER

Abonnez-vous à la newsletter
du magazine Sciences Ouest

Suivez Sciences Ouest