24/10/2022
Par binternet
491 Vues

Déchiffrée, contrefaite, modifiée : les métamorphoses de la voix<

Une folle arnaque a récemment défrayé la chronique. En septembre dernier, le Wall Street Journal révélait qu’en mars des aigrefins avaient ravi la coquette somme de 220 000 euros à une entreprise britannique. Comment ? En simulant la voix du dirigeant de la maison mère allemande. La victime britannique avait reçu un appel téléphonique de son – faux – patron, lui ordonnant d’effectuer en urgence un virement sur un compte hongrois. Cette voix artificielle imitait l’accent germanique du patron et ses intonations. « Le résultat n’est pas parfait, mais peut faire illusion dans un environnement sonore perturbé », confiait au Monde Jean-Baptiste Mounier, salarié d’Euler Hermes, l’assureur qui a divulgué l’affaire au Wall Street Journal. Déchiffrée, contrefaite, modifiée : les métamorphoses de la voix

Lire aussi « Deepfake » : dupée par une voix synthétique, une entreprise se fait dérober 220 000 euros

Les escrocs ont-ils eu recours à une intelligence artificielle (IA) pour créer une voix de synthèse ? Ont-ils fait appel à des procédures de deep learning (« apprentissage profond »), à partir d’un discours enregistré dudit patron ? Les experts n’y croient guère – notamment parmi ceux qui ont fait profession de manipuler en tous sens la voix humaine.

Un ballet de musiciens-chercheurs

Déchiffrée, contrefaite, modifiée : les métamorphoses de la voix

Place Igor-Stravinsky, à Paris. La clé de sol veille, flanquée de la monumentale Nana et des grands automates de métal. Baigné par l’ombre tutélaire du Centre Pompidou, l’Oiseau de feu les contemple. L’Amour, de sa bouche écarlate, nous invite à plonger en sous-sol. Nous voici donc sous la fameuse fontaine de Jean Tinguely et Niki de Saint Phalle. Nous pénétrons dans les laboratoires de l’Ircam (Institut de recherche et de coordination acoustique-musique). Là, tout un ballet de musiciens-chercheurs s’active. Sous terre, pour limiter tout bruit parasite. C’est que cet institut, fondé par Pierre Boulez en 1970, est consacré à la création musicale contemporaine. Mais aussi au décodage, à la transformation et à la synthèse de la voix parlée ou chantée. Un centre unique, par sa dimension et son rayonnement, qui mêle art, science et technologies.

Transformer à façon la voix humaine ? La transfigurer, voire la contrefaire ? Voilà de quoi troubler, tant notre voix nous semble une part intime de notre identité. Tant chaque voix nous semble singulière. Mais alors, l’arnaque à la voix truquée, qui s’ajoute à d’autres escroqueries vocales ? « Nous avons de forts doutes sur l’utilisation d’une intelligence artificielle dans ce contexte, explique Axel Roebel, responsable de l’équipe Analyse et synthèse des sons de l’Ircam (CNRS-Sorbonne université). Pour le moment, les agents conversationnels – l’Alexa d’Amazon, par exemple – sont capables de mener un dialogue mais ils manquent beaucoup d’expressivité. Avec de tels agents, imiter l’intonation et l’accent allemand d’une personne, dans un contexte de dialogue ouvert, me semble aujourd’hui impossible. »

Il vous reste 84.35% de cet article à lire. La suite est réservée aux abonnés.