Il faut aujourd’hui seulement 3,7 secondes d’audio afin de cloner votre voix. Cette annonce impressionnante mais aussi quelque peu inquiétante a été émise par le géant chinois de la tech Baidu. Il y a un an, l’outil de cette entreprise appelé Deep Voice nécessitait 30 minutes d’audio afin de pouvoir cloner une voix humaine. Les prouesses de l’intelligence artificielle permettent désormais une évolution technologique de plus en plus réaliste.

Les capacités de l’intelligence artificielle en matière de clonage de voix.


Comme tous les algorithmes de l’intelligence artificielle, plus les outils de clonage comme Deep Voice reçoivent de donnés plus le résultat devient réaliste. Lorsque l’on écoute plusieurs exemples de voix artificielles, on remarque tout ce que la technologie peut mettre à l’œuvre, comme par exemple changer le sexe de la voix, les types d’accents et même les types de langages.

Google a dévoilé Tacotron 2, un système de voix artificielle exploitant deux réseaux de neurones artificiels et la technologie vocale WaveNet. WaveNet divise le texte audio en séquences et transforme chaque séquence en spectrogramme afin de générer une voix. Il est notamment utilisé pour générer la voix de l’Assistant Google. L’itération technologique est tellement performante qu’il devient presque impossible de distinguer une voix artificielle d’une voix humaine. Un algorithme peut désormais assimiler la prononciation de mots et de noms complexes, une avancée qui entraîne une non-différenciation entre un humain et une machine.

Les avancés de Google en la matière ont permis à l’Assistant Google de pouvoir imiter des voix de célébrités. La voix du chanteur John Legend est désormais une option utilisable sur tous les supports possédant l’Assistant Google, par exemple Google Home ou sur smartphones. La voix artificielle répondra seulement à certaines questions simples comme « Quel temps fait-il dehors ? », « A quelle distance se trouve la lune ? » et peut également chanter joyeux anniversaire. Google prévoit de programmer des nouvelles voix de célébrités.

Un autre exemple montrant la précision de la technologie actuelle, celui de la voix presque identique de Jordan Peterson (l’auteur de 12 Règles Pour Une Vie) rappant sur la chanson d’Eminem « Lose Yourself ». Le créateur de cette voix artificielle a seulement eu besoin d’utiliser six heures d’audio de Peterson pour pouvoir créer la totalité de l’algorithme de la voix artificielle. Il n’y a qu’à l’écouter pour juger.

Cette technologie de pointe a ouvert les portes aux entreprises comme Lyrebird afin de fournir de nouveaux objets connectés. Lyrebird l’utilise afin de créer des voix artificielles pour les livres audios, les jeux-vidéos, les chatbots et bien plus encore. Ils reconnaissent néanmoins que « les grandes innovations s’accompagnent de grandes responsabilités », soulignant le fait que tous les pionniers en la matière doivent être à l’affût de tout usage abusif de cette technologie.

Une technologie non sans risques.

Comme toutes autres technologies, les voix artificielles peuvent avoir de nombreux avantages mais également des inconvénients pouvant induire les utilisateurs en erreur. En partie grâce au fait que l’intelligence artificielle devient de plus en plus perfectionnée et qu’il devient difficile de discerner le réel et l’artificiel, cette technologie va devenir de plus en plus réaliste.

Selon les chercheurs, notre cerveau ne distingue presque pas les différences entre les voix réelles et artificielles. En effet, notre cerveau a beaucoup plus de mal à distinguer les fausses voix qu’à détecter les fausses images.

Maintenant que ces systèmes d’intelligence artificielle n’ont besoin que de très peu d’audio afin de créer une voix viable imitant l’intonation et le style de voix d’une personne, les risques d’utilisation abusive s’accroissent. Jusqu’à présent, les chercheurs n’ont pas été en mesure d’établir comment un cerveau et ses neurones font pour pouvoir distinguer le vrai du faux. Réfléchissez à la façon dont des voix artificielles peuvent être utilisées dans une interview, un reportage ou une conférence de presse en faisant croire aux auditeurs qu’ils écoutent un vrai homme politique ou bien un PDG d’entreprise.

Sensibiliser les personnes à l’existence de cette prouesse technologique sera la première étape pour protéger les utilisateurs afin qu’ils ne soient pas induits en erreur lorsqu’une voix artificielle est utilisée. Le vrai danger est là au moment où des personnes peuvent se laisser tromper par cette voix qui semble tout à fait réelle et pouvant leur dire quoi faire. Certaines personnes essayent tout de même de trouver des solutions afin de protéger les utilisateurs. Cependant, une solution technique ne sera jamais 100% infaillible. La capacité à évaluer d’un œil critique une situation ou de vérifier la source des informations et sa véracité deviendra dès lors essentielle.