Echo, l’assistant personnel d’Amazon sait qu’il vous suffit de dire « Alexa » pour le réveiller. Mais techniquement, il ne sait pas faire la différence entre deux personnes qui murmurent dans le coin d’une pièce et une discussion à la radio. 

Mais une petite entreprise située à Cambridge, au Royaume-Uni, a dédié dix années à l’élaboration d’un tout nouveau langage de sons qui, pour la première fois, permettra aux machines de reconnaître les sons du langage humain.


Mais alors vous vous dites que les appareils intelligents reconnaissent déjà les voix, non ? En réalité, ils reconnaissent les mots, d’où la sous catégorie d’intelligence artificielle dédiée au traitement du langage naturel.

Faire la différence entre différents types de sons peut paraître assez facile pour nos oreilles, mais cela n’a été possible que grâce à des milliers d’années d’évolution. Et reproduire la même chose sur une machine est bien plus difficile.

Audio Analytic, qui a levé plus de 5,5 millions de dollars de fonds grâce à un financement à risque, vend sa bibliothèque de « profils de sons » aux fabricants d’appareils tels que Cisco, Intel et d’autres. Ce mercredi, l’entreprise expliquait qu’elle allait rendre disponible à ses clients son nouveau profil de sons « discours humain ».

Ce qui veut dire qu’un haut-parleur comme Echo d’Amazon ou HomePod d’Apple, peut éventuellement reconnaître le bruit de personnes ayant une conversation et savoir qu’il ne sera pas approprié de les interrompre. 

L’entreprise Audio Analytic est très discrète concernant la plupart de ses clients. Lorsque l’on a demandé à son PDG, Chris Mitchell, si Amazon figurait parmi ses clients, il a refusé de répondre. Si ses clients achètent ce nouveau profil de sons, ils devraient alors pouvoir le déployer sur leurs appareils rapidement. Amazon dispose également d’un laboratoire de recherche et de développement avec des ingénieurs qui planchent sur Alexa à Cambridge.

La capacité d’Alexa de reconnaître la parole humaine a des avantages et des inconvénients, surtout en matière de sécurité. Par exemple, selon de nouvelles recherches partagées avec Forbes cette semaine, les hackers peuvent détourner une compétence d’Alexa en faisant reconnaître au service une commande vocale légèrement incorrecte.

Mais les fabricants d’appareils travaillent à rendre leurs gadgets plus intelligents en leur apprenant comment entendre. Jusqu’à maintenant, la majorité des revenus d’Audio Analytic proviennent de droits de licence. L’entreprise vend des bibliothèques de certains sons qui permettent au machines de reconnaître un aboiement aussi facilement qu’un humain pourrait le faire.

Pour vous donner une idée du temps que cela peut prendre de séquencer ce genre de sons, Audio Analytic en a amassé seulement sept en dix ans d’activité. On retrouve notamment le chien qui aboie, le bris de verre, les pleurs d’un bébé, une cigarette et un détecteur de CO2.

Actuellement, la plupart des systèmes d’assistant à domicile ne peuvent qu’alerter leurs propriétaires par téléphone s’ils détectent un bruit dans la maison, sans savoir s’il s’agit juste du chat qui a fait tombé quelque chose ou d’une mouche qui est passée un peu trop près du micro de l’appareil.

Afin d’élaborer seulement un de ces profils, les équipes de Chris Mitchell ont dû briser des milliers de carreaux de verre dans un laboratoire sonore dédié. Ce processus est même devenu un rite de passage pour les nouveaux venus de l’entreprise : « On les invite à enfiler l’équipement de protection, explique le PDG. L’arme de prédilection, c’est la masse, mais nous en avons essayer beaucoup d’autres et même les marteaux brise-vitre des sorties de secours ».

La startup, qui compte 45 employés, a également bâti une base de données rassemblant un million de sons uniques. Ils l’ont nommée Alexandrie. Chris Mitchell explique qu’elle ne rentre pas en compte dans les activités commerciales de l’entreprise : « c’est notre hobby en quelque sorte ».

Le PDG d’Audio Analytic assure même qu’à l’instar d’Amazon et Google, l’entreprise est à la pointe du domaine du machine listening, un champs académique cousin de la reconnaissance vocale et du traitement de langage naturel : « c’est une nouvelle discipline ». La principale contribution de la startup à ce domaine, c’est une technologie appelée « ideophones ».

« Si vous observez le monde de la parole, une grande partie de la science du langage est structurée autour de la compréhension de l’ordre dans lequel nous disons les mots. Nous contrôlons la manière dont les sons sortent de notre bouche. Cela s’appelle des phonèmes. Ce qu’a fait Audio Analytic, c’est un logiciel d’intelligence artificielle permettant de modéliser les ideophones. Ce sont les blocs de construction de base qui, une fois assemblés, forment les sons ».

Selon Chris Mitchell, une telle sonothèque est près de 50 % plus grande que celle utilisée pour traiter seulement les mots. Et elle pourrait également permettre aux humains de mieux comprendre les sons.

« Hollywood a réussi à convaincre le monde que les choses sonnent d’une certaine manière », plaisante Chris Mitchell. Les profils de sons utilisés pour les sirènes de voiture ou pour les coups de point sont plus sourds au cinéma qu’ils ne le sont dans la vraie vie. Et c’est la même chose pour une vitre qui se brise : « Nous avons dû casser beaucoup de fenêtres. C’est vraiment terrifiant ».