Alors que l’application Amazon Alexa vient de débarquer en France – en amont de l’arrivée sur le marché de son  terminal Echo, disponible dès le 13 juin –, le navigateur web Mozilla annonce le lancement de son projet Common Voice en allemand, français et gallois. L’initiative, qui existait déjà en anglais depuis un an, consiste à récolter de manière participative une base de données de voix humaines exploitable par des technologies de reconnaissance vocale. Face aux géants Google, Apple, Amazon et IBM, des alternatives fleurissent sur le champ des assistants vocaux. Parmi elles, Snips, une technologie indépendante du cloud et donc private by design

« En résumé, pour deux mille treize, ce prélèvement atteint vingt-deux virgule deux milliards d’euros. » C’est avec cette phrase, chiffrée et alambiquée, que vous pouviez, en ce 11 juin 2018, donner votre voix à Common Voice, le projet voix de Mozilla.


La semaine passée, alors qu’Amazon annonçait l’arrivée de son application Alexa en Français après plus de trois ans de développement (le terminal Echo sera disponible sur le marché Français dès mercredi 13 juin), le navigateur web Mozilla lançait son projet Common Voice en Allemand, Français et Gallois. L’initiative Deep Speech, qui existait déjà en Anglais depuis plus d’un an, consiste à récolter de manière participative une base de données de voix humaines exploitable par des technologiques de reconnaissance vocale.

« Nous avons constaté l’arrivée des assistants vocaux aux mains de Google, Amazon, ou IBM. Ces solutions sont onéreuses pour les entreprises », retrace Sylvestre Ledru, responsable du bureau français de Mozilla.  

Alternatives à IBM, Apple, Google et Amazon

Et en effet, en 2018, chacun cherche sa voix. Chez IBM, elle passe par Watson, pour Apple c’est Siri, Amazon propose  Alexa, et Google a son assistant. « La guerre des assistants vocaux commence aujourd’hui en France », indique en préambule, Yann Lechelle, COO de Snips. « Après Alexa, qui a mis du temps à arriver, tous les GAFA vont vouloir se positionner. C’est une guerre absolue qui va se dérouler : comme avec l’oligopole iOS et Android pour le smartphone, les GAFA, ici Google, Amazon et Apple, vont vouloir se partager le gâteau des smartspeakers. » Or, selon Yann Lechelle, ni les smartphones, ni les assistants vocaux ne sont intelligents, c’est Google qui l’est.

« Centralisés dans le cloud, ces acteurs ont une puissance déraisonnable », ajoute-t-il, craignant qu’Alexa remporte la mise. « La force d’Amazon est d’être dans le e-commerce. Si son assistant vocal est installé dans la cuisine, l’utilisateur va prendre l’habitude de lui dicter sa liste de courses. Quand il s’agira de faire une recherche par la voix, il passera automatiquement par Alexa. »   

Les géants sont en train de s’accaparer les nouveaux terrains de jeu que sont la reconnaissance vocale et les assistants vocaux. « Il faut que les utilisateurs soient conscients de ce qu’ils leur donnent », insiste Yann Lechelle. Pour éviter cet oligopole, et parce que leurs valeurs sont sensiblement différentes, certains acteurs de la tech font fleurir des alternatives à la voix des GAFA.

Le mois dernier sur forbes.fr, Rand Hindi, fondateur de Snips, assumait ce qu’il nomme une « position idéologique ». « Les gens en ont marre des GAFA. Aujourd’hui, avec l’arrivée du RGDP, tout le monde panique ! Nous avons désormais un avantage : nous proposons déjà une technologie embarquée, 100% privacy by design, et notre technologie est en open source. »

Ainsi, Snips développe une « technologie souveraine ». Un assistant vocal en local, hors du cloud. Proposée en marque blanche, l’assistant a la force d’être contextualisé à chaque objet. « Du point de vue du consommateur, Snips empêche les dérives. Du point de vue des intégrateurs, nous leur mettons à disposition une technologie qui leur permet de ne plus dépendre de Google. »  

Snips, qui a largement acheté des données pour nourrir sa technologie, salue la « démarche salutaire » de Mozilla avec Common Voice.  

40 langues et autant d’accents

Avec Common Voice, l’organisme à but non lucratif veut en effet permettre aux internautes du monde entier de donner leur voix afin de constituer une base de données libre. « Nous voulons engranger 10 000 heures d’audio avec tous les types d’accents, d’âges et de sexes », souligne Sylvestre Ledru selon lequel « les géants du secteur ne travaillent pas sur de multiples langues, or, nous avons du breton sur Firefox et 80 langues au total », souligne-t-il. L’objectif pour Common Voice étant de collecter rapidement une quarantaine de langues.

Mozilla, fidèle à sa démarche libre et gratuite, fait donc le pari du participatif dans cette bataille de la voix, allant à rebours de Google Assistant, Alexa et consort qui s’appuient sur des bases de données privées.

« Mes chers collègues, je vous demande de suspendre la séance quelques minutes. » « Monsieur le premier Ministre, vous connaissez la souffrance de la Bretagne », nous demande de répéter Common Voice. Loin, bien loin de la manière dont s’exprime au quotidien un francophone, peu importe son accent. Pour obtenir des corpus de textes libres de droits, Mozilla a fait appel à l’Assemblée Nationale pour récolter des retranscriptions de débats parlementaires. Sylvestre Ledru l’accorde, ce n’est pas exactement proche de l’oralité. Mais le corpus est amené à s’élargir avec des tournures de phrases plus contemporaines.

Toutes ces voix seront ensuite analysées par DeepSpeech, le projet de compréhension du langage de Mozilla. Grâce à la communauté, Mozilla espère aller plus vite qu’Amazon pour constituer une base de données en français.

De son côté, Snips a annoncé à VivaTech son ICO ainsi que le lancement de son premier produit grand public, Snips Air, un assistant vocal « private by design », décentralisé et open source fonctionnant sur la Blockchain.