Photo en Une : © D.R

Cet article est intialement paru dans le numéro 216 de Trax (disponible ici)

Texte : Fouad Bencheman

Gérer tout notre quotidien à la seule injonction de notre voix. Les horaires de bus, notre agenda, la liste de courses ou l’intensité de l’éclairage de notre chambre. En sortant de la conférence de presse tenue par Google fin août, difficile de ne pas être enthousiaste en repartant avec un produit en test sous le bras, la Home Max. Après une installation aisée, une synchronisation avec nos applications tierces, l’objet trône fièrement dans le salon, prêt à répondre à nos moindres doléances. Afin de se faire une idée globale du marché des assistants vocaux disponibles en France, une demande est envoyée dans la foulée à Amazon (Echo Spot) et Apple (HomePod) pour tester leurs produits.

Pour Facebook et Microsoft, il faudra patienter. Le premier vient tout juste d’annoncer son enceinte Portal, disponible seulement aux États-Unis pour le moment, tandis que le second devrait entrer dans la bataille d’ici 2020. En tout cas, aucune majuscule ne manque à l’appel. Les Gafam (Google, Amazon, Facebook, Apple, Microsoft) s’engouffrent quasiment au même moment dans la brèche des assistants intelligents. Un tel timing paraît presque suspect. Pourquoi Amazon se lance-t-il soudain dans la construction d'une enceinte de salon grand public ? D’un point de vue sonore, ces objets n’ont pourtant rien d’extraordinaire. D’autant que la plupart des « vrais » constructeurs (Sonos, JBL, Bose, Denon…) intègrent maintenant ces assistants sur leurs nouveaux produits. Histoire de « rester compétitif et de proposer un service en plus », avoue à demi-mot un dirigeant du secteur.

L’interface vocale se démultiplie donc partout autour de nous, jusqu’à bientôt intégrer, pour l’Alexa d’Amazon, des applications pour voiture ou four micro-ondes. L’IA qui contrôle ces assistants n’est pas encore mature mais suffisamment aboutie pour répondre à des besoins basiques comme la recherche d’infos, une commande, du streaming musique ou de la domotique basique. Mais pour Benoît Rébus, responsable partenariats chez Qobuz, nous simplifier la vie n’est qu’un prétexte. « Le but des Gafam n’a rien à voir avec la musique. Ils veulent simplement installer leurs écosystèmes au cœur de notre maison. Il suffit de regarder les prix ultra-attractifs de ces produits. Ces majordomes vocaux sont au service de leurs canaux de vente. »

Le véritable objectif : un profilage publicitaire millimétré

Équipées de micros toujours ouverts, ces enceintes analysent nos requêtes et les moulinent afin de mieux nous connaître, selon le principe du machine learning. Pourtant, même s’ils ne sont pas définis dans leurs moindres contours, les business models de ces assistants pourraient cacher d’autres enjeux, dont celui du « shopping vocal ». D’ici 2022, le chiffre d’affaires mondial de ce secteur devrait générer plus de 40 milliards de dollars, contre « seulement » 2 milliards aujourd’hui (estimations du cabinet OC&C Strategy Consultants, 2018). Selon Carolina Milanesi, experte au sein du cabinet Creative Strategies, derrière cette stratégie se cache un dévoiement sournois de nos usages : « En réduisant l’achat à un acte presque ludique, la commande vocale rend la consommation plus facile et plus régulière. La suggestion sonore est moins frontale, plus subliminale encore que l’image. Si les géants de la tech se donnent autant de mal pour que leur IA ressemble à un humain, c’est pour instaurer une force de vente empathique et intime. En marketing, on appelle cela l’écoute active. »

 “ L’assistant vocal permet de faire sauter le dernier rempart face aux entreprises du Net, le verrou affectif. „  L’écrivain Alain Damasio

« L'enceinte connectée est pour Amazon un nouveau canal de vente en ligne », commentait fin 2017 Philippe Pestanes, spécialiste médias au sein du cabinet Wavestone, au Journal du Net. La firme de Jeff Bezos remplace ainsi la fonction achat « 1-click » par la voix.  « Pour Apple, cet objet doit fournir des contenus, notamment musicaux, donc booster le nombre d'abonnements à des services comme Apple Music. » Tout en continuant de fonctionner en circuit fermé – Siri n’est disponible que sur ses produits –, Apple maximise la monétisation de son audience via la musique, et probablement un futur Apple Store vocal. Google, enfin, prolongerait sa recette « gratuit/publicitaire » en suivant trois axes : le « display vocal », soit des pubs intégrées aux contenus des applis vocales ; le « Adwords vocal », où l’achat de mots-clés permet aux annonceurs de mieux ressortir lors d’une recherche ; et, à terme, en commercialisant de nouveaux services ou produits en fonction de nos besoins, de nos usages, voire de nos humeurs, via la collecte de nos données personnelles. C’est en tout cas la conviction du cabinet Argh Labs, qui propose déjà d’accompagner les annonceurs vers une stratégie « voice first ».

La pensée critique menacée

Pour l’écrivain d’anticipation Alain Damasio, les enjeux de cette évolution des usages dépassent le secteur du retail mondial. Ce sont les concepts de vie privée et de liberté individuelle qui sont écornés par cet objet connecté en apparence anodin. « En imposant une interface unique, les Gafam n’éparpillent plus les données qu’ils récoltent sur plusieurs machines. L’assistant vocal devenu notre alter ego digital, la voix permet de faire sauter le dernier rempart face aux entreprises du Net, le verrou affectif. Celles-ci sont en train d’installer une seule porte d’entrée vers nos vies à des fins commerciales avec un degré d’obscénité inégalé , tonne l’auteur au téléphone. L’enceinte intelligente ne serait donc qu’un moyen supplémentaire pour « pousser à la consommation ». Soit. Mais n’est-ce pas déjà le cas des interfaces que sont nos smartphones, les réseaux sociaux et la barre de recherche Google ? Pour certains spécialistes, cette révolution vocale pourrait aller plus loin, jusqu’à mettre à mal notre capacité à formuler une pensée critique.


Ce n’est pas ce qui frappe de prime abord, mais les enceintes intelligentes n’ont pas d’interface graphique. Question de praticité, de design ou pur hasard, cela pourrait en tout cas poser quelques questions d’éthique. Car si une recherche sur le Net propose aujourd’hui une variété de résultats (certes hiérarchisés), la réponse d’un assistant vocal est unique, peu importe la question. Bien sûr, demander son trajet en métro ne nécessite que d’indiquer l’itinéraire le plus court. Mais quelle réponse apporter à une recherche sur un fait historique, politique ou d’actualité ? Pour Guillaume Champeau, ancien rédacteur en chef du site spécialisé Numerama, aujourd’hui directeur des affaires juridiques du moteur de recherche éthique Qwant, il s’agit d’un risque réel pour notre société. « Nous allons perdre le réflexe de vérifier une information. Depuis plus de vingt ans sur le Web, pour une même question, il existe une multitude de résultats, ce qui alimente les débats et permet de se faire une opinion. Car la vérité est plurielle et cela, l'assistant vocal ne saura jamais le reproduire. Demandez à votre assistant : que s’est-il passé en Russie en 2018 ? Il répondra : la Coupe du monde de foot. C’est une façon de voir les choses… »