De nos maisons à nos voitures, les assistants vocaux sont en train d’accompagner notre quotidien et d’insérer le digital dans les derniers moments de notre vie où les écrans ne se sont pas encore imposés. Internet deviendra ainsi 100% ambiant.
L’usage a commencé à s’immiscer, notamment avec Siri, OK Google, nos smartphones, etc.
Quel sera l’impact sur notre quotidien ? Comment cela fonctionne-t-il ? Quels impacts pour les entreprises dans leur transformation digitale ?
Le potentiel du marché est énorme (estimé à 13 milliard$ à 2024 ) et les solutions pleuvent : Alexa était présent partout au CES, Walmart propose d’acheter toute sa gamme de produit à partir de Google Home couplé au service Google express, sans oublier Apple HomePod, Alibaba Tmall Genie et la 10ène d’autres solutions à venir d’ici à 2020.
L’arrivé d’outils techniques (API.ai recast, etc…) à destination des développeurs a permis de grandement faciliter le travail de ces derniers. Notamment concernant les algorithmes utilisés pour transformer une phrase dictée en une intention concrète de l’utilisateur vers une action spécifique (donne moi la météo, lance la radio, etc…). Avec ces plateformes, le déclenchement de l’action liée à l’intention n’est plus alors qu’un travail de développement “classique”, l’intelligence de compréhension étant portée par ces plateformes.
De plus les infrastructures et les capacités de calcul ont permis de rendre l’usage fluide et l’interaction vocale “naturelle”.

Mais pour quels usages ?
Certains se souviendront de K2000, la série des années 90 qui était capable d’interagir à la voix de son propriétaire ou encore des films de sciences fictions où l’on pouvait piloter son environnement avec la voix.
Aujourd’hui, nous y sommes ! Enfin presque…
En effet, les possibilités au quotidien se résument réellement à demander l’heure, la météo et mettre une musique ou une radio.
Toutefois les perspectives sont exponentielles. En effet, chaque plateforme permet d’augmenter ses compétences en se connectant à des services extérieurs.
Si vous possédez un objet connecté (volet connecté, thermostat connecté, télévision connectée, etc.) il est fort probable que vous puissiez l’interfacer à votre assistant vocal et permettre ainsi de le piloter par la voix.
Ce pilotage est rendu possible grâce à des connecteurs, des portes vers ces objets à travers internet : les APIs (Application Programming Interface). Elle permettent de créer le pont entre les demandes vocales et ces objets connectés.
De plus, les compétences de ces assistants se “nourrissent” des interactions de l’ensemble des assistants, ce qui permet de faire croire leur champ de compétence de manière exponentielle.
Une réelle opportunités pour les entreprises ?
L’expérience vocale se distingue des interfaces traditionnelles (web, mobile, etc.) dans le sens où elles sont ouvertes. Là où une interface “écran” contraint les utilisateurs à naviguer pour découvrir les fonctionnalités (ce qui contraint bien souvent à créer des : onboarding pour expliquer à l’utilisateur ce qu’il peut faire) et limite l’usage aux fonctionnalités présentées. L’usage vocal, lui, se veut ouvert dans le sens où l’utilisateur peut demander selon ses envies et non selon les contours définis par l’interface proposée.
Si la demande de l’utilisateur n’est pas satisfaite car il n’existe pas de réponse prévue dans l’assistant vocal, il est ainsi possible pour l’entreprise de récupérer ces requêtes et d’y attribuer des réponses adaptées pour enrichir l’expérience utilisateur.
Avantage direct pour les entreprises : Fini les enquêtes pour être au plus proche de l’utilisateur, les demandes viennent de ce dernier, construisant de fait, la roadmap des évolutions nécessaire aux utilisateurs.
Dans un monde digital où l’usage et l’expérience client deviennent les nouveaux fondamentaux de la création de valeur, connaitre les attentes de ses utilisateurs, en temps réel, constitue un avantage indéniable pour les entreprises.
Pour apporter une réponse adaptée à ces attentes, il s’agira bien souvent de développer de nouvelles API qui permettront à l’assistant de piocher les réponses dans les données des sociétés.
Les constructeurs de ces assistants peuvent toutefois s’appuyer sur les nombreuses applications mobile que les entreprises ont déjà mise en place, qui permettent d’imaginer des premières fonctions.
Attention toutefois aux entreprises qui n’aurait pas bien travailler leur socle d’API : il sera plus difficile de rattraper le retard et Google sanctionne les API non performantes (temps de rép > à 3sec)
Ainsi les entreprises ayant entamé une stratégie d’ouverture de leurs données par API auront un avantage face à leurs concurrents, notamment dans la relation avec leurs clients.
En effet, la question de la relation de l’utilisateur avec la marque se pose ici car il n’y a plus de visuel, plus de logo, seule la qualité de la proposition vocale comptera.
Ceci laisse présager une nouvelle bataille pour être le premier à installer l’usage vocal chez ses clients. En effet, si j’ai pris l’habitude de dire : Bonduelle : donne moi les étapes de la recette “Salade César”, il y a fort à parier que le réflexe s’installera chez l’utilisateur pour demander une recette à Bonduelle.
Dès lors, une course s’installe où le premier arrivé à tout à gagner pour établir une relation plus durable, plus proche avec ses clients en les accompagnant dans leurs quotidiens.
Et comme pour le reste du monde digital, c’est bien la qualité de l’expérience proposée qui primera pour l’utilisateur.
Les maîtres-mots restent donc :
- Simplicité (avec une compréhension rapide de l’attente suite à une demande)
- Rapidité (pas de latence, la réponse doit être fourni en – de 3 secondes)
- Pertinence (pas de navigation, la réponse doit être personnalisée et adaptée).
Le métier traditionnel de l’UX doit donc évoluer vers la compréhension des intentions (vocales) de l’utilisateur pour la transformer en action.
Comment en effet transformer le canal vocal en un canal de navigation ?
Là où jusqu’à présent, les standards pour naviguer dans le monde digital était écrit, dans le monde vocal, tout est à imaginer !
Ainsi le travail de priorisation de l’information pour l’exposer de manière synthétique ou sous la forme d’un séquencement de questions adéquates sera primordial. Personne ne s’imagine faire ses courses en écoutant l’énumération de ses articles ! Par contre un parcours du type :
- Bonjour Alexandre, j’ai sélectionné les articles suivant sur la base de vos habitudes d’achat, j’ai également pensé que vous pourriez avoir besoin de café.
- Parmi les promotions, j’ai sélectionné celle-ci pour vous :
Allez vous recevoir des amis ce weekend? Dans ce cas, je vous conseille la catégorie Barbecue. - Qu’est ce qu’il y a de nouveau dans la catégorie chocolats
Finalement, les expériences vocales devront se rapprocher de la meilleure expérience que l’on pourrait avoir avec un conseiller hyper spécialisé dans l’activité de l’entreprise en question.
Qui a parlé de réhumanisation dans la relation digitale ? 😉
Perspectives pour demain ?
Aujourd’hui, les interfaces vocales nécessitent d’associer l’appareil à un compte utilisateur pour fonctionner.
Demain, les outils de reconnaissance vocale seront capables d’identifier la signature numérique de la voix, ce qui permettra d’identifier n’importe qui sur n’importe quel appareil.
Vous pourrez ainsi de manière transparente, commander votre billet de train depuis le Google Home d’un de vos amis ou encore lui faire un virement totalement sécurisé. L’intérêt résidera dans la continuité de la communication entre vous et votre assistant vocal, quelque soit l’appareil (en voiture, chez vous, ailleurs) l’interface vocale vous reconnaîtra et y associera votre assistant vocal habituel (avec le contexte historique de vos échanges).
Il n’est pas également impossible que demain, il soit possible de capter l’émotion, l’humeur dans la voix pour que la proposition vocale suggérée à l’utilisateur soit adaptée en conséquence (une musique adaptée, des produits alimentaires pour remonter le moral, la lecture d’un livre conseillé, etc…)
Beaucoup reste encore à faire, notamment pour assurer une continuité de fonctionnement entre notre smartphone et l’assistant vocal. Mais Il y a surtout à faire dans l’adaptation de l’usage en fonction de la connaissance fine de l’utilisateur pour lui faire des propositions hyper ciblées ! Bref en étant quasiment capable de comprendre les pensées de l’utilisateur, anticiper ses envies afin de lui proposer la bonne communication, au bon moment.
On disait qu’une image vaut mille mots, dans les prochaines années, avec le vocal, il faudra peut être revoir l’adage…