Technologie de reconnaissance vocale: utile ou douloureuse?

Auteur: Judy Howell
Date De Création: 28 Juillet 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Projet Domotique Arduino Reconnaissance vocale | Simple, Peu couteux #1
Vidéo: Projet Domotique Arduino Reconnaissance vocale | Simple, Peu couteux #1

Contenu


À emporter:

Interagir avec l'électronique conversationnelle devient de plus en plus courant - et nécessaire. Mais jusqu'à présent, les résultats sont décidément mitigés.

Avez-vous déjà appelé une entreprise pour obtenir de l’aide ou pour payer votre facture, pour être accueilli par une voix agréablement enregistrée qui souhaite discuter avec vous - mais vous ne pouvez pas comprendre la moitié de ce que vous dites? Ou peut-être possédez-vous un iPhone, et bien que Siri ait d'abord semblé être un bon allié, vous en êtes venu à réaliser que parfois (OK, soyons honnêtes, souvent), elle ne l'obtient tout simplement pas? La technologie de reconnaissance vocale (VRT), également connue sous le nom de parole à parole, tombe dans un piège commun: elle a le potentiel d'être incroyablement cool (et nous le recherchons), mais le plus souvent, c'est un exercice qui grince des dents. dans la frustration.

Une idée qui appartenait au domaine de la science-fiction, la reconnaissance vocale a grandi depuis ses balbutiements dans les années 1950, lorsque le système Audrey de Bell Laboratories était conçu pour reconnaître les chiffres prononcés d'une seule voix, au réseau moderne d'électronique conversationnelle avec lequel nous interagissons maintenant. sur une base quotidienne - avec des résultats mitigés.

Pour parler à un humain, veuillez appuyer sur 0

Aujourd'hui, de nombreuses entreprises utilisent des systèmes appelés réponse vocale interactive (IVR) pour traiter les appels de service après-vente. L'utilisation la plus courante consiste à utiliser les menus à navigation vocale, mais certaines entreprises utilisent des systèmes de RVI pouvant accéder aux informations du compte client et répondre à des questions mineures. Le logiciel de RVI de menu a généralement un vocabulaire limité, qui peut être limité à «oui», «non» et aux nombres. Des systèmes plus complexes peuvent reconnaître des mots et des phrases spécifiques à une entreprise.

Ces systèmes gagnent en popularité - du moins pour les entreprises - pour une raison simple: ils sont rentables. Selon un rapport publié en 2010 par le Wall Street Journal, un appel client typique qui parvient à un agent coûte entre 3 $ et 9 $, tandis qu'un appel traité via un système automatisé ne coûte que 5 à 7 cents. Et, bien sûr, les programmes informatiques ne sont pas fatigués, ne tombent pas malades ou ne sont pas frustrés par les clients (même si les clients en sont certainement frustrés!).

Heureusement, cela ne signifie pas toujours que l'IVR supprime les emplois des personnes, ou du moins que toutes les personnes disparaissent des centres d'appels. Ces aides activées par la voix permettent aux représentants du service clientèle humain d’être plus productifs en dirigeant les appels et en répondant à des questions simples.

Bien sûr, pour les utilisateurs humains qui interagissent avec ces technologies, la navigation n’est pas toujours fluide. La technologie contribue à améliorer les problèmes courants de la technologie de RVI, tels que les problèmes d'accents, mais le licenciement de systèmes automatisés reste un thème commun en ligne. Découvrez ce sketch humoristique sur un ascenseur équipé de la reconnaissance vocale, qui met en évidence la frustration que des dysfonctionnements dans les systèmes de RVI peuvent produire.

Applications téléphoniques personnelles: Siri, Google Now

La plupart des gens connaissent la reconnaissance vocale pour les smartphones. Alors que la majorité des derniers modèles de téléphones sont livrés avec la réalité virtuelle, leur popularité - et leur notoriété - ont augmenté lorsque Apple a introduit Siri, "assistant personnel" légèrement sarcastique et activé par la voix pour l'iPhone 4S en 2011. Google a rapidement créé un concurrent direct: Google Maintenant, pour le système d'exploitation Android Jelly Bean. Les deux systèmes comportent des voix féminines et des fonctions de reconnaissance sophistiquées qui permettent aux utilisateurs de "parler" à leur téléphone en utilisant un langage simple.

Mais si ces systèmes sont considérablement plus sophistiqués et fonctionnels que leurs prédécesseurs, ils montrent également que la technologie a encore beaucoup de chemin à parcourir. Les blagues sur l’échec de Siris sont devenues un message Internet populaire. Un homme a même poursuivi Apple pour publicité mensongère concernant les capacités de Siris.

C’est peut-être pour cette raison que, si Apple a créé Siri pour être évolué et informatif, le logiciel de VR est également un peu impertinent. Par exemple, si vous parlez de l’une des lignes de technologie de renseignement les plus tristement célèbres de l’histoire du cinéma tirée du film "2001: une odyssée de l’espace" - "ouvrez les portes de la baie" - Siri répondra soit avec la ligne de réponse du film, " Je suis désolé (votre nom), j'ai bien peur de ne pas pouvoir le faire, "ou plus sarcastique," nous, les agents du renseignement, ne vivrons jamais ça, apparemment. "

Vous appeler par votre nom n’est que l’une des fonctions permettant de rendre Siri plus facile à aimer et un peu plus humaine. L’assistant de réalité virtuelle peut suivre les commandes vocales pour passer des appels, prendre des dictées, effectuer des recherches d’informations sur Internet, rechercher des magasins à proximité, indiquer un itinéraire, etc. sans avoir à toucher à rien. Les réponses sont simultanément prononcées par le téléphone et affichées à l'écran.

Google Now, la partie VR de la plateforme Android Jelly Bean, est très similaire à Siri. Le système offre les mêmes capacités de reconnaissance étendues en traduisant le discours ordinaire en commandes qui permettent aux utilisateurs de passer des appels, d'effectuer des recherches, d'effectuer des calculs et des conversions, de saisir des définitions de mots, de définir des alarmes, de lire des chansons et d'obtenir des cartes et des itinéraires.

Avec les assistants personnels tels que Siri et Google Now, les avantages sont évidents. Tout, des appels à la recherche en passant par les divertissements, est plus rapide et plus facile. Dites simplement ce que vous voulez et (la plupart du temps), l'application VR la saisira pour vous. La technologie mains libres de la réalité virtuelle est particulièrement utile pendant la conduite. Et si de nombreuses personnes ont décrié les failles de Siris et que des auteurs ont affirmé que la capacité de Google Nows à gérer la vie de ses utilisateurs est à la fois un peu effrayante, la plupart des gens pensent encore que ces technologies futuristes sont plutôt cool.

Bien entendu, les applications de téléphonie personnelle telles que Siri et Google Now sont loin d'être parfaites, même si elles indiquent la direction que cette technologie pourrait prendre à l'avenir. Cela signifie que même lorsque Siri se trompait, risquait de rire et de la pardonner, sachant que la prochaine version serait bien meilleure.

Où VR tombe à plat

Si vous avez déjà rencontré un RVI lorsque vous avez appelé une entreprise, vous avez peut-être remarqué certains obstacles à la communication. Certains programmes utilisent une voix robotique qui élabore mal les mots et rend les choses difficiles à comprendre. D'autres ont des problèmes de sensibilité qui empêchent le logiciel de traiter ce que vous dites si vous êtes trop fort, trop faible ou ne pas énoncer avec soin.

En outre, beaucoup de gens ne se sentent toujours pas à l'aise pour parler à une machine. Si vous effectuez quelques recherches sur l'IVR, vous rencontrerez des listes que les gens ont rassemblées pour contourner les systèmes d'IVR et parvenir à une "personne réelle". Ces solutions vont de "continue d'appuyer sur 0 pour un opérateur" à "jure sur la machine jusqu'à ce qu'elle recherche un être humain". En conséquence, une grande partie du développement récent des systèmes de RVI a été axée sur l’amélioration de leur goût pour les humains; rendre les voix plus compréhensives et moins robotiques, rendre le système plus facile à naviguer et informer les appelants du temps que tout cela prendra du début à la fin. Cela suggère que la meilleure technologie n'est que la moitié de la bataille ici; L'autre moitié amène les utilisateurs à bord et leur permet de parler à une machine.

Ce que l'avenir nous réserve

Malgré ces difficultés, la technologie de reconnaissance vocale s’améliore constamment. Des applications telles que Siri et Google Now - les défauts et tous - ont toujours des performances extraordinairement impressionnantes, et plusieurs entreprises étendent les fonctionnalités de réalité virtuelle à d'autres applications.

Par exemple, Nuance, les créateurs de synthèse vocale de Dragon NaturallySpeaking, a déjà mis au point des commandes vocales pour les téléviseurs et les automobiles, et des versions de cette technologie sont intégrées à certains téléviseurs Samsung et aux systèmes de divertissement SYNC utilisés dans certains véhicules Ford.

Et, tandis que Google et Apple continuent de trouver de nouveaux usages pour leurs technologies de reconnaissance vocale, il est probable que de plus en plus de gens s’adressent à toutes sortes de machines de la vie quotidienne, des téléviseurs aux grille-pain. Et, encore une fois, il semble que la science-fiction ait eu raison. Il faut bien espérer que ces intelligents écrivains se sont trompés sur un point. Si ces machines prennent le relais, la prochaine fois que vous demanderez à Siri «d'ouvrir les portes de la baie à dosettes», vous risquez d'avoir de gros problèmes.