Quelle est la difference entre speech to text et chatbots?

Vidéo: Intelligent chatbots | Sophie Hundertmark | TEDxHochschuleLuzern

Contenu

Q:
UNE:

Q:

Quelle est la difference entre speech to et chatbots?

UNE:

Les nombreuses différences significatives entre les technologies de parole aux technologies et les chatbots font partie des éléments examinés dans l'évolution rapide des projets chatbot et voicebot.

Une technologie de conversion de parole en technologie convertit simplement la parole verbale en une page numérique. C’est toute sa fonction, mais ce n’est pas simple à concevoir. Afin de convertir un discours verbal en, la technologie doit diviser des mots et des phrases en phonèmes individuels et travailler avec eux selon des algorithmes complexes, afin de créer une synthèse qui corresponde à ce que dit le locuteur.

Les chatbots, en revanche, sont des technologies qui permettent de communiquer avec un humain. Il existe deux types de chatbots: les chatbots et les voicebots. Les chatbots existent depuis beaucoup plus longtemps, car ils n'ont pas besoin de la synthèse vocale utilisée par les Voicebots.

La principale différence entre les technologies de conversation et les chatbots est la portée. Comme mentionné précédemment, tout ce que la technologie de la parole à la technologie doit faire est de transcrire le discours verbal. Le chatbot, en revanche, a besoin de comprendre le discours, quelle que soit sa forme, de le comprendre et de fournir des réponses qui tentent de passer le test de Turing - le test permettant de savoir si une technologie peut induire un humain en erreur en lui faisant croire qu'il est parler avec une autre personne.

Dans cet esprit, les chatbots sont beaucoup plus faciles à créer que les voicebots. Le chatbot prend les humains et fournit une réponse. Même des chatbots relativement simples ont été en mesure de fournir des résultats intéressants et agréables aux humains depuis la fin des années 1980 et le début des années 1990.

Le voicebot, quant à lui, doit prendre la parole verbalement, la convertir en, vérifier son exactitude, produire une réponse, et transformer cette réponse du langage machine en parole audible. Ce grand nombre de tâches assez importantes implique que le serveur vocal demande beaucoup de puissance de calcul et de conception.

Des projets tels que Siri, Cortana et Alexa illustrent une partie de l’avant-garde des technologies de Voicebot. Ils montrent également que cette technologie en est encore à ses balbutiements. Bien qu’Alexa et d’autres technologies puissent répondre verbalement au langage humain, elles ne sont pas très capables en ce sens que nous l’associons au langage humain verbal en général. En d’autres termes, les réponses fournies par ces technologies sont assez limitées. Il existe même une capacité limitée de la génération actuelle d’assistants personnels à générer réellement la parole, par exemple, dans le but de transcrire un texte ou d’aider quelqu'un à rédiger un essai sans utiliser ses mains. Certains des programmes de conversation spécifiques sur le marché le font mieux que Siri ou Cortana, probablement en raison de l'allocation de ressources. Cependant, certains signes indiquent que les progrès du Voicebot vont bientôt décoller - comme la plate-forme Amazons Lex, qui permet à un environnement de studio de développer ces types de technologies.

Dans un essai intelligent et instructif sur le sujet, Tobias Goebel parle de la différence entre ces technologies, opposant le processus de «transcription», ce que dit le discours, au travail de compréhension, ce que les chatbots sont censés faire.

«Si éliminer le besoin de reconnaissance vocale facilite les choses pour un chatbot, le principal défi pour créer des robots fonctionnels réside dans la compréhension du langage naturel», écrit Goebel.

Goebel identifie également de nombreux acteurs actuels du secteur:

Nuance est le leader du marché en matière de reconnaissance vocale. Il est à l'origine de systèmes bien connus tels que Dragon NaturallySpeaking pour la dictée sur PC, existant depuis les années 90, mais aussi Siri: la tâche de reconnaissance / transcription vocale réalisée dans le cloud Apple utilise La technologie Nuance dans les coulisses. D'autres sont LumenVox, Verbio ou Interactions, mais la reconnaissance vocale est désormais également proposée en tant que service cloud via des API par Amazon, Google, Microsoft et IBM.

Au fur et à mesure que les chatbots se développent, on suppose que leur compréhension continuera à augmenter sur une certaine trajectoire - et il est également largement supposé que davantage de technologies de bot passeront d'interfaces à des interfaces verbales, nécessitant davantage de puissance de calcul.