J'entends des morts? Natural Language Tech donne vie aux voix du passé et du présent

Contenu

Grands changements dans la PNL
Des créations excitantes "à la voix" chez Vivo
Voix artificielle en marketing
Votre voix vit sur
En l'an 2525

À emporter:

Oubliez les voix en conserve; reproduire les vrais est le nouvel objectif du traitement du langage naturel.

De nos jours, la plupart des voix d'ordinateur sont dépassées. Lorsque vous entendez le "droïde" sur votre téléphone vous aider à payer une facture ou à vous demander quel département vous voulez, vous n’êtes probablement pas trop au courant pour les cyborgs et les robots. Mais que se passe-t-il si vous entendez tout à coup Kurt Cobain vous demander des informations sur les cartes? Ou John F. Kennedy vous parlant des merveilles du vote anticipé? Ou bien Elvis a obtenu votre nom et votre adresse avant de percer "un morceau d'amour brûlant?"

Tout cela serait… un peu bizarre, mais ce qui est encore plus fascinant, c’est que la technologie existe déjà. Il y a à peine une dizaine d'années, nous étions émerveillés par la capacité des ordinateurs à même parler. Maintenant, nous sommes sur le point d’être submergés par des voix générées par ordinateur, à gamme libre, qui ressemblent à celles que nous connaissons.

Grands changements dans la PNL

Si vous prêtez attention au domaine du traitement du langage naturel (NLP), vous avez peut-être entendu parler de certaines avancées récentes qui vont au-delà des types d'assistants virtuels en boîte que nous entendons maintenant dans nos systèmes de positionnement global (GPS) et nos activités automatisées. lignes téléphoniques.

Le début de la PNL a nécessité de nombreuses recherches sur la mécanique générale de la parole humaine. Les chercheurs et les ingénieurs ont dû identifier les phonétiques individuelles, les incorporer dans de plus grands algorithmes pour générer des phrases et des phrases, puis essayer de les gérer au niveau méta afin de générer un son réel. Au fil du temps, les dirigeants de la PNL ont maîtrisé cela et ont commencé à construire des algorithmes avancés pour comprendre ce que les humains disent. En réunissant ces deux éléments, les entreprises ont proposé les pilotes d’assistants virtuels et d’employés entièrement numériques, dont les maniérismes - bien que gênants - restent étonnants lorsque vous vous arrêtez pour penser au travail qui les attend.

Désormais, certaines entreprises vont au-delà de la voix virtuelle générique pour élaborer un résultat personnalisé plus spécifique. Cela nécessite de parcourir le lexique d’une personne donnée et de collecter de grandes quantités de vidéos vocales uniques, puis d’appliquer ces archives aux rythmes complexes de la phonétique, de l’accentuation, de la cadence et de tous les autres petits signaux que les linguistes regroupent souvent sous la bannière de la "prosodie".

Ce qui ressort est une voix que les auditeurs considèrent comme "la propriété" d'une personne en particulier - soit une personne qu'ils connaissent et avec qui ils ont parlé, ou une personne dont ils reconnaissent la voix du fait de la célébrité de cette personne.

D’Elvis à Martin Luther King, toute voix peut désormais être "clonée" de cette façon - à condition qu’il existe un enregistrement substantiel de son discours préenregistré. En appliquant des analyses et des manipulations encore plus détaillées à de petits sons individuels, les entreprises sont en mesure de créer une copie carbone virtuelle de la voix d’une personne, qui ressemble beaucoup à la réalité.

Des créations excitantes "à la voix" chez Vivo

Vivo, par exemple, est une société qui s’emploie à révolutionner l’utilisation de voix artificielles pour toutes sortes de campagnes, des livres audio à la réponse vocale interactive (RVI). Chez Vivo, les équipes de recherche et de production travaillent sur des processus qui, théoriquement, pourraient reproduire spécifiquement les voix de célébrités décédées, telles que Ol Blue Eyes lui-même.

"Pour reproduire la voix de Frank Sinatra, nous reviendrions sur son héritage enregistré", a déclaré le PDG de Vivo, Gershon Silbert, en expliquant comment ce type de technologie pourrait fonctionner.

Actuellement, Vivo travaille sur l’archivage des voix de ceux qui sont toujours avec nous, comme le correspondant de NPR, Neal Conan, qui s’est inscrit comme modèle pour ce type de projet pionnier de l’informatique. Une vidéo promotionnelle montre les travailleurs de Vivo créant avec soin des modules de code phonétique en utilisant les entrées vocales fournies par Conan. Ils créent ensuite les modèles d'outils de synthèse vocale (TTS) qui évoquent un résultat dramatiquement humain et personnifié.

Selon Ben Feibleman, vice-président de la stratégie et du développement commercial de Vivo, l'ordinateur fonctionne au niveau des phonèmes (en utilisant les parties les plus petites du discours) pour se conformer à un modèle prosodique pour une voix humaine individuelle.

"Il sait comment la voix parle", déclare Feibleman, ajoutant qu'en utilisant "la sélection d'unités", l'ordinateur choisit un certain nombre d'éléments pour constituer un seul mot, comme lorsque le mot "Vendredi" contient cinq éléments qui contribuent au développement. une emphase particulière et un résultat tonal.

Voix artificielle en marketing

Alors, comment ça marche en marketing? Les produits de Vivo pourraient être extrêmement utiles pour créer des produits, tels que des livres audio, pouvant atteindre des publics cibles. Par exemple, dans quelle mesure une voix d'Elvis serait-elle plus efficace que l'une des voix génériques, impassibles et automatisées d'aujourd'hui si elle était utilisée pour vendre des produits liés au divertissement?

Ou, qu'en est-il de la politique? Feibleman a travaillé sur diverses idées pour utiliser des projets tels que ceux-ci afin d'améliorer le marketing pour les entreprises ou autres parties ayant besoin d'une messagerie plus efficace.

"Si vous connaissez des politiciens qui se présentent à la présidence, cela pourrait amener 10 millions d'électeurs d'un Etat alternatif à recevoir un appel personnel d'un candidat, les remerciant de leur soutien, leur indiquant où ils doivent se rendre pour voter, la météo et tous les détails la veille des élections ", a déclaré Feibleman.

Votre voix vit sur

Il existe une autre application évidente à toute cette technologie. Les entreprises de langage naturel telles que Vivo pourraient créer un service personnel permettant de télécharger toutes les données vocales d’un client dans un produit permettant à cette personne de "parler pour toujours".

La mise en œuvre pratique soulèverait probablement un certain nombre de questions sur la manière dont nous entendons et internalisons les voix parlées. Par exemple, que faut-il pour qu'un son soit identique à quelqu'un? Dans quelle mesure devons-nous connaître une personne pour reconnaître une voix particulière? Et, chose intéressante, que se passe-t-il si un service en langage naturel produit une caricature grossière, plutôt qu'un mimique convaincant?

Selon Feibleman, l’évaluation des résultats dépend souvent de la prise en compte des inconvénients. Par exemple, il dit que les enfants ne se posent généralement pas la question de savoir qui parle quand ils écoutent une histoire. Ils veulent juste plus. Mais aussi, beaucoup d’adultes peuvent ne pas penser à qui leur parle, étant donné un scénario particulier, comme une émission passive ou un téléphone. En outre, il est plus facile de se laisser berner par un ordinateur au téléphone, car le son étouffé peut masquer des problèmes ou d’autres divergences entre les résultats de l’ordinateur et une voix humaine.

"Il ne vous vient pas à l'esprit de contester l'authenticité de la voix", déclare Feibleman.

En l'an 2525

Au fur et à mesure que les entreprises développent des produits et des services et répondent à ces questions, les technologies de la «parole vivante» pourraient nous faire progresser vers cette convergence de la technologie et de l’esprit humain, que l’on a classiquement appelée intelligence artificielle (IA).

Si les ordinateurs peuvent parler comme nous, ils pourraient peut-être amener les autres utilisateurs à penser qu'ils pensent comme nous, alimentant ainsi le principe plus général de la singularité, introduit dans notre lexique par John von Neumann, un pionnier de la technologie des années 1950 évangélisé par des écrivains. et des penseurs comme Ray Kurzweil. Le livre de Kurzweils de 2005, "La singularité est proche", excite les uns et effraie les autres. Kurzweil a prédit que d'ici 2045, "l'intelligence" en tant que phénomène deviendra très largement dissociée du cerveau humain et passera à la technologie, brouillant les frontières entre les machines et leurs maîtres humains.

Immortalisé dans les paroles de Zager & Evans "In the Year 2525" (personne ne fait de ballades de science-fiction effrayantes comme ces gars-là)…

En l'an 4545
Tu n'as pas besoin de tes dents, pas besoin
tes yeux
Vous ne trouverez rien à mâcher
Nobodys va te regarder

En l'an 5555
Vos bras pendent à vos côtés
Vos jambes n'ont rien à faire
Certaines machines le font pour vous

Les voix d'ordinateur sont-elles un pas dans cette direction? En tant que nouveau moyen d’externaliser certaines des fonctions du corps humain (ou plus généralement de les simuler), ce type de progrès technologique est l’un des plus importants - et probablement des moins notifiés - à l’horizon alors que nous envisageons un avenir singulier. . (En savoir plus sur "la singularité" dans Est-ce que les ordinateurs seront capables d'imiter l'esprit humain?)