Les robots peuvent parler

Nous avons récemment publié un article sur les raisons pour lesquelles notre robot Heasy ne parlait pas.

Une des raisons qui n’était listée mais que vaut le coût d’être mentionnée est le fait que les voix artificielles sont encore très loin de la perfection. Ces voix sont monotones et il est difficile d’y ressentir une quelconque émotion. La joie, la tristesse ou n’importe quelle autre émotion résonne à l’identique.

Cela ne pose pas de problèmes dans bien des situations, comme c’est le cas des GPS. Nous n’engageons pas de conversation avec notre GPS, mais sommes juste en train d’écouter les directions à prendre. La situation est cependant bien différente quand on discute et que certains messages nécessitent de véhiculer des émotions pour être compris correctement.

Une astuce serait de mieux gérer la vitesse et l’intensité de la voix ou d’y ajouter des sons. Par exemple, en alternant une voix monotone avec des sons de quelqu’un qui pleure. La voix sera encore désagréable mais le son nous aidera comprendre ses émotions, ici, la tristesse.

 

Voilà Duplex  

La situation a changé complètement dès que Google a lancé Duplex, une IA (intelligence artificielle) qui effectue des appels téléphoniques et parle comme un humain au téléphone. Ici on n’abordera pas le sujet de l’IA, mais seulement des voix digitales.

C’est surprenant d’observer comment ils ont su créer une voix avec des intonations, qui puisse vraiment simuler une voix humaine, avec des interjections comme « hmm » ou « heuu ». S’il existait un test de Turing pour les voix digitales, peut-être que pour la toute première fois, Duplex réussirait le test.

 

 

 

 

Les voix artificielles pour les robots

Qu’en est-il de la robotique ? Le travail de reproduction de voix humaines démarre sous nos yeux. Combien de temps devrons-nous attendre pour que ces voix soient intégrées dans les robots humanoïdes ?

Jusqu’à présent, ce type de voix n’a été testé que dans des situations où les interlocuteurs ne sont pas face à face. Si la voix devait être intégrée dans un robot humanoïde, et que le langage du corps n’est pas aussi précis que la voix, l’expérience serait pour le moins déconcertante. Les fabricants de robots ont encore beaucoup de travail à faire avant que le langage corporel ne soit aussi sophistiqué que celui de la voix.

Quels seraient les enjeux avec Heasy en admettant qu’il puisse parler ? Son corps est plutôt limité : on devrait donc optimiser ses yeux (l’écran supérieur), le mouvement du corps et le basculement de sa tête. Commençons à poser notre attention sur ses yeux : pour exprimer la réflexion ou le doute, nous regardons souvent vers le ciel. Comment pourrions-nous reproduire cette expression sur le robot ? Il faudrait sans doute changer l’orientation de sa tête et rétrécir ses yeux sur l’écran. Cette solution fonctionnerait si les yeux étaient affichés sur un écran mais pas autrement (comme avec des LEDs).

Améliorer les robots humanoïdes implique des défis de plus en plus importants. Si le robot est doté d’une bouche, elle devrait avoir une coordination de mouvements. Notre bouche n’a pas la même expression quand on est triste ou que l’on est heureux. Si le robot a des bras, ils devraient avoir une coordination de mouvement pour la même raison. On ne peut pas exprimer de la joie avec les bras croisées. Si le robot est en train de faire une expression de réflexion, c’est peut-être mieux qu’il touche son menton. Et on pourrait continuer à lister des nombreux autres exemples.

Plus le robot ressemble à l’Homme, plus le langage corporel doit fidèlement ressembler à celui d’un humain afin que tout soit en harmonie avec une voix avancée.

Il est certain que les robots humanoïdes finiront avec ce type de voix avancée, mais ce jour est encore loin. Non pas à cause de la difficulté à les intégrer dans les robots mais parce que la voix est trop liée au langage corporel, où nous avons encore beaucoup de progrès à faire.