Cientistas dão voz aos computadores

Cientistas dão voz aos computadores

Cada vez mais usados por smartphones e PCs, sistemas de auxílio e interação por voz dão trabalho a pesquisadores para ter ‘som humano’
Por Agências


 
 
Supercomputador da IBM demorou 18 meses para ganhar voz e virou padrão na criação desse tipo de sistema
Por John Markoff THE NEW YORK TIMES

Quando computadores falam, o quanto eles devem se parecer com humanos? Esta era a pergunta que um grupo de seis linguistas, engenheiros e profissionais de marketing da IBM enfrentaram em 2009, quando começaram a produzir uma função que transformava texto em discurso para o supercomputador Watson. Na época, Watson se preparava para enfrentar a plateia de Jeopardy! – um programa da televisão americana baseado de perguntas e respostas.

Após 18 meses, uma voz cuidadosamente criada que não soava como humana, mas também não se assemelhava a do computador HAL, do filme 2001: Uma Odisseia no Espaço, expressava o caráter sintético de Watson na disputa em que o computador venceu os dois melhores jogadores humanos de Jeopardy.
O desafio de criar uma “personalidade” para computadores é enfrentado por um crescente número de designers de software, na medida em que os computadores tornam-se portáteis e os usuários, com as mãos e olhos ocupados, usam cada vez mais a interação por voz.
As máquinas estão ouvindo, compreendendo e falando, e não se trata apenas de PCs e celulares. Vozes foram adicionadas a uma série de objetos do dia a dia como carros e brinquedos, assim como “aparelhos” de informação para a casa, como os robôs familiares Pepper e Jibo, e Alexa, a voz do sistema inteligente da Amazon, o Amazon Echo. Uma nova ciência do design está surgindo na busca da concepção dos chamados “agentes de conversação”, softwares que compreendem a linguagem e a fala natural e podem responder a comandos da voz humana. Porém, a criação de tais sistemas ainda é tanto uma arte como uma ciência.
Ainda não é possível criar uma voz computadorizada que seja indistinguível da humana para algo que não sejam frases curtas que podem ser usadas para previsão do tempo ou para indicar que direção um carro deve tomar. A maioria dos designers de software reconhece que ainda enfrentam o fato de terem de cruzar o “vale da estranheza”, no qual as vozes que soam quase humanas são, na verdade, perturbadoras e dissonantes.
“Dissonante, é como eu descreveria”, disse Brian Langner cientista sênior de fala da ToyTalk, empresa de tecnologia de San Francisco que cria falas digitais para coisas como a boneca Barbie. “Quando a máquina faz algumas dessas coisas corretamente, as pessoas tendem a esperar que farão tudo corretamente.” Além da pronúncia correta, há o desafio ainda maior de colocar corretamente as qualidades humanas como inflexão e emoção na fala – chamada de prosódia.
Os primeiros resultados de pesquisas experimentais – auferidos com o emprego de algoritmos de aprendizado e enormes bancos de dados de emoções humanas embutidas no discurso – estão se tornando disponíveis apenas para cientistas da fala. O discurso sintetizado é criado de várias formas. As principais técnicas começam com a gravação da voz humana, usada para gerar bancos de dados de palavras e frases, ditas de várias formas diferentes.
As raízes da moderna tecnologia de fala sintética recaem nos primeiros trabalhos do cientista da computação escocês Alan Black, professor do Instituto de Tecnologias de Linguagem na Universidade Carnegie Mellon. Black reconhece que embora um grande progresso tenha sido feito, sistemas de discurso sintéticos não atingem a perfeição humana. “O problema é que não temos bons controles sobre como dizer a esses sintetizadores ‘digam isso com sentimento’”, afirmou ele. Para aqueles como os desenvolvedores da ToyTalk, que criam personagens de entretenimento, erros podem não ser fatais, já que o objetivo é entreter ou fazer seu público rir.
Porém, para programas que têm como objetivo colaborar com humanos em situações comerciais ou se tornar companheiros, os desafios são mais sutis. Estes designers geralmente dizem que não querem tentar enganar os humanos afirmando que as máquinas estão se comunicando com eles, mas ainda querem criar um relacionamento semelhante ao humano entre o usuário e a máquina.
Recentemente, a IBM lançou um comercial de televisão no qual o compositor Bob Dylan e o computador Watson conversam. Dylan deixa o local quando o computador tenta cantar. Watson é um terrível cantor. O anúncio faz um bom trabalho ao expressar o objetivo da IBM de criar um sábio não tão humano. Eles queriam uma voz que não fosse muito humana e, por extensão, que não fosse assustadora.
Jeopardy! foi um problema desafiador para os pesquisadores da IBM porque, embora as respostas fossem curtas, havia um grande número de possíveis armadilhas quanto à pronúncia errada. “A taxa de erros possíveis, só em pronunciar corretamente uma palavra, era nosso maior problema”, disse Andy Aaron, pesquisador do laboratório de Ambientes Cognitivos da IBM Research.
/ TRADUÇÃO DE PRISCILA ARONE

Fonte: Estadão

Comentários