5 respostas sobre a tecnologia que faz o Google Assistente parecer um humano no telefone

Eu não sei vocês, mas nada me impressionou mais no Google I/O do que a grande novidade do Google Assistente: a possibilidade de uma inteligência artificial simular uma voz humana e telefonar para um estabelecimento para marcar um corte de cabelo ou reservar uma mesa para você.
Sim, o algoritmo que colore fotos em preto e branco também tem seu valor, assim como o recurso do Gmail que autocompleta suas frases. Mas tudo isso é fichinha perto de uma inteligência artificial que: 1) consegue manter uma conversa com um humano por telefone; 2) se expressando como um humano; e 3) sem que o humano perceba que se trata de uma máquina.
Eis algumas perguntas, digo, respostas, sobre a tecnologia:
Batizada de Duplex, a tecnologia é um conjunto de outras tecnologias que estão sendo trabalhadas pelo Google há anos. A empresa tem uma rede neural para reconhecimento de fala desde 2015, o que permitiu aprimorar a busca e o Google Assistente; e desenvolve o WaveNet, que consegue imitar a voz humana, com pausas em vírgulas, entonações em perguntas e ênfases corretas em sílabas dependendo do significado de uma palavra.
O Duplex junta tudo isso e possui adaptações para conduzir uma conversa por telefone e realizar uma tarefa específica sem que o humano do outro lado da ligação tenha que se adaptar ao funcionamento de uma máquina.
Antes de sair telefonando por aí, o Duplex passa por um treinamento intensivo em um determinado assunto (salão de beleza, restaurante) para aprender a responder as perguntas mais comuns em seus meios e lidar com qualquer imprevisto. Não se trata de um simples algoritmo com respostas para perguntas pré-definidas.
E como funciona isso? O Google usa uma técnica conhecida como treinamento supervisionado em tempo real. Ele explica: “Isso é comparável às práticas de treinamento de muitas disciplinas, em que um instrutor supervisiona um aluno enquanto ele está fazendo seu trabalho, fornecendo orientação quando necessário, e certificando-se de que a tarefa seja executada no nível de qualidade do instrutor”.
“No sistema Duplex”, explica o Google, “operadores experientes atuam como instrutores. Ao monitorar o sistema ao fazer chamadas em um novo domínio, eles podem interferir no comportamento do sistema em tempo real, conforme necessário. Isso continua até que o sistema funcione no nível de qualidade desejado, quando a supervisão é interrompida e o sistema pode fazer chamadas de forma autônoma”.
Depois do treinamento, o Duplex consegue completar a maioria das tarefas de maneira totalmente autônoma, que é quando entra a parte da Skynet.
Seria ótimo poder dizer “Ok Google, negocie a anuidade do meu cartão de crédito”, “Ok Google, cancele meu pacote de TV por assinatura” e “Ok Google, reclame com a operadora sobre a minha internet que fica caindo toda hora”, mas o Duplex precisa ser previamente treinado para isso (e esses três casos dariam bastante trabalho, inclusive).
O Google é claro ao afirmar que o Duplex entende contextos específicos, e “só pode conduzir conversas naturais depois de ser treinado profundamente nesses domínios”. O Duplex “não pode conduzir conversas gerais”, ressalta a empresa. Por enquanto, o foco está em reservar mesas em restaurantes, agendar horários em salões e solicitar o horário de funcionamento em feriados.
O Google explica que “na fala espontânea natural, as pessoas falam mais rápido e com menos clareza do que quando falam com uma máquina, por isso o reconhecimento de voz é mais difícil e vemos taxas de erro de palavras mais altas”. Em conversas por telefone, isso é ainda mais complicado, porque a qualidade de áudio nem sempre é das melhores e muitas vezes há ruídos de fundo.
Por exemplo, um humano provavelmente entenderia isto:
“Ahnn, de terça a quinta a gente abre das 11 às 2, depois reabrimos das 4 às 9, e depois sexta, sábado, domingo a gente… ou, sexta e sábado a gente abre das 11 às 9 e depois domingo abre da 1 às 9”.
Mas não preciso nem dizer por que isso é tão complicado para um computador: tem um monte de número misturado, informações que começam e depois recomeçam, uma quebra de pensamento ali no meio… Só que isso acontece em uma ligação por telefone normal, e o Duplex precisa saber lidar com isso.
Você lembra como é o processo de ditar um número por telefone, como seu CPF ou código de cliente? O outro lado normalmente responde assim: “pode começar de novo?”, “dois dois o quê???”, “sete oito quaaaaaatro…” e “ahaaaamm”. A máquina consegue interpretar essas interrupções:
Do outro lado, também há um esforço em fazer o Duplex parecer o mais natural possível. Primeiro, o Google implantou disfluências de fala, porque os humanos emitem sons quando estão pensando. Aliás, a platéia do Google I/O foi ao delírio com o “mm-hmm” do Google Assistente (assista em 36min15s):
Segundo, o tempo que um computador leva para entender uma pergunta e respondê-la é constante. Só que os humanos não são assim. Eles querem uma resposta rápida, quase instantânea, quando uma pessoa diz “alô?”. E vão achar estranho se você responder nessa mesma velocidade uma pergunta extremamente complexa (é por isso, inclusive, que muitos chatbots mostram aquele “…”, como se estivessem digitando).
Então, quando o Google não tem tempo para reconhecer uma fala e compreendê-la, faz aproximações e simula uma resposta hesitante, como um humano faria. “Isso nos permite ter menos de 100 milissegundos de latência de resposta nessas situações”, diz o Google.
A tecnologia realmente impressiona, mas tem utilidades práticas além de facilitar no dia a dia. O Google diz que o Assistente pode ser interessante para permitir comunicações com provedores de serviços de forma assíncrona: você não precisa esperar que haja um funcionário no restaurante antes de pedir uma reserva de mesa; basta dar o comando de voz, e o Google Assistente irá ligar no momento certo.
Ele também resolve questões de acessibilidade e idioma: mesmo quem tem deficiência auditiva pode fazer uma solicitação que hoje só é possível por telefone; e quem não fala russo pode reservar uma mesa no restaurante do interior de uma cidade da Rússia falando com o Google Assistente em seu próprio idioma.
Você poderia dizer que o Duplex não faria sentido se as empresas usassem sistemas automatizados para que máquinas conversassem com máquinas, como muitos já fazem. O problema é que estabelecimentos pequenos (em que o custo de um sistema assim não valeria a pena) ou em lugares sem infraestrutura (com internet limitada, por exemplo) sempre vão existir. E enquanto isso existir, a tecnologia vai ser útil.