Início » Inteligência Artificial » 5 respostas sobre a tecnologia que faz o Google Assistente parecer um humano no telefone

5 respostas sobre a tecnologia que faz o Google Assistente parecer um humano no telefone

Por
15 semanas atrás
Já conhece a nova extensão do Tecnoblog? Baixe Agora

Eu não sei vocês, mas nada me impressionou mais no Google I/O do que a grande novidade do Google Assistente: a possibilidade de uma inteligência artificial simular uma voz humana e telefonar para um estabelecimento para marcar um corte de cabelo ou reservar uma mesa para você.

Sim, o algoritmo que colore fotos em preto e branco também tem seu valor, assim como o recurso do Gmail que autocompleta suas frases. Mas tudo isso é fichinha perto de uma inteligência artificial que: 1) consegue manter uma conversa com um humano por telefone; 2) se expressando como um humano; e 3) sem que o humano perceba que se trata de uma máquina.

Eis algumas perguntas, digo, respostas, sobre a tecnologia:

1. Sim, a tecnologia realmente existe e funciona

Batizada de Duplex, a tecnologia é um conjunto de outras tecnologias que estão sendo trabalhadas pelo Google há anos. A empresa tem uma rede neural para reconhecimento de fala desde 2015, o que permitiu aprimorar a busca e o Google Assistente; e desenvolve o WaveNet, que consegue imitar a voz humana, com pausas em vírgulas, entonações em perguntas e ênfases corretas em sílabas dependendo do significado de uma palavra.

O Duplex junta tudo isso e possui adaptações para conduzir uma conversa por telefone e realizar uma tarefa específica sem que o humano do outro lado da ligação tenha que se adaptar ao funcionamento de uma máquina.

2. Existe um treinamento intensivo, quando um humano pode intervir

Antes de sair telefonando por aí, o Duplex passa por um treinamento intensivo em um determinado assunto (salão de beleza, restaurante) para aprender a responder as perguntas mais comuns em seus meios e lidar com qualquer imprevisto. Não se trata de um simples algoritmo com respostas para perguntas pré-definidas.

E como funciona isso? O Google usa uma técnica conhecida como treinamento supervisionado em tempo real. Ele explica: “Isso é comparável às práticas de treinamento de muitas disciplinas, em que um instrutor supervisiona um aluno enquanto ele está fazendo seu trabalho, fornecendo orientação quando necessário, e certificando-se de que a tarefa seja executada no nível de qualidade do instrutor”.

“No sistema Duplex”, explica o Google, “operadores experientes atuam como instrutores. Ao monitorar o sistema ao fazer chamadas em um novo domínio, eles podem interferir no comportamento do sistema em tempo real, conforme necessário. Isso continua até que o sistema funcione no nível de qualidade desejado, quando a supervisão é interrompida e o sistema pode fazer chamadas de forma autônoma”.

Depois do treinamento, o Duplex consegue completar a maioria das tarefas de maneira totalmente autônoma, que é quando entra a parte da Skynet.

3. Infelizmente não vai te ajudar a cancelar sua TV por assinatura (por enquanto)

Seria ótimo poder dizer “Ok Google, negocie a anuidade do meu cartão de crédito”, “Ok Google, cancele meu pacote de TV por assinatura” e “Ok Google, reclame com a operadora sobre a minha internet que fica caindo toda hora”, mas o Duplex precisa ser previamente treinado para isso (e esses três casos dariam bastante trabalho, inclusive).

O Google é claro ao afirmar que o Duplex entende contextos específicos, e “só pode conduzir conversas naturais depois de ser treinado profundamente nesses domínios”. O Duplex “não pode conduzir conversas gerais”, ressalta a empresa. Por enquanto, o foco está em reservar mesas em restaurantes, agendar horários em salões e solicitar o horário de funcionamento em feriados.

4. Ainda assim, o Duplex é um troço realmente avançado

O Google explica que “na fala espontânea natural, as pessoas falam mais rápido e com menos clareza do que quando falam com uma máquina, por isso o reconhecimento de voz é mais difícil e vemos taxas de erro de palavras mais altas”. Em conversas por telefone, isso é ainda mais complicado, porque a qualidade de áudio nem sempre é das melhores e muitas vezes há ruídos de fundo.

Por exemplo, um humano provavelmente entenderia isto:

“Ahnn, de terça a quinta a gente abre das 11 às 2, depois reabrimos das 4 às 9, e depois sexta, sábado, domingo a gente… ou, sexta e sábado a gente abre das 11 às 9 e depois domingo abre da 1 às 9”.

Mas não preciso nem dizer por que isso é tão complicado para um computador: tem um monte de número misturado, informações que começam e depois recomeçam, uma quebra de pensamento ali no meio… Só que isso acontece em uma ligação por telefone normal, e o Duplex precisa saber lidar com isso.

Você lembra como é o processo de ditar um número por telefone, como seu CPF ou código de cliente? O outro lado normalmente responde assim: “pode começar de novo?”, “dois dois o quê???”, “sete oito quaaaaaatro…” e “ahaaaamm”. A máquina consegue interpretar essas interrupções:

Do outro lado, também há um esforço em fazer o Duplex parecer o mais natural possível. Primeiro, o Google implantou disfluências de fala, porque os humanos emitem sons quando estão pensando. Aliás, a platéia do Google I/O foi ao delírio com o “mm-hmm” do Google Assistente (assista em 36min15s):

Segundo, o tempo que um computador leva para entender uma pergunta e respondê-la é constante. Só que os humanos não são assim. Eles querem uma resposta rápida, quase instantânea, quando uma pessoa diz “alô?”. E vão achar estranho se você responder nessa mesma velocidade uma pergunta extremamente complexa (é por isso, inclusive, que muitos chatbots mostram aquele “…”, como se estivessem digitando).

Então, quando o Google não tem tempo para reconhecer uma fala e compreendê-la, faz aproximações e simula uma resposta hesitante, como um humano faria. “Isso nos permite ter menos de 100 milissegundos de latência de resposta nessas situações”, diz o Google.

5. E pode servir para muitas outras coisas (além de impressionar você)

A tecnologia realmente impressiona, mas tem utilidades práticas além de facilitar no dia a dia. O Google diz que o Assistente pode ser interessante para permitir comunicações com provedores de serviços de forma assíncrona: você não precisa esperar que haja um funcionário no restaurante antes de pedir uma reserva de mesa; basta dar o comando de voz, e o Google Assistente irá ligar no momento certo.

Ele também resolve questões de acessibilidade e idioma: mesmo quem tem deficiência auditiva pode fazer uma solicitação que hoje só é possível por telefone; e quem não fala russo pode reservar uma mesa no restaurante do interior de uma cidade da Rússia falando com o Google Assistente em seu próprio idioma.

Você poderia dizer que o Duplex não faria sentido se as empresas usassem sistemas automatizados para que máquinas conversassem com máquinas, como muitos já fazem. O problema é que estabelecimentos pequenos (em que o custo de um sistema assim não valeria a pena) ou em lugares sem infraestrutura (com internet limitada, por exemplo) sempre vão existir. E enquanto isso existir, a tecnologia vai ser útil.