Início » Inteligência Artificial » 5 respostas sobre a tecnologia que faz o Google Assistente parecer um humano no telefone

5 respostas sobre a tecnologia que faz o Google Assistente parecer um humano no telefone

Paulo Higa Por

Eu não sei vocês, mas nada me impressionou mais no Google I/O do que a grande novidade do Google Assistente: a possibilidade de uma inteligência artificial simular uma voz humana e telefonar para um estabelecimento para marcar um corte de cabelo ou reservar uma mesa para você.

Sim, o algoritmo que colore fotos em preto e branco também tem seu valor, assim como o recurso do Gmail que autocompleta suas frases. Mas tudo isso é fichinha perto de uma inteligência artificial que: 1) consegue manter uma conversa com um humano por telefone; 2) se expressando como um humano; e 3) sem que o humano perceba que se trata de uma máquina.

Eis algumas perguntas, digo, respostas, sobre a tecnologia:

1. Sim, a tecnologia realmente existe e funciona

Batizada de Duplex, a tecnologia é um conjunto de outras tecnologias que estão sendo trabalhadas pelo Google há anos. A empresa tem uma rede neural para reconhecimento de fala desde 2015, o que permitiu aprimorar a busca e o Google Assistente; e desenvolve o WaveNet, que consegue imitar a voz humana, com pausas em vírgulas, entonações em perguntas e ênfases corretas em sílabas dependendo do significado de uma palavra.

O Duplex junta tudo isso e possui adaptações para conduzir uma conversa por telefone e realizar uma tarefa específica sem que o humano do outro lado da ligação tenha que se adaptar ao funcionamento de uma máquina.

2. Existe um treinamento intensivo, quando um humano pode intervir

Antes de sair telefonando por aí, o Duplex passa por um treinamento intensivo em um determinado assunto (salão de beleza, restaurante) para aprender a responder as perguntas mais comuns em seus meios e lidar com qualquer imprevisto. Não se trata de um simples algoritmo com respostas para perguntas pré-definidas.

E como funciona isso? O Google usa uma técnica conhecida como treinamento supervisionado em tempo real. Ele explica: “Isso é comparável às práticas de treinamento de muitas disciplinas, em que um instrutor supervisiona um aluno enquanto ele está fazendo seu trabalho, fornecendo orientação quando necessário, e certificando-se de que a tarefa seja executada no nível de qualidade do instrutor”.

“No sistema Duplex”, explica o Google, “operadores experientes atuam como instrutores. Ao monitorar o sistema ao fazer chamadas em um novo domínio, eles podem interferir no comportamento do sistema em tempo real, conforme necessário. Isso continua até que o sistema funcione no nível de qualidade desejado, quando a supervisão é interrompida e o sistema pode fazer chamadas de forma autônoma”.

Depois do treinamento, o Duplex consegue completar a maioria das tarefas de maneira totalmente autônoma, que é quando entra a parte da Skynet.

3. Infelizmente não vai te ajudar a cancelar sua TV por assinatura (por enquanto)

Seria ótimo poder dizer “Ok Google, negocie a anuidade do meu cartão de crédito”, “Ok Google, cancele meu pacote de TV por assinatura” e “Ok Google, reclame com a operadora sobre a minha internet que fica caindo toda hora”, mas o Duplex precisa ser previamente treinado para isso (e esses três casos dariam bastante trabalho, inclusive).

O Google é claro ao afirmar que o Duplex entende contextos específicos, e “só pode conduzir conversas naturais depois de ser treinado profundamente nesses domínios”. O Duplex “não pode conduzir conversas gerais”, ressalta a empresa. Por enquanto, o foco está em reservar mesas em restaurantes, agendar horários em salões e solicitar o horário de funcionamento em feriados.

4. Ainda assim, o Duplex é um troço realmente avançado

O Google explica que “na fala espontânea natural, as pessoas falam mais rápido e com menos clareza do que quando falam com uma máquina, por isso o reconhecimento de voz é mais difícil e vemos taxas de erro de palavras mais altas”. Em conversas por telefone, isso é ainda mais complicado, porque a qualidade de áudio nem sempre é das melhores e muitas vezes há ruídos de fundo.

Por exemplo, um humano provavelmente entenderia isto:

“Ahnn, de terça a quinta a gente abre das 11 às 2, depois reabrimos das 4 às 9, e depois sexta, sábado, domingo a gente… ou, sexta e sábado a gente abre das 11 às 9 e depois domingo abre da 1 às 9”.

Mas não preciso nem dizer por que isso é tão complicado para um computador: tem um monte de número misturado, informações que começam e depois recomeçam, uma quebra de pensamento ali no meio… Só que isso acontece em uma ligação por telefone normal, e o Duplex precisa saber lidar com isso.

Você lembra como é o processo de ditar um número por telefone, como seu CPF ou código de cliente? O outro lado normalmente responde assim: “pode começar de novo?”, “dois dois o quê???”, “sete oito quaaaaaatro…” e “ahaaaamm”. A máquina consegue interpretar essas interrupções:

Do outro lado, também há um esforço em fazer o Duplex parecer o mais natural possível. Primeiro, o Google implantou disfluências de fala, porque os humanos emitem sons quando estão pensando. Aliás, a platéia do Google I/O foi ao delírio com o “mm-hmm” do Google Assistente (assista em 36min15s):

Segundo, o tempo que um computador leva para entender uma pergunta e respondê-la é constante. Só que os humanos não são assim. Eles querem uma resposta rápida, quase instantânea, quando uma pessoa diz “alô?”. E vão achar estranho se você responder nessa mesma velocidade uma pergunta extremamente complexa (é por isso, inclusive, que muitos chatbots mostram aquele “…”, como se estivessem digitando).

Então, quando o Google não tem tempo para reconhecer uma fala e compreendê-la, faz aproximações e simula uma resposta hesitante, como um humano faria. “Isso nos permite ter menos de 100 milissegundos de latência de resposta nessas situações”, diz o Google.

5. E pode servir para muitas outras coisas (além de impressionar você)

A tecnologia realmente impressiona, mas tem utilidades práticas além de facilitar no dia a dia. O Google diz que o Assistente pode ser interessante para permitir comunicações com provedores de serviços de forma assíncrona: você não precisa esperar que haja um funcionário no restaurante antes de pedir uma reserva de mesa; basta dar o comando de voz, e o Google Assistente irá ligar no momento certo.

Ele também resolve questões de acessibilidade e idioma: mesmo quem tem deficiência auditiva pode fazer uma solicitação que hoje só é possível por telefone; e quem não fala russo pode reservar uma mesa no restaurante do interior de uma cidade da Rússia falando com o Google Assistente em seu próprio idioma.

Você poderia dizer que o Duplex não faria sentido se as empresas usassem sistemas automatizados para que máquinas conversassem com máquinas, como muitos já fazem. O problema é que estabelecimentos pequenos (em que o custo de um sistema assim não valeria a pena) ou em lugares sem infraestrutura (com internet limitada, por exemplo) sempre vão existir. E enquanto isso existir, a tecnologia vai ser útil.

Comentários

Envie uma pergunta

Os mais notáveis

Comentários com a maior pontuação

Luis Fernando

vc é linda! Vamos interagir?

Luis Fernando

Tem uns videos com narracao q sao ridiculos

Kaleb

Ps. Troque de celular! Eu falo com o meu enquanto estou no note e ele ao lado e reconhece perfeitamente e executa a ação solicitada. Ps. Sério! troque de celular. rsrs

Lucia Mara

Inteligência Artificial do Google tem muitas falhas ainda, mais está muito perto ou até supera a inteligência de muitos ser humano.
www.magazinevoce.com.br/mag...

Wellinghton Godoi

Hahahahahaha Bojack <3

Yuma Colt

Eu tenho 47 e uso o google assistente com frequência. Quando estou dirigindo é uma mão na roda, tipo "Ok Google, como faço pra chegar em tal lugar", ele já abre o google maps com a rota. Outro bom é, "Ok Google, marcar um lembrete para amanhã tal hora", ou marcar um timer para x minutos. Outro que uso muito "Ok Google, ligar para <nome ou="" número="">", ele já liga na hora, sem eu precisar ficar localizando na agenda, ou discando o número. Agora se quiser se divertir um pouco, tente "Ok Google, estou entediado", ou ainda ficar tentando possibilidades da IA, como por exemplo perguntar o nome dela, ou falar que ela é bonita, perguntar se ela tem namorado, kkk, vc dá risada com as respostas

Priscilla Cantuaria

Adoro interagir com a Duplex!! Poupa tempo e é divertida! Obrigada Google!

Ticano

Não consigo falar com meu celular, me sinto um idiota fazendo isso, provavelmente sou velho e não entendo isso. Pra mim, isso ainda é coisa de filme.
Falar ok Google, umas três vezes até a parada entender, daí colocar um compromisso na agenda, depois de várias tentativas, vou e anoto direto. Tá longe isso aí que o Google tá fazendo, de qualquer forma não deixa de ser legal, talvez meu neto encare isso normalmente.

PS. Tenho 30 anos.

Andre Kittler

Em que ponto vamos aceitar que NÃO EXISTE AI! Isso é decadas de distancia, se é que um dia vai ser possível!
Video interessante que explica a diferenca em uma porrada de dados organizados e uma maquina trabalhando com eles, e chutando baseado em padrões... e inteligencia - https://www.vox.com/videos/...

ʞǝʌǝɥs

"O Google é claro ao afirmar que o Duplex entende contextos específicos"

isso é o que muita gente não entende, quando se fala de IA: o uso de IA em "domínios" (assuntos) específicos é bastante viável, e deve ter um boom impressionante nos próximos anos (e provavelmente por muito tempo ainda)

agora, uma IA geral, que entenda "de tudo", isso é coisa de FC, vai ser por muito tempo ainda, e existem cientistas que simplesmente não acreditam que algum dia seja possível

Pex

Essa apresentação está muito impressionante! Claro que ainda está num ambiente controlado mas do jeito que eles vem evoluindo rapido, acredito que logo estará acessível.

Eliézer José Lonczynski

Eu tentando entender IA... https://uploads.disquscdn.c...

Gabriel Cruz Moreira (Coisas d

A Google afirmou que era a gravação de uma situação real

Gabriel Cruz Moreira (Coisas d

Naosei se você viu a apresentação mais o pedido feito para a Googl que dizia o horário que poderia ser, fora que isso não é algo tirado do nada, já faz tempo que ela demonstrou os testes em que era muito difícil distinguir o robô do ser humano e também ela não so possui como criou as maiores bases da inteligência artificial e criou sua própria plataforma além de APIs de inteligência artificial, ela atualmente está muito a frente com a inteligência artificial e possui uma base de dados muito mais que suficiente

Keaton

O pessoal do youtube vai achar um jeito de usar isso pra narrar videos...

Exibir mais comentários