Em breve, você pode não saber que está falando com um computador

Índice:

Em breve, você pode não saber que está falando com um computador
Em breve, você pode não saber que está falando com um computador
Anonim

Princípios importantes

  • O dia está se aproximando rapidamente quando você não será capaz de distinguir a fala gerada por computador da coisa real.
  • O Google lançou recentemente o LaMDA, um modelo que pode permitir conversas mais naturais.
  • A produção de fala humana também requer grande quantidade de poder de processamento.
Image
Image

Neste momento, é fácil saber quando você está falando com um computador, mas isso pode mudar em breve graças aos recentes avanços em IA.

O Google lançou recentemente o LaMDA, um modelo experimental que a empresa afirma que poderia aumentar a capacidade de seus assistentes de IA conversacionais e permitir conversas mais naturais. LaMDA pretende eventualmente conversar normalmente sobre quase tudo sem nenhum tipo de treinamento prévio.

É um de um número crescente de projetos de IA que podem deixar você imaginando se está falando com um ser humano.

"Minha estimativa é que, nos próximos 12 meses, os usuários começarão a se expor e se acostumar com essas vozes novas e mais emocionais", James Kaplan, CEO da MeetKai, assistente de voz virtual de IA conversacional e pesquisa engine, disse em uma entrevista por e-mail.

"Quando isso acontecer, a fala sintetizada de hoje soará para os usuários como a fala do início dos anos 2000 soa para nós hoje."

Assistentes de voz com personagem

O LaMDA do Google é construído no Transformer, uma arquitetura de rede neural inventada pelo Google Research. Ao contrário de outros modelos de linguagem, o LaMDA do Google foi treinado em diálogo real.

Parte do desafio de fazer um discurso de IA com som natural é a natureza aberta das conversas, escreveu Eli Collins do Google em uma postagem no blog.

Image
Image

"Uma conversa com um amigo sobre um programa de TV pode evoluir para uma discussão sobre o país onde o programa foi filmado antes de se estabelecer um debate sobre a melhor culinária regional desse país ", acrescentou.

As coisas estão se movendo rapidamente com a fala do robô. Eric Rosenblum, sócio-gerente da Tsingyuan Ventures, que investe em IA conversacional, disse que alguns dos problemas mais fundamentais da fala assistida por computador estão virtualmente resolvidos.

Por exemplo, a taxa de precisão na compreensão da fala já é extremamente alta em serviços como transcrições feitas pelo software Otter.ai ou anotações médicas feitas pelo DeepScribe.

"A próxima fronteira, porém, é muito mais difícil", acrescentou.

"Reter a compreensão do contexto, que é um problema que vai muito além do processamento de linguagem natural, e empatia, como computadores interagindo com humanos precisam entender frustração, raiva, impaciência, etc. Ambas as questões estão sendo trabalhadas, mas ambas estão longe de ser satisfatórias."

Redes Neurais São a Chave

Para gerar vozes realistas, as empresas estão usando tecnologias como redes neurais profundas, uma forma de aprendizado de máquina que classifica os dados por meio de camadas, Matt Muldoon, presidente norte-americano da ReadSpeaker, uma empresa que desenvolve software de texto para fala, disse em uma entrevista por e-mail.

"Essas camadas refinam o sinal, classificando-o em classificações mais complexas", acrescentou. "O resultado é um discurso sintético que soa estranhamente como um humano."

Outra tecnologia em desenvolvimento é o Prosody Transfer, que envolve a combinação do som de uma voz text-to-speech com o estilo de fala de outra, disse Muldoon. Há também o aprendizado de transferência, que reduz a quantidade de dados de treinamento necessários para produzir uma nova voz neural de conversão de texto em fala.

Kaplan disse que produzir fala semelhante à humana também exige uma enorme quantidade de poder de processamento. As empresas estão desenvolvendo chips aceleradores neurais, que são módulos personalizados que funcionam em conjunto com processadores comuns.

"O próximo estágio disso será colocar esses chips em hardware menor, como atualmente já é feito para câmeras quando a IA para visão é necessária", acrescentou. "Não demorará muito para que esse tipo de capacidade de computação esteja disponível nos próprios fones de ouvido."

Um desafio para desenvolver a fala orientada por IA é que todos falam de maneira diferente, então os computadores tendem a ter dificuldade em nos entender.

"Pense nos sotaques da Geórgia versus Boston versus Dakota do Norte, e se o inglês é ou não seu idioma principal", disse Monica Dema, que trabalha em análise de pesquisa por voz no MDinc, por e-mail. "Pensando globalmente, é caro fazer isso para todas as regiões da Alemanha, China e Índia, mas isso não significa que não seja ou não possa ser feito."

Recomendado: