Em breve, você pode não saber que está falando com um computador

2025 Autor: Abigail Brown | [email protected]. Última modificação: 2025-01-24 12:20

Princípios importantes

O dia está se aproximando rapidamente quando você não será capaz de distinguir a fala gerada por computador da coisa real.
O Google lançou recentemente o LaMDA, um modelo que pode permitir conversas mais naturais.
A produção de fala humana também requer grande quantidade de poder de processamento.

Neste momento, é fácil saber quando você está falando com um computador, mas isso pode mudar em breve graças aos recentes avanços em IA.

O Google lançou recentemente o LaMDA, um modelo experimental que a empresa afirma que poderia aumentar a capacidade de seus assistentes de IA conversacionais e permitir conversas mais naturais. LaMDA pretende eventualmente conversar normalmente sobre quase tudo sem nenhum tipo de treinamento prévio.

É um de um número crescente de projetos de IA que podem deixar você imaginando se está falando com um ser humano.

"Minha estimativa é que, nos próximos 12 meses, os usuários começarão a se expor e se acostumar com essas vozes novas e mais emocionais", James Kaplan, CEO da MeetKai, assistente de voz virtual de IA conversacional e pesquisa engine, disse em uma entrevista por e-mail.

"Quando isso acontecer, a fala sintetizada de hoje soará para os usuários como a fala do início dos anos 2000 soa para nós hoje."

Assistentes de voz com personagem

O LaMDA do Google é construído no Transformer, uma arquitetura de rede neural inventada pelo Google Research. Ao contrário de outros modelos de linguagem, o LaMDA do Google foi treinado em diálogo real.

Parte do desafio de fazer um discurso de IA com som natural é a natureza aberta das conversas, escreveu Eli Collins do Google em uma postagem no blog.

"Uma conversa com um amigo sobre um programa de TV pode evoluir para uma discussão sobre o país onde o programa foi filmado antes de se estabelecer um debate sobre a melhor culinária regional desse país ", acrescentou.

As coisas estão se movendo rapidamente com a fala do robô. Eric Rosenblum, sócio-gerente da Tsingyuan Ventures, que investe em IA conversacional, disse que alguns dos problemas mais fundamentais da fala assistida por computador estão virtualmente resolvidos.

Por exemplo, a taxa de precisão na compreensão da fala já é extremamente alta em serviços como transcrições feitas pelo software Otter.ai ou anotações médicas feitas pelo DeepScribe.

"A próxima fronteira, porém, é muito mais difícil", acrescentou.

"Reter a compreensão do contexto, que é um problema que vai muito além do processamento de linguagem natural, e empatia, como computadores interagindo com humanos precisam entender frustração, raiva, impaciência, etc. Ambas as questões estão sendo trabalhadas, mas ambas estão longe de ser satisfatórias."

Redes Neurais São a Chave

Para gerar vozes realistas, as empresas estão usando tecnologias como redes neurais profundas, uma forma de aprendizado de máquina que classifica os dados por meio de camadas, Matt Muldoon, presidente norte-americano da ReadSpeaker, uma empresa que desenvolve software de texto para fala, disse em uma entrevista por e-mail.

"Essas camadas refinam o sinal, classificando-o em classificações mais complexas", acrescentou. "O resultado é um discurso sintético que soa estranhamente como um humano."

Outra tecnologia em desenvolvimento é o Prosody Transfer, que envolve a combinação do som de uma voz text-to-speech com o estilo de fala de outra, disse Muldoon. Há também o aprendizado de transferência, que reduz a quantidade de dados de treinamento necessários para produzir uma nova voz neural de conversão de texto em fala.

Kaplan disse que produzir fala semelhante à humana também exige uma enorme quantidade de poder de processamento. As empresas estão desenvolvendo chips aceleradores neurais, que são módulos personalizados que funcionam em conjunto com processadores comuns.

"O próximo estágio disso será colocar esses chips em hardware menor, como atualmente já é feito para câmeras quando a IA para visão é necessária", acrescentou. "Não demorará muito para que esse tipo de capacidade de computação esteja disponível nos próprios fones de ouvido."

Um desafio para desenvolver a fala orientada por IA é que todos falam de maneira diferente, então os computadores tendem a ter dificuldade em nos entender.

"Pense nos sotaques da Geórgia versus Boston versus Dakota do Norte, e se o inglês é ou não seu idioma principal", disse Monica Dema, que trabalha em análise de pesquisa por voz no MDinc, por e-mail. "Pensando globalmente, é caro fazer isso para todas as regiões da Alemanha, China e Índia, mas isso não significa que não seja ou não possa ser feito."

Recomendado:

Em breve, você pode não saber que está falando com um computador

Índice:

Princípios importantes

Assistentes de voz com personagem

Redes Neurais São a Chave

Recomendado:

Por que você pode (ou não) ver o YouTube Picture-in-Picture em breve

Você não pode obter Sling TV no PS4; Aqui está o que você pode obter

Você pode mudar o nome da Siri? Não, mas aqui está o que você pode fazer

Você pode cancelar o envio de um Snap? Não, mas você pode excluí-lo

Você pode pegar um vírus em um Mac? O que você precisa saber

18 Melhores atalhos para o aplicativo de atalhos para iOS da Apple

Como usar mensagens ou iChat para compartilhar a tela do seu Mac

Facebook Messenger: chamadas e mensagens de voz gratuitas

Como usar atalhos do Excel para adicionar planilhas

Por que é importante falar sobre 6G agora

Android 101: como usar seu smartphone ou tablet Android

Programas gratuitos que podem substituir o Windows Media Player

Como instalar o RSAT no Windows 10

Os melhores atalhos do Android que você deve usar

Como desativar o touchpad no Windows 10

5 meses com a mini câmera do iPhone 12

Como as telas sensíveis ao toque tornam os smartphones menos duráveis

Como corrigir erros do Window.dll está ausente ou não encontrado

Como compartilhar jogos no PS5

Testado por especialistas: os 8 melhores laptops com tela sensível ao toque em 2022