Princípios importantes
- As empresas estão correndo para encontrar maneiras de tornar o som da fala gerada por computador mais realista.
- A NVIDIA lançou recentemente ferramentas que podem capturar o som da fala natural, permitindo que você treine uma IA com sua própria voz.
- Entonação, emoção e musicalidade são as características que ainda f altam às vozes de computador, diz um especialista.
A fala gerada por computador pode em breve soar muito mais humana.
A NVIDIA, fabricante de peças para computadores, revelou recentemente ferramentas que podem capturar o som da fala natural, permitindo que você treine uma IA com sua voz. O software também pode transmitir as palavras de um orador usando a voz de outra pessoa. É parte de um esforço crescente para tornar a fala do computador mais realista.
"A tecnologia avançada de inteligência artificial de voz está permitindo que os usuários falem naturalmente, combinando muitas perguntas em uma única frase e eliminando a necessidade de repetir constantemente os detalhes da consulta original ", Michael Zagorsek, diretor de operações da empresa de reconhecimento de fala SoundHound, disse à Lifewire em uma entrevista por e-mail.
"A adição de vários idiomas, agora disponíveis na maioria das plataformas de IA de voz, torna os assistentes de voz digitais acessíveis em mais regiões geográficas e para mais populações", acrescentou.
Robospeech Rising
A Alexa da Amazon e a Siri da Apple soam muito melhor do que a fala do computador de uma década atrás, mas não serão confundidas com vozes humanas autênticas tão cedo.
Para tornar o som da fala artificial mais natural, a equipe de pesquisa de conversão de texto em fala da NVIDIA desenvolveu um modelo RAD-TTS. O sistema permite que os indivíduos ensinem um modelo de conversão de texto em fala (TTS) com sua voz, incluindo ritmo, tonalidade, timbre e outros fatores.
A empresa usou seu novo modelo para criar uma narração de voz mais conversacional para sua série de vídeos I Am AI.
"Com essa interface, nosso produtor de vídeo pode gravar a si mesmo lendo o roteiro do vídeo e usar o modelo de IA para converter seu discurso na voz da narradora. Usando essa narração básica, o produtor pode direcionar a IA como um dublador - ajustando o discurso sintetizado para enfatizar palavras específicas e modificando o ritmo da narração para expressar melhor o tom do vídeo ", escreveu a NVIDIA em seu site.
Mais difícil do que parece
Tornar natural a fala gerada por computador é um problema complicado, dizem os especialistas.
"Você precisa gravar centenas de horas da voz de alguém para criar uma versão de computador dela", disse Nazim Ragimov, CEO da empresa de software de texto para fala Kukarella, à Lifewire em uma entrevista por e-mail. "E a gravação deve ser de alta qualidade, gravada em estúdio profissional. Quanto mais horas de fala de qualidade forem carregadas e processadas, melhor será o resultado."
A conversão de texto em fala pode ser usada em jogos, para ajudar pessoas com deficiências vocais ou para ajudar os usuários a traduzir entre idiomas com sua própria voz.
Entonação, emoção e musicalidade são os recursos que ainda f altam às vozes de computador, disse Ragimov.
Se a IA puder adicionar esses links ausentes, a fala gerada por computador será "indistinguível das vozes de atores reais", acrescentou. "Esse é um trabalho em andamento. Outras vozes poderão competir com os apresentadores de rádio. Em breve você verá vozes que podem cantar e ler audiolivros."
A tecnologia de fala está se tornando mais popular em uma ampla gama de negócios.
"A indústria automobilística adotou recentemente a IA de voz como forma de criar experiências de direção mais seguras e conectadas", disse Zagorsek.
"Desde então, os assistentes de voz tornaram-se cada vez mais onipresentes à medida que as marcas buscam maneiras de melhorar as experiências dos clientes e atender à demanda por métodos mais fáceis, seguros, convenientes, eficientes e higiênicos de interagir com seus produtos e serviços."
Normalmente, a IA por voz converte consultas em respostas em um processo de duas etapas que começa transcrevendo a fala em texto usando o reconhecimento automático de fala (ASR) e, em seguida, alimentando esse texto em um modelo de compreensão de linguagem natural (NLU).
A abordagem do SoundHound combina essas duas etapas em um processo para rastrear a fala em tempo real. A empresa afirma que essa técnica permite que os assistentes de voz entendam o significado das consultas do usuário, mesmo antes que a pessoa termine de falar.
Futuros avanços na fala do computador, incluindo a disponibilidade de uma variedade de opções de conectividade de apenas incorporado (sem necessidade de conexão na nuvem) para híbrido (incorporado mais nuvem) e somente nuvem "darão mais opções para empresas em todos os setores em termos de custo, privacidade e disponibilidade de poder de processamento ", disse Zagoresk.
NVIDIA disse que seus novos modelos de IA vão além do trabalho de narração.
"A conversão de texto em fala pode ser usada em jogos, para ajudar indivíduos com deficiências vocais ou para ajudar os usuários a traduzir entre idiomas em sua própria voz", escreveu a empresa. "Ele pode até recriar as performances de cantores icônicos, combinando não apenas a melodia de uma música, mas também a expressão emocional por trás dos vocais."