Conversas com seu computador podem ficar mais realistas

Índice:

Conversas com seu computador podem ficar mais realistas
Conversas com seu computador podem ficar mais realistas
Anonim

Princípios importantes

  • Meta está usando IA para fazer programas que podem expressar emoções na fala.
  • A equipe de IA da empresa disse que fez avanços na modelagem de vocalizações expressivas, como risos, bocejos, choros e "conversas espontâneas" em tempo real.
  • AI também está sendo usada para melhorar o reconhecimento de fala.
Image
Image

Em breve você poderá ter um bate-papo mais natural com seu computador, graças ao poder da inteligência artificial (IA).

Meta disse que fez um progresso significativo em seu esforço para criar sistemas de fala gerados por IA mais realistas. A equipe de IA da empresa disse que fez avanços na capacidade de modelar vocalizações expressivas, como risos, bocejos e choros, além de "conversas espontâneas" em tempo real.

"Em qualquer conversa, as pessoas trocam muitos sinais não verbais, como entonações, expressões emocionais, pausas, acentos, ritmos - todos importantes para as interações humanas", escreveu a equipe no recente post do blog. "Mas os sistemas de IA de hoje não conseguem capturar esses sinais ricos e expressivos porque aprendem apenas com o texto escrito, que captura o que dizemos, mas não como dizemos."

Fala Mais Inteligente

Na postagem do blog, a equipe da Meta AI disse que está trabalhando para superar as limitações dos sistemas tradicionais de IA que não conseguem entender sinais não verbais na fala, como entonações, expressões emocionais, pausas, sotaques e ritmos. Os sistemas são retidos porque só podem aprender com o texto escrito.

Mas o trabalho da Meta difere dos esforços anteriores porque seus modelos de IA podem usar modelos de processamento de linguagem natural para capturar a natureza completa da linguagem falada. Os meta pesquisadores dizem que os novos modelos podem permitir que os sistemas de IA transmitam o sentimento que desejam transmitir, como tédio ou ironia.

"No futuro próximo, vamos nos concentrar na aplicação de técnicas sem texto para criar aplicativos úteis de downstream sem exigir rótulos de texto com uso intensivo de recursos ou sistemas de reconhecimento automático de fala (ASR), como resposta a perguntas (por exemplo, "Como está o clima?"), ", escreveu a equipe na postagem do blog. "Acreditamos que a prosódia na fala pode ajudar a analisar melhor uma frase, o que, por sua vez, facilita a compreensão da intenção e melhora o desempenho da resposta a perguntas."

Compreensão de poderes de IA

Não apenas os computadores estão melhorando na comunicação de significados, mas a IA também está sendo usada para melhorar o reconhecimento de fala.

Os cientistas da computação têm trabalhado no reconhecimento de voz por computador desde pelo menos 1952, quando três pesquisadores do Bell Labs criaram um sistema que podia reconhecer dígitos numéricos únicos, disse o diretor de tecnologia da AI Dynamics, Ryan Monsurate, em um e-mail para Lifewire. Na década de 1990, os sistemas de reconhecimento de fala estavam disponíveis comercialmente, mas ainda tinham uma taxa de erro alta o suficiente para desencorajar o uso fora de domínios de aplicativos muito específicos, como saúde.

"Agora que os modelos de aprendizado profundo permitiram que os modelos de conjunto (como os da Microsoft) obtenham desempenho sobre-humano no reconhecimento de fala, temos a tecnologia para permitir comunicação verbal independente do falante com computadores em escala", disse Monsurate. "A próxima etapa incluirá a redução do custo para que todos que usarem a Siri ou os assistentes de IA do Google tenham acesso a esse nível de reconhecimento de fala."

Image
Image

A IA é útil para o reconhecimento de fala porque pode melhorar com o tempo por meio do aprendizado, disse Ariel Utnik, diretor de receita e gerente geral da empresa de voz de IA Verbit.ai, à Lifewire em uma entrevista por e-mail. Por exemplo, a Verbit afirma que sua tecnologia de IA interna detecta e filtra ruídos e ecos de fundo e transcreve os alto-falantes independentemente do sotaque para gerar transcrições e legendas detalhadas e profissionais de vídeo e áudio ao vivo e gravados.

Mas Utnik disse que a maioria das plataformas atuais de reconhecimento de fala são apenas 75-80% precisas.

"A IA nunca substituirá totalmente os humanos, pois a revisão pessoal por transcritores, revisores e editores é necessária para garantir uma transcrição final de alta qualidade e precisão ", acrescentou.

Um melhor reconhecimento de voz também pode ser usado para evitar hackers, disse Sanjay Gupta, vice-presidente global de desenvolvimento de produtos e corporativos da empresa de reconhecimento de voz Mitek Systems, em um e-mail. Pesquisas indicam que, dentro de dois anos, 20% de todos os ataques bem-sucedidos de invasão de contas usarão o aumento de voz sintética, acrescentou.

"Isso significa que, à medida que a tecnologia deep fake se torna mais sofisticada, precisamos criar simultaneamente segurança avançada que possa combater essas táticas ao lado de deep fakes de imagem e vídeo", disse Gupta. "Combater a falsificação de voz requer tecnologia de detecção de vivacidade, capaz de distinguir entre uma voz ao vivo e uma versão gravada, sintética ou gerada por computador de uma voz."

Correção 2022-05-04: Corrigida a grafia do nome de Ryan Monsurate no parágrafo 9.

Recomendado: