Legendas e traduções em tempo real podem ser o futuro do bate-papo por vídeo

Índice:

Legendas e traduções em tempo real podem ser o futuro do bate-papo por vídeo
Legendas e traduções em tempo real podem ser o futuro do bate-papo por vídeo
Anonim

Princípios importantes

  • Navi usa o SharePlay e a conversão de fala em texto integrada da Apple para oferecer legendas e traduções no FaceTime.
  • Está longe de ser perfeito, mas já é bom o suficiente.
  • As legendas são ótimas para acessibilidade.
Image
Image

Navi é um aplicativo que adiciona legendas ao vivo e traduções em tempo real às suas chamadas do FaceTime.

O aplicativo usa o SharePlay e o reconhecimento de fala integrado para adicionar legendas e traduções em 20 idiomas às suas chamadas do FaceTime. É um uso incrível do SharePlay, que a maioria de nós considera uma maneira enigmática de assistir a filmes sincronizados com pessoas em outros lugares. Talvez você não precise demitir seu tradutor ainda, mas um aplicativo que faça isso bem pode ser incrivelmente útil.

"Não estou recebendo o áudio da chamada do FaceTime", escreve o desenvolvedor do Navi Jordi Bruin no Twitter, "mas estou usando o SharePlay para compartilhá-lo entre os participantes da chamada."

SharePlay

SharePlay é um novo recurso no iOS 15 e macOS 12.1 que permite compartilhar e sincronizar coisas em chamadas do FaceTime. Com o exemplo de exibição de filme acima, qualquer participante pode pausar ou reproduzir o filme, por exemplo, enquanto todos conversam na chamada do FaceTime. O vídeo do FaceTime permanece aberto em um pequeno painel flutuante de imagem em imagem, e cada participante executa o aplicativo localmente em seu dispositivo. O truque do SharePlay é sincronizar o que está acontecendo nesses aplicativos locais, para que todos compartilhem a experiência, seja um filme, um treino Fitness+ ou uma planilha.

Navi usa a mesma tecnologia, apenas o aplicativo de chamada não é um filme - é um mecanismo de tradução em tempo real. Para usá-lo, você inicia o aplicativo durante uma chamada do FaceTime e toca no botão 'Ativar legendas'. Em seguida, outros participantes também podem participar da ação e ver legendas ao vivo para o orador atual. Se alguém estiver monólogo, seu balão de fala cresce e fica um pouco mais longo.

Image
Image

Para os surdos, isso pode significar a diferença entre chamar as pessoas ou não. E para qualquer um, significa que você pode ter conversas úteis entre pessoas que não compartilham o mesmo idioma.

Texto Universal

A internet é construída em texto, e isso é ótimo. É pequeno e fácil de criar, ler e traduzir. Também é simples transformar em fala sintetizada. O resultado é que qualquer pessoa de qualquer lugar pode participar de qualquer conversa. A linguagem não é barreira, nem a surdez ou qualquer tipo de cegueira, desde que você esteja usando um dispositivo com boas ferramentas de acessibilidade para deficientes visuais ou auditivos.

Mas a palavra falada é muito mais difícil de processar. O ditado de fala para texto é impressionante, mas apenas recentemente o reconhecimento de fala geral ficou bom o suficiente para uso geral - o aplicativo Translate da Apple é um bom exemplo. Introduzido no iOS 15, oferece traduções de áudio em tempo real. Se ainda saíssemos de férias no exterior, seria perfeito.

Agora usamos cada vez mais o vídeo para trabalhar e manter contato com amigos e familiares. Não importa como trabalharemos no futuro, a barreira das videochamadas foi completamente destruída. Agora é uma ferramenta comum, mas f alta muito da sutileza das ferramentas de comunicação escrita.

Algo como o Navi, que oferece legendas e tradução em tempo real, pode ser significativo. A acessibilidade é um aspecto, mas a capacidade de conversar com pessoas cuja língua você não fala abre negócios internacionais em um grau surpreendente.

Image
Image

Em Ação

Eu testei o Navi com o desenvolvedor de aplicativos, autor e usuário de aparelhos auditivos Graham Bower. É muito bom, mas ainda não está pronto para tarefas críticas. Algumas das transcrições eram comicamente ruins e vulgares demais para serem relatadas. À medida que nossa conversa prosseguia, porém, ficou muito melhor reconhecer com precisão sua fala. Isso faz sentido porque o mecanismo de ditado do iOS se adapta à sua voz ao longo do tempo.

A tradução também funcionou, embora a qualidade de suas traduções dependa da precisão da entrada.

É fácil projetar esse tipo de tecnologia em futuros óculos da Apple ou em qualquer produto de AR/VR que esteja sendo desenvolvido esta semana.

"Eu posso ver isso funcionando em óculos AR", disse Bower durante nossa conversa. "Algumas pessoas, mesmo com audição normal, preferem legendas em filmes. Isso seria como legendas para a vida real."

Embora seja uma demonstração técnica impressionante, Navi ainda não está lá. Para uso comercial confiável, o reconhecimento de fala inicial da Apple terá que ser muito mais preciso. Mas em termos de velocidade, tudo bem, e as traduções são tão boas quanto qualquer outra.

Mas estamos no caminho agora, e esse tipo de coisa só vai melhorar.

Recomendado: