Princípios importantes
- Um número crescente de programas pode entender sua fala.
- Nova tecnologia gera ruído de áudio personalizado em segundo plano enquanto você fala para confundir o software que pode estar ouvindo.
-
A nova técnica alcança desempenho em tempo real ao prever um ataque no futuro do sinal ou palavra.
Muitos programas podem entender sua fala durante chamadas telefônicas ou de vídeo, e especialistas dizem que podem representar uma ameaça à privacidade.
Uma nova tecnologia desenvolvida por pesquisadores da Universidade de Columbia, chamada Neural Voice Camouflage, pode oferecer uma defesa. Ele gera ruído de áudio personalizado em segundo plano enquanto você fala, confundindo a inteligência artificial (IA) que ouve e transcreve vozes.
"A presença de transcrição de IA levanta questões de confiança", Michael Huth, cofundador do Xayn, um mecanismo de busca que protege a privacidade e chefe do Departamento de Computação do Imperial College London, que não esteve envolvido em a pesquisa, disse à Lifewire em uma entrevista por e-mail. "Os participantes da reunião podem ser mais cuidadosos sobre quais pontos eles levantam e como seu discurso está sendo transcrito. Isso pode ser bom, pois pode melhorar o comportamento respeitoso, mas também pode ser ruim, pois a conversa pode ser menos aberta por causa de reservas sobre a tecnologia usada."
Ouvir e Aprender
Os pesquisadores da Columbia trabalharam para projetar um algoritmo que pudesse quebrar redes neurais em tempo real. A nova abordagem usa "ataques preditivos" - um sinal que pode interromper qualquer palavra que os modelos de reconhecimento automático de fala são treinados para transcrever. Além disso, quando os sons de ataque são reproduzidos no ar, eles precisam ser altos o suficiente para interromper qualquer microfone de "escuta" desonesto que possa estar longe.
"Um desafio técnico fundamental para alcançar isso foi fazer tudo funcionar rápido o suficiente", disse Carl Vondrick, professor de ciência da computação em Columbia e um dos autores de um estudo que descreve a nova abordagem, em uma notícia liberar. "Nosso algoritmo, que consegue impedir que um microfone desonesto ouça corretamente suas palavras em 80% das vezes, é o mais rápido e preciso em nosso banco de testes."
A nova técnica alcança desempenho em tempo real ao prever um ataque no futuro do sinal ou palavra. A equipe otimizou o ataque para que ele tenha um volume semelhante ao ruído de fundo normal, permitindo que as pessoas em uma sala conversem naturalmente e sem serem monitoradas com sucesso por um sistema automático de reconhecimento de fala.
Os participantes da reunião podem ter mais cuidado com os pontos que levantam e como seu discurso está sendo transcrito.
Os cientistas disseram que sua técnica funciona mesmo quando você não sabe nada sobre o microfone desonesto, como sua localização, ou até mesmo o software de computador rodando nele. Ele camufla a voz de uma pessoa no ar, escondendo-a desses sistemas de escuta e sem incomodar a conversa entre as pessoas na sala.
"Até agora, nosso método funciona para a maioria do vocabulário da língua inglesa, e planejamos aplicar o algoritmo em mais idiomas, bem como, eventualmente, tornar o som do sussurro completamente imperceptível ", Mia Chiquier, autora principal do estudo e um estudante de doutorado no laboratório de Vondrick, disse no comunicado à imprensa.
Mantendo suas conversas privadas
Como se tudo isso não bastasse, os anúncios também podem direcionar você com base no áudio coletado de seu smartphone ou dispositivos domésticos inteligentes.
"Com dispositivos como [o Amazon Echo] e seus equivalentes, esses dispositivos não estão apenas sempre em sua casa, ouvindo constantemente tudo o que você diz ou faz, mas eles - através de anos de coleta de dados de seus usuários - têm aperfeiçoou o processamento de linguagem natural (transformando palavras faladas em texto/dados utilizáveis para dispositivos por meio de uma combinação de microfones, software e IA), " Erik Haig, associado da Harbour Research, uma empresa de consultoria de estratégia e desenvolvimento de empreendimentos, disse em um e-mail.
As transcrições de fala de conversação por IA são agora uma parte padrão do software comercial padrão, disse Huth. Por exemplo, o Microsoft Teams tem uma opção de gravação de reunião com transcrições de IA integradas que podem ser vistas por todos os participantes em tempo real. A transcrição completa pode servir como registro da reunião. Normalmente, essas transcrições permitem a tomada de atas (também conhecida como anotações), onde as atas seriam aprovadas na próxima reunião.
"As pessoas podem estar preocupadas em serem espionadas quando a transcrição de IA está ativada", acrescentou Huth."Isso parece muito semelhante à preocupação de ter uma conversa gravada sem consentimento ou clandestinamente."
Mas nem todos concordam que os dispositivos inteligentes são uma ameaça. A maioria das pessoas não precisa se preocupar com os programas que ouvem suas conversas, disse Brad Hong, líder de sucesso do cliente na empresa de segurança cibernética Horizon3, à Lifewire por e-mail. Ele disse que a preocupação mais significativa agora não é quem está gravando você, mas sim como eles armazenam os dados.
"Todas as histórias que se ouve sobre um microfone em seu computador ou dispositivos móveis sendo ativados, Alexa ou Google Home ouvindo, ou mesmo vigilância do governo, é verdade que tudo isso faz o estômago do leigo revirar ", acrescentou Hong. "Mas, no geral, as pessoas raramente estão em uma situação que realmente exija camuflagem de suas vozes."