Princípios importantes
- Um novo modelo de aprendizado de máquina alucina uma imagem da aparência de uma frase em um idioma para ajudar na tradução.
- O sistema de IA, chamado VALHALLA, foi projetado para imitar a forma como os humanos percebem a linguagem.
- O novo sistema faz parte de um movimento crescente para usar a IA para entender a linguagem.
O método humano de visualizar imagens enquanto traduz palavras pode ajudar a inteligência artificial (IA) a entender melhor você.
Um novo modelo de aprendizado de máquina alucina uma imagem de como uma frase se parece em um idioma. De acordo com um trabalho de pesquisa recente, a técnica usa visualização e outras pistas para ajudar na tradução. Faz parte de um movimento crescente de usar a IA para entender a linguagem.
"A forma como as pessoas falam e escrevem é única porque todos nós temos tons e estilos ligeiramente diferentes", disse Beth Cudney, professora de análise de dados da Universidade de Maryville, que não esteve envolvida na pesquisa, à Lifewire em uma entrevista por e-mail. "Compreender o contexto é difícil porque é como lidar com dados não estruturados. É aqui que o processamento de linguagem natural (PLN) é útil. A PNL é um ramo da IA que aborda as diferenças em como nos comunicamos usando a compreensão de leitura de máquina. A principal diferença na PNL, como um ramo da IA, não se concentra simplesmente nos significados literais das palavras que falamos ou escrevemos. Ele analisa o significado."
Vá perguntar a Alice
O novo sistema de IA, chamado VALHALLA, criado por pesquisadores do MIT, IBM e da Universidade da Califórnia em San Diego, foi projetado para imitar a maneira como os humanos percebem a linguagem. De acordo com os cientistas, o uso de informações sensoriais, como multimídia, combinada com palavras novas e desconhecidas, como flashcards com imagens, melhora a aquisição e a retenção da linguagem.
Esses sistemas estão aumentando o poder dos chatbots que atualmente são apenas treinados e capazes de conversas específicas…
A equipe afirma que seu método melhora a precisão da tradução automática em relação à tradução somente de texto. Os cientistas usaram uma arquitetura codificador-decodificador com dois transformadores, um tipo de modelo de rede neural adequado para dados dependentes de sequência, como linguagem, que pode prestar atenção às palavras-chave e semântica de uma frase. Um transformador gera uma alucinação visual e o outro realiza a tradução multimodal usando as saídas do primeiro transformador.
"Em cenários do mundo real, você pode não ter uma imagem em relação à frase de origem", disse Rameswar Panda, um dos membros da equipe de pesquisa, em um comunicado à imprensa. "Então, nossa motivação foi basicamente: em vez de usar uma imagem externa durante a inferência como entrada, podemos usar a alucinação visual - a capacidade de imaginar cenas visuais - para melhorar os sistemas de tradução automática?"
Compreensão da IA
Pesquisas consideráveis estão focadas no avanço da PNL, apontou Cudney. Por exemplo, Elon Musk cofundou a Open AI, que está trabalhando no GPT-3, um modelo que pode conversar com um humano e é experiente o suficiente para gerar código de software em Python e Java.
Google e Meta também estão trabalhando para desenvolver IA conversacional com seu sistema chamado LAMDA. “Esses sistemas estão aumentando o poder dos chatbots que atualmente são treinados apenas e capazes de conversas específicas, o que provavelmente mudará a cara do suporte ao cliente e dos help desks”, disse Cudney.
Aaron Sloman, o cofundador da CLIPr, uma empresa de tecnologia de IA, disse em um e-mail que grandes modelos de linguagem como o GPT-3 podem aprender com muito poucos exemplos de treinamento para melhorar os resumos de texto com base no feedback humano. Por exemplo, ele disse, você pode dar a um modelo de linguagem grande um problema de matemática e pedir à IA para pensar passo a passo.
"Podemos esperar que maiores insights e raciocínios sejam extraídos de grandes modelos de linguagem à medida que aprendemos mais sobre suas habilidades e limitações", acrescentou Sloman. "Também espero que esses modelos de linguagem criem processos mais humanos à medida que os modeladores desenvolvem melhores maneiras de ajustar os modelos para tarefas específicas de interesse."
O professor de computação da Georgia Tech Diyi Yang previu em uma entrevista por e-mail que veremos mais uso de sistemas de processamento de linguagem natural (NLP) em nossas vidas diárias, desde assistentes personalizados baseados em NLP para ajudar com e-mails e telefonemas, a sistemas de diálogo conhecedores para a busca de informações em viagens ou saúde."Além de sistemas de IA justos que podem executar tarefas e ajudar os humanos de maneira responsável e livre de preconceitos", acrescentou Yang.
Enormes modelos de IA usando trilhões de parâmetros, como GPT-3 e DeepText, continuarão trabalhando em um único modelo para todos os aplicativos de linguagem, previu Stephen Hage, engenheiro de aprendizado de máquina da Dialexa, em uma entrevista por e-mail. Ele disse que também haverá novos tipos de modelos criados para usos específicos, como compras online comandadas por voz.
"Um exemplo pode ser um comprador dizendo 'Mostre-me esta sombra azul meia-noite com mais halo' para mostrar essa sombra nos olhos da pessoa com algum controle sobre como ela é aplicada ", acrescentou Hage.