Princípios importantes
- Pesquisadores dizem que podem ensinar a IA a rotular vídeos assistindo e ouvindo.
- O sistema de IA aprende a representar dados para capturar conceitos compartilhados entre dados visuais e de áudio.
-
É parte de um esforço para ensinar a IA a entender conceitos que os humanos não têm dificuldade em aprender, mas que os computadores acham difícil de entender.
Um novo sistema de inteligência artificial (IA) pode assistir e ouvir seus vídeos e rotular as coisas que estão acontecendo.
Os pesquisadores do MIT desenvolveram uma técnica que ensina a IA a capturar ações compartilhadas entre vídeo e áudio. Por exemplo, seu método pode entender que o ato de um bebê chorando em um vídeo está relacionado à palavra falada "chorando" em um clipe de som. É parte de um esforço para ensinar a IA a entender conceitos que os humanos não têm dificuldade em aprender, mas que os computadores acham difícil de entender.
"O paradigma de aprendizado predominante, o aprendizado supervisionado, funciona bem quando você tem conjuntos de dados bem descritos e completos", disse o especialista em IA Phil Winder à Lifewire em uma entrevista por e-mail. "Infelizmente, os conjuntos de dados raramente são completos porque o mundo real tem o mau hábito de apresentar novas situações."
IA mais inteligente
Os computadores têm dificuldade em descobrir cenários cotidianos porque precisam processar dados em vez de sons e imagens como os humanos. Quando uma máquina "vê" uma foto, ela deve codificar essa foto em dados que possa usar para executar uma tarefa como uma classificação de imagem. A IA pode ficar atolada quando as entradas vêm em vários formatos, como vídeos, clipes de áudio e imagens.
"O principal desafio aqui é, como uma máquina pode alinhar essas diferentes modalidades? Como humanos, isso é fácil para nós", disse Alexander Liu, pesquisador do MIT e primeiro autor de um artigo sobre o assunto, em um comunicado de imprensa. "Vemos um carro e depois ouvimos o som de um carro passando, e sabemos que são a mesma coisa. Mas para aprendizado de máquina, não é tão simples assim."
A equipe de Liu desenvolveu uma técnica de IA que, segundo eles, aprende a representar dados para capturar conceitos compartilhados entre dados visuais e de áudio. Usando esse conhecimento, o modelo de aprendizado de máquina pode identificar onde uma ação específica está ocorrendo em um vídeo e rotulá-la.
O novo modelo pega dados brutos, como vídeos e suas legendas de texto correspondentes, e os codifica extraindo recursos ou observações sobre objetos e ações no vídeo. Em seguida, mapeia esses pontos de dados em uma grade, conhecida como espaço de incorporação. O modelo agrupa dados semelhantes como pontos únicos na grade; cada um desses pontos de dados, ou vetores, é representado por uma palavra individual.
Por exemplo, um videoclipe de uma pessoa fazendo malabarismo pode ser mapeado para um vetor chamado "malabarismo".
Os pesquisadores projetaram o modelo para que ele pudesse usar apenas 1.000 palavras para rotular vetores. O modelo pode decidir quais ações ou conceitos deseja codificar em um único vetor, mas pode usar apenas 1.000 vetores. O modelo escolhe as palavras que acha que melhor representam os dados.
"Se houver um vídeo sobre porcos, o modelo pode atribuir a palavra 'porco' a um dos 1.000 vetores. Então, se o modelo ouvir alguém dizendo a palavra 'porco' em um clipe de áudio, ele ainda deve usar o mesmo vetor para codificar isso ", explicou Liu.
Seus vídeos, decodificados
Melhores sistemas de rotulagem como o desenvolvido pelo MIT podem ajudar a reduzir o viés na IA, disse Marian Beszedes, chefe de pesquisa e desenvolvimento da empresa de biometria Innovatrics, à Lifewire em uma entrevista por e-mail. Beszedes sugeriu que a indústria de dados pode ver os sistemas de IA da perspectiva do processo de fabricação.
"Os sistemas aceitam dados brutos como entrada (matérias-primas), pré-processam, ingerem, tomam decisões ou previsões e produzem análises (produtos acabados), " disse Beszedes. "Chamamos esse fluxo de processo de "fábrica de dados" e, como outros processos de fabricação, ele deve estar sujeito a controles de qualidade. A indústria de dados precisa tratar o viés de IA como um problema de qualidade.
"Do ponto de vista do consumidor, os dados rotulados incorretamente dificultam, por exemplo, a pesquisa on-line de imagens/vídeos específicos", acrescentou Beszedes. "Com a IA desenvolvida corretamente, você pode rotular automaticamente, muito mais rápido e mais neutro do que com rotulagem manual."
Mas o modelo do MIT ainda tem algumas limitações. Por um lado, sua pesquisa se concentrou em dados de duas fontes ao mesmo tempo, mas no mundo real, os humanos encontram muitos tipos de informações simultaneamente, disse Liu
"E sabemos que 1.000 palavras funcionam nesse tipo de conjunto de dados, mas não sabemos se isso pode ser generalizado para um problema do mundo real", acrescentou Liu.
Os pesquisadores do MIT dizem que sua nova técnica supera muitos modelos semelhantes. Se a IA puder ser treinada para entender os vídeos, você poderá, eventualmente, deixar de assistir aos vídeos de férias do seu amigo e obter um relatório gerado por computador.