Princípios importantes
- A Nvidia recentemente mostrou uma técnica que transforma fotos 2D em cenas 3D em poucos segundos.
- O método usa o poder do computador para aproximar como a luz se comporta no mundo real.
- O metaverso é uma área onde as cenas 3D são úteis porque podem ser vistas de qualquer perspectiva de câmera.
A nova tecnologia de inteligência artificial (IA) da Nvidia poderá em breve transformar fotos 2D em cenas 3D em apenas alguns segundos, tornando a criação de espaços virtuais imersivos como o metaverso tão trivial quanto o processamento de texto.
A Nvidia demonstrou recentemente o método de foto chamado Instant NeRF, que usa o poder da computação para aproximar como a luz se comporta no mundo real. Ele pode transformar suas fotos antigas em uma cena de videogame ou pode ser usado para treinar robôs e carros autônomos para entender o tamanho e a forma de objetos do mundo real.
"A imagem 3D traz um novo mundo de transformação", disse Oren Debbi, CEO da Visionary.ai, uma empresa de visão computacional que executa seus algoritmos 3D na plataforma Nvidia, à Lifewire em uma entrevista por e-mail. “Usando 3D, você imita a profundidade do mundo real na cena e faz a imagem parecer mais viva e realista. usuário mesmo sabendo."
Adicionando Dimensões
A primeira foto instantânea, tirada há 75 anos com uma câmera Polaroid, teve como objetivo capturar rapidamente o mundo 3D em uma imagem 2D. Agora, os pesquisadores de IA estão trabalhando no oposto: transformar uma coleção de imagens estáticas em uma cena 3D digital em segundos.
Conhecido como renderização inversa, o processo usa IA para aproximar como a luz se comporta no mundo real, permitindo que os pesquisadores reconstruam uma cena 3D a partir de um punhado de imagens 2D tiradas em diferentes ângulos. A Nvidia afirma que desenvolveu uma abordagem que realiza essa tarefa quase instantaneamente.
Nvidia usou essa abordagem com uma nova tecnologia chamada campos de radiação neural, ou NeRF. A empresa diz que o resultado, apelidado de Instant NeRF, é a técnica de NeRF mais rápida até hoje. O modelo requer apenas alguns segundos para treinar em algumas dúzias de fotos e pode renderizar a cena 3D resultante em dezenas de milissegundos.
"Se as representações 3D tradicionais, como malhas poligonais, são semelhantes a imagens vetoriais, os NeRFs são como imagens de bitmap: capturam densamente a forma como a luz irradia de um objeto ou dentro de uma cena", David Luebke, vice-presidente de pesquisa gráfica da Nvidia, disse em um comunicado à imprensa: “Nesse sentido, o Instant NeRF pode ser tão importante para o 3D quanto as câmeras digitais e a compressão JPEG foram para a fotografia 2D – aumentando enormemente a velocidade, facilidade e alcance da captura e compartilhamento 3D.”
A coleta de dados para alimentar um NeRF requer que a rede neural capture algumas dezenas de imagens tiradas de várias posições ao redor da cena, bem como a posição da câmera de cada uma dessas fotos.
O NeRF treina uma pequena rede neural para reconstruir a cena prevendo a cor da luz que irradia em qualquer direção, a partir de qualquer ponto no espaço 3D.
O apelo do 3D
O metaverso é uma área em que as cenas 3D são úteis porque podem ser vistas de qualquer perspectiva de câmera, disse Brad Quinton, fundador da plataforma Perceptus para realidade aumentada (AR), à Lifewire em uma entrevista por e-mail. Assim como podemos caminhar por uma sala na vida real e ver seu conteúdo de muitos ângulos diferentes, com uma cena 3D reconstruída, podemos nos mover virtualmente por um espaço e visualizá-lo de qualquer perspectiva.
"Isso pode ser particularmente útil para criar ambientes para uso em realidade virtual", disse Quinton.
Programas como o Object Capture da Apple usam uma técnica chamada fotogrametria para criar objetos 3D virtuais a partir de uma série de imagens 2D. Os modelos 3D serão usados extensivamente em aplicações de realidade virtual e AR, previu Quinton. Por exemplo, algumas IAs, como a da Perceptus AR Platform, usam modelos 3D para criar uma compreensão do mundo real, o que permite aplicativos de AR em tempo real.
O uso de imagens 3D também imita a profundidade do mundo real em uma cena e faz a imagem parecer mais viva e realista, disse Debbi. Para criar um efeito Bokeh (também conhecido como modo retrato ou modo cinematográfico), é necessário o mapeamento de profundidade 3D. A técnica é usada em quase todos os smartphones.
"Este já é o padrão para cinegrafistas profissionais que filmam filmes, e está se tornando o padrão para todos os consumidores", acrescentou Debbi.