Princípios importantes
- DeepZen usa IA (inteligência artificial) para criar audiolivros surpreendentemente realistas a partir de texto.
- A tecnologia usa dubladores humanos reais para fornecer os blocos de construção.
- Amazon e Audible atualmente não aceitam audiolivros gerados por computador.
DeepZen é uma empresa que cria vozes computadorizadas usadas em audiolivros, baseadas nas vozes reais de atores humanos. A qualidade é assustadora - facilmente boa o suficiente para ouvir por horas a fio. O truque aqui é o componente AI (inteligência artificial), que pode ler o texto e inferir a resposta emocional correta com base no contexto. Em seguida, coloca essa emoção na voz.
É impressionante e muito conveniente. Mas nós realmente queremos uma experiência de audiolivro homogeneizada? E os dubladores?
"Do ponto de vista da editora independente, qualquer coisa que reduza o custo de produção de audiolivros é muito interessante", disse Rick Carlile, proprietário da editora independente Carlile Media, à Lifewire por e-mail.
"Mas essa atração pressupõe que o produto seria de qualidade igual à narração tradicional. Eu não acho que estamos cem por cento lá ainda. Não me interpretem mal, DeepZen é surpreendentemente bom. É um tremendo avanço, e seus criadores merecem imensos elogios e sucesso. Mas ainda não é perfeito."
Áudio Isso é 'bom o suficiente'
A melhor maneira de entender a qualidade do DeepZen é ouvir os samples. Se você não sabia que eles eram gerados por computador, talvez nem percebesse. Não por um tempo de qualquer maneira. Vamos supor que a IA do DeepZen seja perfeita e que nunca interprete mal as notas emocionais que deveria estar atingindo.
Mesmo assim, um humano pode oferecer interpretações mais sutis e muitas vezes mais surpreendentes. Um ator pode dar uma reviravolta inesperada nas palavras que um computador nunca consideraria. E, na realidade, a interpretação da IA certamente ainda não é tão boa quanto a de um dublador profissional.
"Como alguém que trabalha em filmes e, mais recentemente, no mundo da narração em áudio, enquanto estou impressionado com a IA - eu sei que há profundidades profundas de significado que uma máquina não pode interpretar ", voz profissional o ator Paul Cram disse à Lifewire por e-mail.
"Haverá uma onda de autores desconhecidos usando-o? Garanto que haverá porque é 'bom o suficiente'."
Ser bom o suficiente, combinado com a conveniência e economia de custos, pode ser suficiente para atrair editores independentes para o serviço.
"Os audiolivros podem custar até US$ 500 por hora finalizada de áudio (muito mais para uma voz de celebridade), e isso não inclui o custo de tempo de gerenciamento e administração", diz Carlile. "Ser capaz de reduzir pela metade esse custo simplesmente enviando um manuscrito para um provedor como o DeepZen é extremamente atraente."
Problema de Fala
Ainda não é tão fácil quanto demitir seus dubladores e enviar manuscritos para o DeepZen. Atualmente, há uma barreira para a fácil oração de IA de audiolivros, e é da Amazon.
"Atualmente, ACX, a rota do auto-editor para a distribuição de audiolivros Audible e Amazon, não aceitará audiolivros que um humano não gravou ", diz Carlile.
Por quê? Qualidade. Aqui está a entrada de perguntas frequentes do site:
"Texto para fala ou outras gravações automatizadas não são permitidas. Ouvintes audíveis escolhem audiolivros para a apresentação do material, bem como para a história. Para atender a essa expectativa, seu audiolivro deve ser gravado por um humano."
Isso significa que os audiolivros gerados pelo DeepZen estão disponíveis, pelo menos por enquanto. Isso é pura especulação, mas o DeepZen parece uma boa aquisição para a Amazon, permitindo que ela venda o serviço e o mantenha apenas para livros Audible. E mesmo que isso não aconteça, se a qualidade dos audiolivros gerados por computador for tão boa quanto essa, parece haver poucas razões para não abrir uma exceção a essa regra.
Você ficaria feliz em ouvir audiolivros feitos dessa forma? Quando isso acontecer, a maioria das pessoas nem suspeitará. Alguns podem preferir a perfeição das vozes geradas por computador porque estarão livres dos tiques vocais e hábitos que às vezes podem distrair. A tecnologia também é adequada para videogames, anúncios de TV e rádio e qualquer outro cenário em que você contrataria um dublador.
A tecnologia do DeepZen também seria uma ótima maneira de criar automaticamente podcasts de notícias a partir de artigos escritos, o que pode ser útil para o deslocamento diário.
E os dubladores? Bem, haverá pelo menos uma oportunidade: eles podem ir trabalhar para o DeepZen.