Como dar vida aos vídeos Veo 2 com locuções e efeitos sonoros da ElevenLabs

7 de mai. de 2025 • 10 minutos de leitura

A man with glasses and a beard looking to the side in a room with bookshelves.

Este artigo explora como usar locuções e efeitos sonoros da ElevenLabs para aprimorar os vídeos fotorrealistas do Veo 2 do Google, criando experiências de visualização verdadeiramente imersivas.

Neon sign displaying the text "VEO2" with colorful reflections on a wet surface.

Neon sign spelling "VET" with reflections on a wet surface.

Fale com Vendas

O Veo 2 do Google facilita mais do que nunca a geração de vídeos fotorrealistas — e agora está disponível no aplicativo web Gemini. Vídeos de oito segundos com prompts diretamente aprimorados pelo Gemini, permitindo edições fáceis.

Só os visuais não são suficientes. O som transforma uma sequência silenciosa em uma experiência totalmente imersiva, e é aí que a ElevenLabs entra. Com a ElevenLabs, gerar uma locução dinâmica AI voiceover em uma variedade de idiomas ou adicionar sound effects pode transformar um vídeo simples em uma história cativante.

Tentei fazer exatamente isso quando usei o Veo 2 do laboratório DeepMind do Google para contar a história de uma cidade que nunca dorme. Gerei 18 clipes diferentes, cada um com cerca de 5 a 8 segundos, focando em cenários urbanos. Os clipes apresentam letreiros de neon, chuva, um trem e várias cenas de rua. Para unir esses momentos fragmentados, adicionei uma locução e efeitos sonoros usando a ElevenLabs.

A person walking on a city street near a bus stop with a bus in the background.

Criando uma Locução Cativante

Uma locução bem elaborada traz estrutura e profundidade emocional ao seu vídeo. Embora possa ser o melhor gerador de vídeos para realismo, os clipes do Veo 2 muitas vezes carecem de consistência de cena ou personagem, tornando a narração o elemento unificador perfeito.

Em vez de deixar o espectador interpretar visuais fragmentados, uma locução cuidadosamente projetada oferece clareza, guiando-o pela história. Você pode começar com o roteiro da locução e depois criar clipes para combinar, ou começar com as cenas (geralmente de um storyboard) e depois escrever para as cenas. Para o vídeo da cidade, criei os prompts primeiro.