मैंने ElevenLabs, Gemini, और VEO 2 का उपयोग करके टेक्स्ट-टू-कमर्शियल जनरेटर कैसे बनाया
कैसे मैंने एक पूर्ण AI-संचालित टूल बनाया जो सरल संकेतों को तैयार वीडियो विज्ञापनों में बदलता है।
मैंने दो दशकों तक कंटेंट बनाया है — पत्रकारिता से लेकर प्रोडक्ट वीडियो तक। AI ने नए क्रिएटिव वर्कफ़्लो को संभव बना दिया है। वाइब कोडिंग और यथार्थवादी वीडियो जनरेशन के संगम के साथ, मैंने सोचा कि क्या मैं एक ऐसा टूल बना सकता हूँ जो एक साधारण प्रॉम्प्ट ले और 20 सेकंड का विज्ञापन बना दे।
कॉन्सेप्ट सीधा था: एक मोटा प्रोडक्ट आइडिया टाइप करें, और AI-जनरेटेड विजुअल्स, वॉइसओवर, और साउंड इफेक्ट्स के साथ एक पूरी तरह से तैयार 30-सेकंड का विज्ञापन प्राप्त करें। मैंने इसे कैसे बनाया, यह जानें ElevenLabs TTS और SFX APIs, Google's Gemini, और Google का VEO 2 वीडियो जनरेशन के लिए। जब मैंने इसे बनाया, तब VEO 3 जारी नहीं हुआ था।
अंतिम संस्करण लगभग पूरी तरह से Anthropic के प्रभावशाली Claude 4 Opus के साथ बनाया गया था, हालांकि कुछ दिनों में क्योंकि मैं दर सीमा तक पहुँचता रहा।unknown node
स्टैक चयन: Node.js, Express, React, और Claude 4 Opus
मैंने बैकएंड के लिए Node.js और Express और फ्रंटएंड के लिए React चुना। Node रियल-टाइम अपडेट्स को संभालता है जब वीडियो जनरेट होते हैं, जबकि React की कंपोनेंट-बेस्ड आर्किटेक्चर मल्टी-स्टेप इंटरफेस को मैनेज और एक्सटेंड करना आसान बनाती है।
मैंने बचपन से कोड लिखा है — प्राथमिक स्कूल में एक रोबोट पेन के साथ शुरू किया। लेकिन मैं हमेशा एक प्रोडक्ट थिंकर रहा हूँ, फुल-टाइम इंजीनियर नहीं। Claude 4 Opus जैसे टूल्स ने इसे बदल दिया। सही प्रॉम्प्ट्स के साथ, मैं तेजी से काम कर सकता था, फीचर्स को सही तरीके से लागू कर सकता था, और प्रोडक्ट लॉजिक पर ध्यान केंद्रित कर सकता था, न कि बोइलरप्लेट पर।
यह AI को क्रिएटिविटी आउटसोर्स करने के बारे में नहीं है — यह सही टूल्स के साथ स्मार्ट तरीके से बनाने के बारे में है।
आठ-स्टेप विज़ार्ड: प्रॉम्प्ट से तैयार विज्ञापन तक

एक नए प्रोडक्ट या सेवा के लिए विज्ञापन बनाना, भले ही वह केवल 20 सेकंड का हो, कई जटिल चरणों में शामिल होता है, इसलिए मैंने इसे आठ अलग-अलग चरणों में विभाजित किया:
- प्रोडक्ट जानकारी
- स्क्रिप्ट जनरेशन
- वीडियो क्रिएशन
- Sound Effects
- वीडियो असेंबली
- वॉइस ओवर
- अंतिम वीडियो
- सोशल पोस्ट्स
प्रत्येक चरण पिछले चरण पर आधारित होता है, एक पाइपलाइन बनाता है जो एक साधारण आइडिया को एक पूर्ण विज्ञापन में बदल देता है। प्रत्येक चरण में मानव को किसी भी तत्व को बदलने या किसी भी टेक्स्ट, वीडियो या ऑडियो को पुनः जनरेट करने का पूरा नियंत्रण होता है।
Gemini Flash के साथ आइडियाज को परिष्कृत करना
पहली चुनौती यह थी कि अधिकांश लोग पूरी तरह से तैयार प्रोडक्ट आइडियाज के साथ शुरू नहीं करते। वे कुछ अस्पष्ट टाइप कर सकते हैं जैसे "प्रोडक्टिविटी के लिए कुछ।" यहीं पर Gemini काम आता है।
मैंने Google's Gemini 2.0 Flash मॉडल का उपयोग करके मोटे आइडियाज को ठोस प्रोडक्ट कॉन्सेप्ट्स में बदल दिया। यहाँ प्रॉम्प्ट इंजीनियरिंग महत्वपूर्ण थी – मुझे Gemini को विशिष्ट और ठोस बनाना था, न कि अस्पष्ट और सामान्य। "फिटनेस के लिए कुछ" स्वीकार करने के बजाय, सिस्टम इसे कुछ इस तरह बदल देता है "FitPulse AI: एक स्मार्ट रिस्टबैंड जो उन्नत बायोमेट्रिक्स का उपयोग करके आपके दिन भर में व्यक्तिगत माइक्रो-वर्कआउट्स बनाता है।"
1 | """Enhance a product idea using Gemini""" |
2 | |
3 | prompt = f""" |
4 | Enhance this product idea to make it more compelling: |
5 | |
6 | Original idea: {idea} |
7 | Target mood: {mood} |
8 | Target audience: {audience} |
9 | |
10 | Make it: |
11 | 1. Clear and specific about the value proposition |
12 | 2. Appeal to {audience} |
13 | 3. Match the {mood.lower()} tone |
14 | 4. Be memorable and marketable |
15 | |
16 | Keep it to 2-3 sentences. |
17 | """ |
Gemini के साथ गैर-सामान्य स्क्रिप्ट्स जनरेट करना
इसके बाद स्क्रिप्ट जनरेशन आया। फिर से Gemini का उपयोग करते हुए, मैंने आउटपुट को चार 5-सेकंड के दृश्यों के रूप में संरचित किया, प्रत्येक में तीन घटक थे:
- वॉइसओवर स्क्रिप्ट
- एक वीडियो जनरेशन प्रॉम्प्ट
- एक साउंड इफेक्ट्स विवरण
कुंजी थी Gemini को मूड और ऑडियंस को समझाना। मिलेनियल्स के लिए एक "क्वर्की" विज्ञापन को एंटरप्राइज ग्राहकों के लिए "प्रोफेशनल" विज्ञापन से अलग भाषा की आवश्यकता होती है।
मैंने काफी समय प्रॉम्प्ट्स को परिष्कृत करने में बिताया ताकि सामान्य AI-भाषा से बचा जा सके और ऐसी स्क्रिप्ट्स बनाई जा सकें जो प्रत्येक प्रोडक्ट के लिए अनुकूलित महसूस हों।
1 | """Generate a 4-scene commercial script""" |
2 | |
3 | prompt = f""" |
4 | Create a 30-second commercial script with exactly 4 scenes. |
5 | |
6 | Product: {product_name} |
7 | Audience: {target_audience} |
8 | Key Message: {key_message} |
9 | Mood: {mood} |
10 | |
11 | Return a JSON array with 4 scenes, each with: |
12 | - number: 1-4 |
13 | - duration: 5 |
14 | - script: What the voiceover says |
15 | - videoPrompt: |