
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
हम अगले महीने AI वॉइस ट्रांसलेशन टूल लॉन्च कर रहे हैं। यह यूज़र्स को किसी भी ऑडियो या वीडियो कंटेंट को दूसरी भाषा में बदलने की सुविधा देता है, जबकि मूल स्पीकर की आवाज़ को बनाए रखता है। हमारा लक्ष्य सरल है: स्ट्रीमिंग, गेमिंग और फिल्मों जैसे माध्यमों में बहुभाषी कंटेंट को सुलभ और प्रामाणिक बनाना।
हमने देखा है Spotify और OpenAI ने वॉइस ट्रांसलेशन और स्पीच क्षमताओं में अपनी प्रगति को दिखाया है, और हम अपनी खुद की प्रगति की खबर साझा करने के लिए उत्साहित हैं।
This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
आगामी टूल सिर्फ ट्रांसलेशन के बारे में नहीं है; यह स्पीकर की पहचान और मूल भाषण पैटर्न को भाषाओं के पार संरक्षित करने के बारे में है, जो पारंपरिक कैप्शनिंग की तुलना में अधिक जुड़ा और इमर्सिव अनुभव प्रदान करता है।
कल्पना करें कि एक शैक्षिक वीडियो अंग्रेजी में है। अगर कोई केवल स्पेनिश बोलता है (लेकिन विषय में रुचि रखता है), तो यह एक समस्या है। हम चाहते हैं कि मूल व्यक्ति मूल संदेश को स्वाभाविक रूप से नेटिव-ग्रेड स्पेनिश में बोल सके।
इसके लिए वॉइस कन्वर्ज़न, वॉइस क्लोनिंग और मल्टीलिंगुअल स्पीच सिंथेसिस क्षमताओं को एक नए टूल में जोड़ना आवश्यक है। यहां, वॉइस क्लोनिंग हमें स्पीकर की पहचान - उनकी आवाज़ की ध्वनि को संरक्षित करने देती है। हम स्पीच सिंथेसिस का उपयोग करके एक अलग भाषा में नए वाक्यांश उत्पन्न करते हैं जैसे कि वही व्यक्ति बोल रहा हो। वॉइस कन्वर्ज़न का उपयोग इसलिए होता है क्योंकि हम अधिकतम इमर्शन के लिए मूल भावनाओं, इरादे और डिलीवरी की शैली को संरक्षित करना चाहते हैं।
वीडियो वॉइसओवर, विज्ञापन पढ़ने, पॉडकास्ट और अन्य चीजों को आपकी अपनी आवाज़ में ऑटोमैट करें
हमने ऐसी तकनीक विकसित करने में बहुत शोध और नवाचार किया है जो मानव भाषण को अल्ट्रा-रियलिस्टिक रूप से प्रस्तुत कर सके, संदर्भ को समझ सके और वॉइस प्रोफाइल को एन्कोड कर सके। हमारा AI वॉइस ट्रांसलेशन टूल क्रिएटर्स को अपनी पहुंच बढ़ाने और संभावित दर्शकों को उनकी समझ में आने वाली भाषा की परवाह किए बिना, प्रासंगिक और आकर्षक कंटेंट खोजने में मदद करने की दिशा में एक महत्वपूर्ण कदम है।
डबिंग एक प्रक्रिया है जिसमें वीडियो को एक अलग भाषा के साउंडट्रैक के साथ प्रदान किया जाता है, जिसमें मूल अभिनेताओं की आवाज़ों को अलग भाषा बोलने वाले कलाकारों की आवाज़ों से बदल दिया जाता है - जिसे "री-वॉइसिंग" भी कहा जाता है - पारंपरिक रूप से एक महंगा और समय लेने वाला कार्य। Eleven में, हमारा लक्ष्य इसे स्वचालित रूप से करना है, जबकि भाषाओं के पार मूल आवाज़ों को संरक्षित करना है।
वॉइस कन्वर्ज़न एक व्यक्ति को दूसरे की आवाज़ में बोलने की अनुमति देता है। यह वॉइस क्लोनिंग का उपयोग करता है, एक लक्ष्य आवाज़ को एन्कोड करने और उसे स्रोत आवाज़ पर ओवरले करने के लिए। परिणामस्वरूप मूल संदेश किसी और के द्वारा बोला गया प्रतीत होता है।
टेक्स्ट टू स्पीच (TTS) सभी स्पीच सिंथेसिस तकनीक की जड़ है। TTS तकनीक वर्षों में काफी सुधरी है, हालांकि यह अभी भी अक्सर रोबोटिक लगती है। ऐसा इसलिए है क्योंकि शब्दों का प्रवाहपूर्ण उच्चारण अपने आप में भाषण को मानव गुणवत्ता देने के लिए अपर्याप्त है। यह इरादा-चालित टोन और गति है जो यह समझने से आती है कि क्या कहा जा रहा है, जो इसे स्वाभाविक बनाती है। Eleven में, हम यही हासिल करने की कोशिश करते हैं: हमारे मॉडल को मानव-भाषण डेटा की प्रचुरता के सामने लाकर, हम इसे वाक्यांशों के तार्किक और भावनात्मक संदर्भ को समझने और तदनुसार डिलीवरी को समायोजित करने के लिए प्रशिक्षित करते हैं।
हमारी AI टेक्स्ट टू स्पीच टेक्नोलॉजी 32 भाषाओं में हजारों हाई क्वालिटी, इंसान जैसी आवाज़ें प्रदान करती है। चाहे आप एक मुफ़्त टेक्स्ट टू स्पीच समाधान खोज रहे हों या व्यावसायिक प्रोजेक्ट्स के लिए प्रीमियम वॉइस AI सेवा, हमारे टूल आपकी ज़रूरतों को पूरा कर सकते हैं
हम अक्टूबर रिलीज़ का इंतजार कर रहे हैं और बहुभाषी कंटेंट के साथ जुड़ने के तरीके को बदलने के लिए उत्सुक हैं।
An AI twin of the world’s #1 life and business strategist
Recruitment Voice AI agents that boost engagement, and drive 95% call completion rates.
ElevenLabs द्वारा संचालित कन्वर्सेशनल AI