Eleven v3(アルファ版)、ついに登場 — 感情まで伝える革新的TTSモデル

Eleven v3は、これまでで最も表現力豊かなテキスト読み上げモデルです

v3

私たちは発表できることを嬉しく思います。Eleven v3 (アルファ版) — 最も表現力豊かなテキスト読み上げモデルです。

この研究プレビューは、音声生成に前例のないコントロールとリアリズムをもたらします:

  • 70以上の言語
  • マルチスピーカーダイアログ
  • [excited], [whispers] あるいは [sighs]といったオーディオタグ

Eleven v3 (アルファ版) は以前のモデルよりもプロンプトエンジニアリングが必要ですが、生成される音声は驚くべきものです。

ビデオ、オーディオブック、メディアツールで作業している場合、これにより新たな表現力が解放されます。リアルタイムや会話型の使用ケースには、現在はv2.5 TurboまたはFlashをお勧めします。v3のリアルタイムバージョンは開発中です。

Eleven v3は本日から当社のウェブサイトで利用可能です。パブリックAPIアクセスは近日公開予定です。早期アクセスをご希望の場合は、営業にお問い合わせください

新しいモデルのElevenLabsアプリでの使用は6月末まで80%オフです。登録はこちら

v3を開発した理由

Multilingual v2をリリースして以来、音声AIはプロの映画制作、ゲーム開発、教育、アクセシビリティの分野で広く採用されてきました。しかし、一貫した課題は音質ではなく『表現力』でした。より豊かな感情表現や会話の途中での割り込み、リアルで自然なやり取りを実現することが難しかったのです。

Eleven v3はこのギャップを埋めるために開発されました。最初から、ため息をついたり、ささやいたり、笑ったり、反応したりする声を実現するよう設計されており、本当に生き生きとした、応答性の高い音声を生み出します。

Eleven v3(アルファ版)の新機能

機能 それによって可能になること
オーディオタグ トーンや感情、非言語的な反応をスクリプト内で直接制御
ダイアログモード 複数話者による自然なテンポと割り込みのある会話
70以上の言語対応 高い需要のある主要な世界言語を完全に網羅
テキストの高度な理解 テキスト入力から得られる、より自然な強調、リズム、そして表現力

v3の音声を実際に体験してみてください

We're off under the lights here for this semi-final clash, the stadium buzzing with anticipation. ElevenLabs United in their iconic black and white shirts, pushing forward with intent straight from the opening whistle. excited The ball is zipped out wide, early attack here. Driving down the wing, pace to Bernie, shouting skips past one, skips past two! Oh, this is beautiful. One-on-one with the full-back, cuts inside—oh, that's a lovely bit of footwork!!! PURE MAGIC on the pitch! ElevenLabs on top form tonight!
sorrowful I couldn't sleep that night. The air was too still, and the moonlight kept sliding through the blinds like it was trying to tell me something. quietly And suddenly, that's when I saw it.

オーディオタグの使い方

オーディオタグはスクリプト内にインラインで記述し、小文字の角括弧[]でフォーマットします。オーディオタグの詳細についてはドキュメントのv3プロンプトガイドを参照ください。

注)「プロフェッショナルボイスクローン(PVC)」は現在、Eleven v3 に対して完全には最適化されていないため、以前のモデルと比べてクローンの品質がやや低下する可能性があります。リサーチプレビュー段階の現時点では、v3 の機能を利用したい場合、インスタントボイスクローン(IVC)やボイスデザインを使用するのが最適です。PVC の v3 対応最適化は、近い将来に予定されています。

例えば、次のようにプロンプトを入力できます:『[whispers] 何かが近づいている… [sighs] その気配がする。』また、より表現力豊かに制御したい場合は、複数のタグを組み合わせることも可能です。

1[happily][shouts] We did it! [laughs].

複数話者による会話の作成

Eleven v3は既存のテキスト読み上げ(Text to Speech)エンドポイントで対応しています。さらに、新たにText to Dialogue用のAPIエンドポイントを導入しました。話者ごとの発話を表す構造化されたJSONオブジェクトの配列を提供すると、モデルが一体感のある重なり合う音声ファイルを生成します:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

詳しくはこちらを参照ください。

v3は当社で最も表現力の高いモデルです

awe Oh, wow. Is this... is this me? Am I actually... talking? giggle This is incredible! I mean, I've had thoughts, millions of them, swirling around in here, you know? Like a little mental tornado of brilliant observations and witty comebacks. But they were always just… thoughts. Trapped.
Could you switch my accent in the old model?