279種類のElevenLabs音声を導入:ポッドキャスト向けAI音声の過去最大の拡張
DIALOGUEは音声ライブラリを30種類のGemini TTSから、7言語279種類のElevenLabs音声に拡張しました。アクセントフィルター、説明ラベル、CDNによる即時プレビューを搭載 — Geminiはリサーチと台本生成に引き続き使用されます。
DIALOGUEは現在、279種類のElevenLabs音声を搭載 — 英語、ベトナム語、日本語、韓国語、スペイン語、中国語、フランス語の7言語で、各言語約20の男性音声と20の女性音声を提供します。 これは製品史上最大の音声拡張であり、従来の30音声Gemini TTSライブラリを置き換えるものです。変更点、その理由、使い方をご紹介します。
30種類から279種類へ:何が変わったのか
DIALOGUEがローンチされた時点では、約30種類のGemini TTS音声から選択できました — 堅実な出発点でしたが、範囲は限られていました。つまり、アクセントの選択肢が少なく、トーンの選択肢も少なく、ホスト選びには推測がつきものでした。
新しいElevenLabsライブラリは、7言語すべてで厳選された279音声を提供します。各言語に約20の男性オプションと20の女性オプションがあり、実際に聞き分けられるホストをペアリングできます — 混ざってしまう二つの声ではなく。
この拡張は単なる数字の話ではありません。ElevenLabs音声は、より自然なペーシング、より豊かな感情表現、話者間のより明確な区別をもたらします。2人ホストのポッドキャスト形式では、これが重要です — スクリプトが毎回アナウンスしなくても、リスナーは誰が話しているかわかる必要があります。
アクセントと説明ラベル:推測ではなくブラウズ
大規模化したカタログを使いこなすための2つの新機能:
アクセントフィルターチップ。 音声ピッカーは25種類以上のアクセントに対応 — オーストラリア、イギリス、アメリカ、関西、ソウルなど。チップをタップすると、そのアクセントに合致する音声にリストがフィルターされます。アクセントブラウジングは全言語で機能するため、北部または南部アクセントのベトナム語音声や、東京または関西の抑揚を持つ日本語音声を見つけることができます。
説明ラベル。 各音声には直感的な記述子がタグ付けされています — 落ち着いた、カジュアル、自信に満ちた、深みのある、チル、エネルギッシュ、温かい、権威のある、その他。これらはElevenLabsが共有音声ライブラリの分類に使用しているものと同じラベルであり、フリーテキストタグではありません。音声ピッカーに直接表示されるため、プレビューを再生する前でもトーンを確認できます。
CDNからの即時プレビュー
以前は音声プレビューに音声生成のためのラウンドトリップが必要でした — 数十のオプションをブラウズする際に積み重なる小さな遅延。現在、すべての音声に事前生成されたプレビュークリップがあり、CDNから配信されます。音声をタップすれば即座に聞こえます。待ち時間なし、スピナーなし。
プレビューは全音声で同じ標準トランスクリプトを使用しているため、公平な比較が可能です — 同じ言葉、同じペーシング、異なる声。
なぜElevenLabsか?Geminiはどうなる?
ElevenLabsが選ばれた理由は3つあります:
-
音声品質。 ElevenLabs TTSは一貫してより自然な音声を生成し、特に2人ホストのポッドキャストに必要な会話スタイルに適した韻律を備えています。
-
アクセントの多様性。 ElevenLabsの共有音声ライブラリはGemini TTSよりもはるかに多くのアクセントバリエーションを言語横断で提供しており、多言語製品にとって重要です。
-
速度。 ElevenLabsの音声生成は、エピソード制作を遅らせることなく合成ステップを処理できるほど高速です。
Geminiは置き換えられたわけではありません — AIリサーチ、トピックのグラウンディング、台本生成のエンジンとして引き続き使用されます。変更されたのはテキスト読み上げプロバイダのみです。Geminiがポッドキャストを書き、ElevenLabsが声を吹き込みます。
刷新された音声ピッカー
音声ピッカーUIは大規模カタログに対応するため再構築されました。変更点は以下の通りです:
- 上部にアクセントフィルターチップでワンタップブラウジング
- 使用頻度ベースのランキング — 使用した音声が最初に表示されます
- モバイル画面でも快適に動作するレイアウト
- 説明ラベルがリストに表示され、詳細ビューの背後に隠れない
目標は279音声を扱いやすく、圧倒させないことです。アクセントでフィルター、ラベルをスキャン、プレビューを再生、選択。
あなたのポッドキャストにとっての意味
より多くの音声は、ポッドキャストの響きをより細かくコントロールできることを意味します。複数言語でコンテンツを制作する場合、ホストのトーンを一貫して合わせられます — 社内向け更新には温かく落ち着いたホストペア、製品ローンチには鋭くエネルギッシュなペア。エピソードをローカライズする場合、単に性別を合わせるのではなく、言語を超えて同じエネルギーを持つ声のペアを選べます。
279音声はすべての料金プランで利用可能 — 音声のペイウォールはありません。2つの無料エピソードから始めて、新しい音声を自分でお試しください。
新しい音声ライブラリをお試しください。 ポッドキャストを作成して、即時プレビューですべての279音声をブラウズ — 無料で開始、カード不要。
執筆者
Chandler NguyenAd exec turned AI builder. Full-stack engineer behind DIALØGUE and other production AI platforms. 18 years in tech, 4 books, still learning.

