Presentamos 279 Voces de ElevenLabs: La Mayor Expansión de Voces IA para Podcasts
DIALOGUE ha ampliado su biblioteca de voces de 30 voces Gemini TTS a 279 voces ElevenLabs en 7 idiomas, con filtro por acento, etiquetas descriptivas y vistas previas instantáneas servidas desde CDN — Gemini sigue utilizándose para la investigación y generación de guiones.
DIALOGUE ahora incluye 279 voces de ElevenLabs — aproximadamente 20 voces masculinas y 20 femeninas por idioma en inglés, vietnamita, japonés, coreano, español, chino y francés. Esta es la mayor expansión de voces en el producto, reemplazando la anterior biblioteca de 30 voces de Gemini TTS. Esto es lo que cambió, por qué y cómo usarlo.
De 30 a 279 Voces: Qué Cambió
Cuando DIALOGUE se lanzó, tenías alrededor de 30 voces de Gemini TTS para elegir — un punto de partida sólido, pero con un rango limitado. Eso significaba menos opciones de acento, menos opciones de tono y cierta dosis de adivinanza al elegir presentadores.
La nueva biblioteca de ElevenLabs te ofrece 279 voces seleccionadas en los 7 idiomas. Cada idioma recibe aproximadamente 20 opciones masculinas y 20 femeninas, para que puedas emparejar presentadores que realmente suenen diferentes — no dos voces que se confunden entre sí.
La expansión no es solo cuestión de números. Las voces de ElevenLabs aportan un ritmo más natural, mejor rango emocional y una diferenciación más clara entre los hablantes. Para un formato de podcast con dos presentadores, esto importa — el oyente necesita saber quién está hablando sin que el guion lo anuncie cada vez.
Etiquetas de Acento y Descriptivas: Explora en Lugar de Adivinar
Dos nuevas funciones hacen que el catálogo ampliado sea práctico a gran escala:
Chips de filtro por acento. El selector de voces ahora soporta más de 25 acentos — australiano, británico, estadounidense, Kansai, Seúl y más. Toca un chip y la lista se filtra a las voces que coinciden con ese acento. La navegación por acento funciona en todos los idiomas, para que puedas encontrar una voz vietnamita con acento del norte o del sur, o una voz japonesa con entonación de Tokio o Kansai.
Etiquetas descriptivas. Cada voz está etiquetada con descriptores intuitivos — calmado, casual, seguro, profundo, tranquilo, enérgico, cálido, autoritario y otros. Estas son las mismas etiquetas que ElevenLabs usa para categorizar su biblioteca de voces compartida, no etiquetas de texto libre. Aparecen directamente en el selector de voces, para que puedas evaluar el tono incluso antes de reproducir una vista previa.
Vistas Previas Instantáneas desde CDN
Antes, las vistas previas de voz requerían un viaje de ida y vuelta para generar audio — una pequeña demora que se acumulaba al explorar docenas de opciones. Ahora, cada voz tiene un clip de vista previa pregenerado servido desde CDN. Toca una voz, escúchala inmediatamente. Sin esperas, sin spinners.
Las vistas previas usan una transcripción estándar en todas las voces, para que las comparaciones sean justas — mismas palabras, mismo ritmo, diferente voz.
¿Por qué ElevenLabs? ¿Y qué pasa con Gemini?
ElevenLabs fue elegido por tres razones:
-
Calidad de voz. ElevenLabs TTS produce consistentemente un habla con sonido más natural y mejor prosodia, especialmente para el estilo conversacional que necesita un podcast de dos presentadores.
-
Diversidad de acentos. La biblioteca de voces compartida de ElevenLabs tiene mucha más variedad de acentos en todos los idiomas que Gemini TTS, lo cual es crítico para un producto multilingüe.
-
Velocidad. La generación de audio de ElevenLabs es lo suficientemente rápida para servir el paso de síntesis sin ralentizar la producción de episodios.
Gemini no ha sido reemplazado — sigue siendo el motor para la investigación con IA, la fundamentación de temas y la generación de guiones. Solo cambió el proveedor de texto a voz. Gemini escribe el podcast; ElevenLabs le da voz.
Selector de Voces Rediseñado
La interfaz del selector de voces fue reconstruida para soportar el catálogo más grande. Los cambios incluyen:
- Chips de filtro por acento en la parte superior para navegación con un solo toque
- Clasificación basada en uso — las voces que has usado aparecen primero
- Diseño adaptable que funciona en pantallas de teléfono
- Etiquetas descriptivas visibles en la lista, no ocultas detrás de una vista de detalle
El objetivo era hacer que 279 voces se sintieran manejables, no abrumadoras. Filtra por acento, revisa las etiquetas, reproduce una vista previa, elige.
Lo Que Esto Significa para tu Podcast
Más voces significan más control sobre cómo suena tu podcast. Si produces contenido en varios idiomas, puedes igualar los tonos de los presentadores de manera consistente — un par de presentadores cálidos y calmados para actualizaciones internas; un par agudo y enérgico para lanzamientos de productos. Si localizas episodios, puedes elegir pares de voces que transmitan una energía similar en todos los idiomas en lugar de solo coincidir por género.
Las 279 voces están disponibles en todos los niveles de precio — sin muro de pago para voces. Comienza con 2 episodios gratis y escucha las nuevas voces por ti mismo.
Prueba la nueva biblioteca de voces. Crea un podcast y explora las 279 voces con vistas previas instantáneas — gratis para empezar, sin tarjeta requerida.
Escrito por
Chandler NguyenAd exec turned AI builder. Full-stack engineer behind DIALØGUE and other production AI platforms. 18 years in tech, 4 books, still learning.
¿Listo para crear tu propio podcast?
Transforma cualquier tema o documento en un podcast profesional — con revisión de esquema y guion antes del audio.
Crear un podcast