¿Cuántas voces tiene ahora DIALOGUE?

279 voces de ElevenLabs — aproximadamente 20 voces masculinas y 20 femeninas por idioma en 7 idiomas: inglés, vietnamita, japonés, coreano, español, chino y francés. Esto reemplaza la anterior biblioteca de 30 voces de Gemini TTS.

¿Por qué cambiaron de Gemini TTS a ElevenLabs?

ElevenLabs ofrece mejor calidad de voz, mayor expresividad natural, una biblioteca compartida más amplia con diversidad de acentos y una generación de audio más rápida. Gemini sigue siendo el motor para la investigación con IA, fundamentación de temas y generación de guiones — solo cambió el proveedor de TTS.

¿Cómo funciona el filtro por acento?

El selector de voces rediseñado incluye chips de filtro por acento — australiano, británico, estadounidense, Kansai, Seúl y más de 25 acentos adicionales. Toca un chip para filtrar la lista a las voces que coincidan con ese acento. Combinado con las nuevas etiquetas descriptivas (tranquilo, casual, calmado, seguro, profundo), seleccionar la voz correcta toma segundos en lugar de adivinanzas.

¿Las vistas previas de voz siguen siendo lentas?

No. Las vistas previas de voz ahora se sirven desde CDN, por lo que se reproducen instantáneamente — sin esperar la generación de audio. Cada voz tiene un clip de vista previa pregenerado que se carga en el momento en que lo tocas.

Volver al Blog

4 de julio de 2026 · 5 min de lectura

Presentamos 279 Voces de ElevenLabs: La Mayor Expansión de Voces IA para Podcasts

DIALOGUE ha ampliado su biblioteca de voces de 30 voces Gemini TTS a 279 voces ElevenLabs en 7 idiomas, con filtro por acento, etiquetas descriptivas y vistas previas instantáneas servidas desde CDN — Gemini sigue utilizándose para la investigación y generación de guiones.

DIALOGUE ahora incluye 279 voces de ElevenLabs — aproximadamente 20 voces masculinas y 20 femeninas por idioma en inglés, vietnamita, japonés, coreano, español, chino y francés. Esta es la mayor expansión de voces en el producto, reemplazando la anterior biblioteca de 30 voces de Gemini TTS. Esto es lo que cambió, por qué y cómo usarlo.

De 30 a 279 Voces: Qué Cambió

Cuando DIALOGUE se lanzó, tenías alrededor de 30 voces de Gemini TTS para elegir — un punto de partida sólido, pero con un rango limitado. Eso significaba menos opciones de acento, menos opciones de tono y cierta dosis de adivinanza al elegir presentadores.

La nueva biblioteca de ElevenLabs te ofrece 279 voces seleccionadas en los 7 idiomas. Cada idioma recibe aproximadamente 20 opciones masculinas y 20 femeninas, para que puedas emparejar presentadores que realmente suenen diferentes — no dos voces que se confunden entre sí.

La expansión no es solo cuestión de números. Las voces de ElevenLabs aportan un ritmo más natural, mejor rango emocional y una diferenciación más clara entre los hablantes. Para un formato de podcast con dos presentadores, esto importa — el oyente necesita saber quién está hablando sin que el guion lo anuncie cada vez.

Etiquetas de Acento y Descriptivas: Explora en Lugar de Adivinar

Dos nuevas funciones hacen que el catálogo ampliado sea práctico a gran escala:

Chips de filtro por acento. El selector de voces ahora soporta más de 25 acentos — australiano, británico, estadounidense, Kansai, Seúl y más. Toca un chip y la lista se filtra a las voces que coinciden con ese acento. La navegación por acento funciona en todos los idiomas, para que puedas encontrar una voz vietnamita con acento del norte o del sur, o una voz japonesa con entonación de Tokio o Kansai.

Etiquetas descriptivas. Cada voz está etiquetada con descriptores intuitivos — calmado, casual, seguro, profundo, tranquilo, enérgico, cálido, autoritario y otros. Estas son las mismas etiquetas que ElevenLabs usa para categorizar su biblioteca de voces compartida, no etiquetas de texto libre. Aparecen directamente en el selector de voces, para que puedas evaluar el tono incluso antes de reproducir una vista previa.

Vistas Previas Instantáneas desde CDN

Antes, las vistas previas de voz requerían un viaje de ida y vuelta para generar audio — una pequeña demora que se acumulaba al explorar docenas de opciones. Ahora, cada voz tiene un clip de vista previa pregenerado servido desde CDN. Toca una voz, escúchala inmediatamente. Sin esperas, sin spinners.

Las vistas previas usan una transcripción estándar en todas las voces, para que las comparaciones sean justas — mismas palabras, mismo ritmo, diferente voz.

¿Por qué ElevenLabs? ¿Y qué pasa con Gemini?

ElevenLabs fue elegido por tres razones:

Calidad de voz. ElevenLabs TTS produce consistentemente un habla con sonido más natural y mejor prosodia, especialmente para el estilo conversacional que necesita un podcast de dos presentadores.
Diversidad de acentos. La biblioteca de voces compartida de ElevenLabs tiene mucha más variedad de acentos en todos los idiomas que Gemini TTS, lo cual es crítico para un producto multilingüe.
Velocidad. La generación de audio de ElevenLabs es lo suficientemente rápida para servir el paso de síntesis sin ralentizar la producción de episodios.

Gemini no ha sido reemplazado — sigue siendo el motor para la investigación con IA, la fundamentación de temas y la generación de guiones. Solo cambió el proveedor de texto a voz. Gemini escribe el podcast; ElevenLabs le da voz.

Selector de Voces Rediseñado

La interfaz del selector de voces fue reconstruida para soportar el catálogo más grande. Los cambios incluyen:

Chips de filtro por acento en la parte superior para navegación con un solo toque
Clasificación basada en uso — las voces que has usado aparecen primero
Diseño adaptable que funciona en pantallas de teléfono
Etiquetas descriptivas visibles en la lista, no ocultas detrás de una vista de detalle

El objetivo era hacer que 279 voces se sintieran manejables, no abrumadoras. Filtra por acento, revisa las etiquetas, reproduce una vista previa, elige.

Lo Que Esto Significa para tu Podcast

Más voces significan más control sobre cómo suena tu podcast. Si produces contenido en varios idiomas, puedes igualar los tonos de los presentadores de manera consistente — un par de presentadores cálidos y calmados para actualizaciones internas; un par agudo y enérgico para lanzamientos de productos. Si localizas episodios, puedes elegir pares de voces que transmitan una energía similar en todos los idiomas en lugar de solo coincidir por género.

Las 279 voces están disponibles en todos los niveles de precio — sin muro de pago para voces. Comienza con 2 episodios gratis y escucha las nuevas voces por ti mismo.

Prueba la nueva biblioteca de voces. Crea un podcast y explora las 279 voces con vistas previas instantáneas — gratis para empezar, sin tarjeta requerida.

Escrito por

Chandler Nguyen

Ad exec turned AI builder. Full-stack engineer behind DIALØGUE and other production AI platforms. 18 years in tech, 4 books, still learning.

¿Listo para crear tu propio podcast?

Transforma cualquier tema o documento en un podcast profesional — con revisión de esquema y guion antes del audio.

Crear un podcast