Tại sao bạn chuyển từ Gemini TTS sang ElevenLabs?

ElevenLabs mang đến chất lượng giọng tốt hơn, biểu cảm tự nhiên hơn, thư viện chia sẻ lớn hơn với đa dạng chất giọng và tốc độ tạo âm thanh nhanh hơn. Gemini vẫn là động cơ cho nghiên cứu AI, định hướng chủ đề và viết kịch bản — chỉ có nhà cung cấp TTS thay đổi.

Bộ lọc chất giọng hoạt động như thế nào?

Bộ chọn giọng được thiết kế lại bao gồm các chip lọc chất giọng — Úc, Anh, Mỹ, Kansai, Seoul và hơn 25 chất giọng khác. Chạm vào một chip để lọc danh sách chỉ hiện các giọng có chất giọng đó. Kết hợp với các nhãn mô tả mới (thư thái, tự nhiên, điềm tĩnh, tự tin, trầm), việc chọn giọng phù hợp chỉ mất vài giây thay vì phải đoán mò.

Tính năng nghe thử giọng có còn chậm không?

Không. Các bản nghe thử giọng hiện được phục vụ từ CDN, phát tức thì — không cần chờ tạo âm thanh. Mỗi giọng đều có một đoạn nghe thử được tạo sẵn, tải ngay khi bạn chạm vào.

Quay lại Blog

4 tháng 7, 2026 · 5 phút đọc

Giới thiệu 279 Giọng ElevenLabs: Đợt Mở rộng Giọng AI Lớn nhất cho Podcast

DIALOGUE đã mở rộng thư viện giọng nói từ 30 giọng Gemini TTS lên 279 giọng ElevenLabs trên 7 ngôn ngữ, với bộ lọc chất giọng, nhãn mô tả và tính năng nghe thử tức thì qua CDN — Gemini vẫn được dùng cho nghiên cứu và viết kịch bản.

DIALOGUE hiện đi kèm 279 giọng ElevenLabs — khoảng 20 giọng nam và 20 giọng nữ cho mỗi ngôn ngữ trên Tiếng Anh, Tiếng Việt, Tiếng Nhật, Tiếng Hàn, Tiếng Tây Ban Nha, Tiếng Trung và Tiếng Pháp. Đây là đợt mở rộng giọng lớn nhất từ trước đến nay của sản phẩm, thay thế thư viện Gemini TTS 30 giọng trước đây. Dưới đây là những gì đã thay đổi, lý do và cách sử dụng.

Từ 30 lên 279 Giọng: Những gì Đã Thay đổi

Khi DIALOGUE ra mắt, bạn có khoảng 30 giọng Gemini TTS để chọn — một điểm khởi đầu tốt, nhưng phạm vi còn hạn chế. Điều đó có nghĩa là ít lựa chọn chất giọng hơn, ít tùy chọn tông giọng hơn và đôi khi phải đoán mò khi chọn người dẫn.

Thư viện ElevenLabs mới mang đến cho bạn 279 giọng được tuyển chọn trên cả 7 ngôn ngữ. Mỗi ngôn ngữ có khoảng 20 lựa chọn giọng nam và 20 giọng nữ, để bạn có thể kết hợp những người dẫn nghe thực sự khác biệt — không phải hai giọng nói lẫn vào nhau.

Đợt mở rộng này không chỉ là về con số. Giọng ElevenLabs mang đến nhịp điệu tự nhiên hơn, phạm vi cảm xúc tốt hơn và sự phân biệt rõ ràng hơn giữa các người nói. Với định dạng podcast hai người dẫn, điều này rất quan trọng — người nghe cần biết ai đang nói mà không cần kịch bản phải thông báo mỗi lần.

Nhãn Chất giọng và Mô tả: Duyệt Thay vì Đoán

Hai tính năng mới giúp danh mục mở rộng trở nên dễ sử dụng ở quy mô lớn:

Chip lọc chất giọng. Bộ chọn giọng hiện hỗ trợ hơn 25 chất giọng — Úc, Anh, Mỹ, Kansai, Seoul và nhiều hơn nữa. Chạm vào một chip và danh sách sẽ lọc về các giọng có chất giọng đó. Duyệt theo chất giọng hoạt động trên tất cả ngôn ngữ, để bạn có thể tìm giọng tiếng Việt với chất giọng Bắc hoặc Nam, hoặc giọng tiếng Nhật với ngữ điệu Tokyo hoặc Kansai.

Nhãn mô tả. Mỗi giọng được gắn thẻ với các mô tả trực quan — điềm tĩnh, tự nhiên, tự tin, trầm, thư thái, năng lượng, ấm áp, uy tín và nhiều hơn nữa. Đây là cùng các nhãn mà ElevenLabs sử dụng để phân loại thư viện giọng chia sẻ của họ, không phải thẻ văn bản tự do. Chúng hiển thị trực tiếp trong bộ chọn giọng, để bạn có thể quét nhanh tông giọng trước khi nghe thử.

Nghe thử Tức thì từ CDN

Trước đây, việc nghe thử giọng cần một vòng gửi-yêu cầu để tạo âm thanh — một độ trễ nhỏ nhưng tích tụ khi duyệt qua hàng chục tùy chọn. Giờ đây, mỗi giọng có một đoạn nghe thử được tạo sẵn, phục vụ từ CDN. Chạm vào một giọng, nghe ngay lập tức. Không chờ đợi, không vòng xoay tải.

Các bản nghe thử sử dụng cùng một đoạn văn bản mẫu cho tất cả các giọng, để so sánh công bằng — cùng từ ngữ, cùng nhịp điệu, khác giọng nói.

Tại sao là ElevenLabs? Còn Gemini thì sao?

ElevenLabs được chọn vì ba lý do:

Chất lượng giọng. ElevenLabs TTS liên tục tạo ra giọng nói tự nhiên hơn với ngữ điệu tốt hơn, đặc biệt phù hợp với phong cách trò chuyện mà podcast hai người dẫn cần.
Đa dạng chất giọng. Thư viện giọng chia sẻ của ElevenLabs có sự đa dạng chất giọng vượt trội so với Gemini TTS, điều rất quan trọng cho một sản phẩm đa ngôn ngữ.
Tốc độ. Việc tạo âm thanh của ElevenLabs đủ nhanh để phục vụ bước tổng hợp mà không làm chậm quá trình sản xuất tập.

Gemini không bị thay thế — nó vẫn là động cơ cho nghiên cứu AI, định hướng chủ đề và viết kịch bản. Chỉ có nhà cung cấp chuyển văn bản thành giọng nói thay đổi. Gemini viết podcast; ElevenLabs đọc nó.

Bộ Chọn Giọng được Thiết kế Lại

Giao diện bộ chọn giọng đã được xây dựng lại để hỗ trợ danh mục lớn hơn. Các thay đổi bao gồm:

Chip lọc chất giọng ở đầu trang để duyệt chỉ với một chạm
Xếp hạng dựa trên mức sử dụng — giọng bạn đã dùng sẽ xuất hiện trước
Bố cục thân thiện với điện thoại, hoạt động tốt trên màn hình nhỏ
Nhãn mô tả hiển thị ngay trong danh sách, không bị ẩn sau màn hình chi tiết

Mục tiêu là làm cho 279 giọng trở nên dễ quản lý, không quá tải. Lọc theo chất giọng, quét nhãn, nghe thử, chọn.

Điều này Có Ý nghĩa gì với Podcast của Bạn

Nhiều giọng hơn có nghĩa là nhiều quyền kiểm soát hơn với cách podcast của bạn nghe. Nếu bạn sản xuất nội dung đa ngôn ngữ, bạn có thể kết hợp tông giọng người dẫn nhất quán — một cặp người dẫn ấm áp, điềm tĩnh cho cập nhật nội bộ; một cặp sắc nét, năng động cho ra mắt sản phẩm. Nếu bạn bản địa hóa tập, bạn có thể chọn các cặp giọng mang năng lượng tương tự xuyên suốt các ngôn ngữ thay vì chỉ khớp giới tính.

279 giọng có sẵn ở mọi mức giá — không có tường phí giọng. Bắt đầu với 2 tập miễn phí và tự mình nghe các giọng mới.

Dùng thử thư viện giọng mới. Tạo một podcast và duyệt tất cả 279 giọng với tính năng nghe thử tức thì — miễn phí bắt đầu, không cần thẻ.

Tác giả

Chandler Nguyen

Ad exec turned AI builder. Full-stack engineer behind DIALØGUE and other production AI platforms. 18 years in tech, 4 books, still learning.

Sẵn sàng tạo podcast riêng của bạn?

Biến bất kỳ chủ đề hoặc tài liệu nào thành podcast chuyên nghiệp — với dàn ý và kịch bản được duyệt trước khi tạo audio.

Tạo Podcast