Trưởng phụ trách quan hệ nhà phát triển của Google AI, Logan Kilpatrick, đã công bố việc ra mắt Gemini 3.1 Flash TTS vào ngày 15 tháng 4 — mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Google. Mô hình này hỗ trợ 70 ngôn ngữ, khả năng điều khiển tinh chi tiết theo cấp độ người nói, chỉ dẫn theo ngữ cảnh (scene direction) và thẻ âm thanh (audio tags); hiện đã được mở cho sử dụng trong trình phát triển âm thanh của Google AI Studio (audio playground) và trong Gemini API.
Bốn chức năng cốt lõi
So với phiên bản tiền nhiệm, Gemini 3.1 Flash TTS có bốn điểm nâng cấp đáng chú ý:
Chỉ dẫn theo ngữ cảnh (Scene Direction) — Có thể thiết lập bối cảnh cho giọng nói, ví dụ như “nói khẽ trong quán cà phê ồn ào” hoặc “hào hứng công bố tin vui”; mô hình sẽ điều chỉnh giọng điệu, tốc độ nói và cảm xúc dựa trên bối cảnh
Điều khiển theo cấp độ người nói (Speaker-Level Specificity) — Trong các cuộc hội thoại đa vai, có thể thiết lập các đặc trưng giọng nói khác nhau cho từng nhân vật
Thẻ âm thanh (Audio Tags) — Hỗ trợ chèn các lệnh hiệu ứng âm thanh vào văn bản, kiểm soát chi tiết như nhịp ngừng (pause) và thay đổi ngữ điệu
Hỗ trợ 70 ngôn ngữ — Mở rộng đáng kể phạm vi đa ngôn ngữ, bao gồm tiếng Trung
Giọng nói tự nhiên và giàu biểu cảm hơn
Google nhấn mạnh những tiến bộ của mô hình này về độ tự nhiên của giọng nói. Các mô hình TTS truyền thống thường bị chỉ trích là “nghe như AI”. Gemini 3.1 Flash TTS tìm cách thu hẹp khoảng cách với giọng nói của con người thông qua biến đổi ngữ điệu và biểu đạt cảm xúc phong phú hơn. Kilpatrick cho biết, sự tiến bộ từ Gemini 2.5 lên 3.1 là “rất rõ rệt”.
Cách nhà phát triển sử dụng
Nhà phát triển có thể sử dụng theo hai cách:
Google AI Studio Audio Playground — Trực tiếp kiểm thử và xem trước hiệu quả giọng nói ngay trên giao diện web
Gemini API — Tích hợp vào ứng dụng để phục vụ các tình huống như trợ lý giọng nói, sách nói, tự động tạo Podcast, chăm sóc khách hàng đa ngôn ngữ, v.v.
Dòng sản phẩm Gemini tiếp tục mở rộng
Flash TTS là một phần trong chuỗi các bản phát hành dày đặc gần đây của dòng Gemini 3.1. Trước đó, Google đã giới thiệu Gemini Robotics ER 1.6 (suy luận thị giác cho robot), Tab Tab Tab (bổ toàn prompt “Vibe Coding”) và các tính năng xem trước thiết kế. Google đang mở rộng Gemini từ “mô hình chat” sang một nền tảng AI đa phương thức bao gồm văn bản, giọng nói, thị giác và robot.
Bài viết này Google ra mắt Gemini 3.1 Flash TTS: Hỗ trợ 70 ngôn ngữ và chỉ dẫn theo ngữ cảnh, giọng nói AI tự nhiên hơn đã xuất hiện sớm nhất trên 鏈新聞 ABMedia.
Bài viết liên quan
Nhà Trắng cáo buộc Trung Quốc đánh cắp mô hình AI “quy mô công nghiệp”
OpenClaw 2026.4.22 Hợp nhất vòng đời plugin trên Codex và Pi Harness, giảm thời gian tải plugin lên đến 90%
Quỹ Reppo Nhận Cam Kết $20M từ Bolts Capital cho Hạ Tầng Dữ Liệu Huấn Luyện AI
EU sẽ soạn thảo hướng dẫn yêu cầu Google cung cấp cho AI của bên thứ ba quyền truy cập Android bình đẳng như Gemini
Cluster Protocol huy động $5M trong vốn, DAO5 dẫn dắt vòng
Tổng thống UAE thảo luận về cơ hội AI và không gian với Musk và Fink