Google ra mắt Gemini 3.1 Flash TTS: hỗ trợ 70 ngôn ngữ và kịch bản theo từng bối cảnh, giọng nói AI tự nhiên hơn

ChainNewsAbmedia

Trưởng phụ trách quan hệ nhà phát triển của Google AI, Logan Kilpatrick, đã công bố việc ra mắt Gemini 3.1 Flash TTS vào ngày 15 tháng 4 — mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Google. Mô hình này hỗ trợ 70 ngôn ngữ, khả năng điều khiển tinh chi tiết theo cấp độ người nói, chỉ dẫn theo ngữ cảnh (scene direction) và thẻ âm thanh (audio tags); hiện đã được mở cho sử dụng trong trình phát triển âm thanh của Google AI Studio (audio playground) và trong Gemini API.

Bốn chức năng cốt lõi

So với phiên bản tiền nhiệm, Gemini 3.1 Flash TTS có bốn điểm nâng cấp đáng chú ý:

Chỉ dẫn theo ngữ cảnh (Scene Direction) — Có thể thiết lập bối cảnh cho giọng nói, ví dụ như “nói khẽ trong quán cà phê ồn ào” hoặc “hào hứng công bố tin vui”; mô hình sẽ điều chỉnh giọng điệu, tốc độ nói và cảm xúc dựa trên bối cảnh

Điều khiển theo cấp độ người nói (Speaker-Level Specificity) — Trong các cuộc hội thoại đa vai, có thể thiết lập các đặc trưng giọng nói khác nhau cho từng nhân vật

Thẻ âm thanh (Audio Tags) — Hỗ trợ chèn các lệnh hiệu ứng âm thanh vào văn bản, kiểm soát chi tiết như nhịp ngừng (pause) và thay đổi ngữ điệu

Hỗ trợ 70 ngôn ngữ — Mở rộng đáng kể phạm vi đa ngôn ngữ, bao gồm tiếng Trung

Giọng nói tự nhiên và giàu biểu cảm hơn

Google nhấn mạnh những tiến bộ của mô hình này về độ tự nhiên của giọng nói. Các mô hình TTS truyền thống thường bị chỉ trích là “nghe như AI”. Gemini 3.1 Flash TTS tìm cách thu hẹp khoảng cách với giọng nói của con người thông qua biến đổi ngữ điệu và biểu đạt cảm xúc phong phú hơn. Kilpatrick cho biết, sự tiến bộ từ Gemini 2.5 lên 3.1 là “rất rõ rệt”.

Cách nhà phát triển sử dụng

Nhà phát triển có thể sử dụng theo hai cách:

Google AI Studio Audio Playground — Trực tiếp kiểm thử và xem trước hiệu quả giọng nói ngay trên giao diện web

Gemini API — Tích hợp vào ứng dụng để phục vụ các tình huống như trợ lý giọng nói, sách nói, tự động tạo Podcast, chăm sóc khách hàng đa ngôn ngữ, v.v.

Dòng sản phẩm Gemini tiếp tục mở rộng

Flash TTS là một phần trong chuỗi các bản phát hành dày đặc gần đây của dòng Gemini 3.1. Trước đó, Google đã giới thiệu Gemini Robotics ER 1.6 (suy luận thị giác cho robot), Tab Tab Tab (bổ toàn prompt “Vibe Coding”) và các tính năng xem trước thiết kế. Google đang mở rộng Gemini từ “mô hình chat” sang một nền tảng AI đa phương thức bao gồm văn bản, giọng nói, thị giác và robot.

Bài viết này Google ra mắt Gemini 3.1 Flash TTS: Hỗ trợ 70 ngôn ngữ và chỉ dẫn theo ngữ cảnh, giọng nói AI tự nhiên hơn đã xuất hiện sớm nhất trên 鏈新聞 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Nhà Trắng cáo buộc Trung Quốc đánh cắp mô hình AI “quy mô công nghiệp”

Nhà Trắng đã cảnh báo vào ngày 23 tháng 4 năm 2026 rằng các thực thể nước ngoài, chủ yếu ở Trung Quốc, đang tiến hành các chiến dịch “quy mô công nghiệp” để sao chép các mô hình trí tuệ nhân tạo của Mỹ, theo một bản ghi nhớ của Michael Kratsios, Trợ lý cho

CryptoFrontier51phút trước

OpenClaw 2026.4.22 Hợp nhất vòng đời plugin trên Codex và Pi Harness, giảm thời gian tải plugin lên đến 90%

Tin tức Cổng, ngày 23 tháng 4 — OpenClaw, một nền tảng Tác nhân AI mã nguồn mở, đã phát hành phiên bản 2026.4.22 vào ngày 22 tháng 4, với thay đổi lớn nhất là việc đồng bộ vòng đời của bộ harness Codex và bộ harness Pi. Trước đây, các plugin hoạt động không nhất quán giữa hai luồng harness, với một số hook bị thiếu trong một số môi trường

GateNews1giờ trước

Quỹ Reppo Nhận Cam Kết $20M từ Bolts Capital cho Hạ Tầng Dữ Liệu Huấn Luyện AI

Tin tức từ Gate News, ngày 23 tháng 4 — Quỹ Reppo thông báo rằng họ đã nhận được một cam kết tài trợ chiến lược trị giá $20 triệu USD từ Bolts Capital nhằm thúc đẩy phát triển giao thức và mở rộng hệ sinh thái, với trọng tâm xây dựng hạ tầng dữ liệu huấn luyện AI được hỗ trợ bởi thị trường dự đoán. Cách tiếp cận cốt lõi của Reppo

GateNews2giờ trước

EU sẽ soạn thảo hướng dẫn yêu cầu Google cung cấp cho AI của bên thứ ba quyền truy cập Android bình đẳng như Gemini

Tin tức từ Gate, ngày 23 tháng 4 — Liên minh châu Âu sẽ soạn thảo các hướng dẫn yêu cầu Google cung cấp cho ChatGPT và Claude quyền truy cập các tính năng tương tự trên Android như Gemini nhận được, theo các nguồn tin từ thị trường. Động thái này nhằm đảm bảo các ứng dụng AI của bên thứ ba có quyền và

GateNews2giờ trước

Cluster Protocol huy động $5M trong vốn, DAO5 dẫn dắt vòng

Tin cổng thông tin, ngày 23 tháng 4 — Cluster Protocol, một công ty công nghệ sâu AI và hạ tầng Web3, đã công bố hoàn tất một vòng cấp vốn trị giá $5 triệu do DAO5 dẫn dắt, với sự tham gia của Paper Ventures, JPEG Trading và Mapleblock Capital. Tổng số vốn công ty đã huy động đến nay đạt 7,75 triệu USD

GateNews3giờ trước

Tổng thống UAE thảo luận về cơ hội AI và không gian với Musk và Fink

Tin tức Cổng, ngày 23 tháng 4 — Tổng thống UAE Sheikh Mohamed bin Zayed Al Nahyan đã có cuộc trao đổi với người sáng lập SpaceX là Elon Musk và Chủ tịch BlackRock là Larry Fink về các cơ hội tiềm năng trong trí tuệ nhân tạo và lĩnh vực không gian. Theo Cơ quan tin Wam của UAE, Musk đã nói chuyện với nhà lãnh đạo Tiểu vương quốc này qua điện thoại

GateNews3giờ trước
Bình luận
0/400
Không có bình luận