Google AI 开发者关系负责人 Logan Kilpatrick 于 4 月 15 日宣布推出 Gemini 3.1 Flash TTS——Google 最新的文字转语音模型。这款模型支持 70 种语言、场景导演(scene direction)、说话者级别的精细控制与音频标签,目前已在 Google AI Studio 的音频 playground 和 Gemini API 中开放使用。
四大核心功能
Gemini 3.1 Flash TTS 相较于前代有四项显著升级:
场景导演(Scene Direction)—— 可以为语音设置情境,例如“在嘈杂的咖啡厅中低声说话”或“兴奋地宣布好消息”,模型会根据场景调整语调、语速和情绪
说话者级别控制(Speaker-Level Specificity)—— 在多角色对话中,可以为每个角色设置不同的声音特征
音频标签(Audio Tags)—— 支持在文本中插入音效指令,控制停顿、语气变化等细节
70 种语言支持—— 大幅扩展多语言覆盖,包含中文
更自然、更有表现力的声音
Google 强调这款模型在语音自然度上的进步。传统 TTS 模型的输出常被批评为“听起来像 AI”,Gemini 3.1 Flash TTS 试图通过更丰富的韵律变化和情绪表达来缩小与人类语音的差距。Kilpatrick 指出,从 Gemini 2.5 到 3.1 的进步“非常显著”。
开发者如何使用
开发者可通过两种方式使用:
Google AI Studio 音频 Playground—— 直接在网页界面中测试和预览语音效果
Gemini API—— 整合至应用程序中,用于语音助理、有声书、Podcast 自动生成、多语言客服等场景
Gemini 产品线持续扩张
Flash TTS 是 Gemini 3.1 系列近期密集发布的一环。此前 Google 已推出 Gemini Robotics ER 1.6(机器人视觉推理)、Tab Tab Tab(Vibe Coding prompt 补全)和设计预览等功能。Google 正在将 Gemini 从“聊天模型”扩展为涵盖文字、语音、视觉、机器人的全模态 AI 平台。
这篇文章 Google 推出 Gemini 3.1 Flash TTS:支持 70 种语言与场景导演,AI 语音更自然 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
OpenAI 和 AWS 将于 4月28日举办面向客户的活动
Gate 新闻消息,4月27日——根据《The Information》,OpenAI 和 Amazon Web Services (AWS) 的高管将于明天 4月28日举办一场面向客户的活动。
OpenAI 表示,它现在可以向任何云服务提供商的客户提供其所有产品
GateNews10 分钟前
Google DeepMind加入韩国的K-Moonshot,用AI应对科学挑战
谷歌 DeepMind 已与韩国达成合作伙伴关系,为该国 K-Moonshot 计划提供技术支撑。该计划是一项雄心勃勃的国家项目,旨在利用 AI 解决本世纪最复杂的科学挑战。
摘要
谷歌 DeepMind 与 Sout
Cryptonews 2小时前
Gate 将于 4 月 28 日举办 AI 交易 Space 圆桌:探索 AI 作为下一轮 Web3 周期驱动力
Gate 新闻消息,4 月 27 日——Gate 将于 4 月 28 日晚 8 点举办一场关于 AI 交易的直播 Space 圆桌讨论,汇聚行业专家,探讨 AI 是否深度融入交易工作流程,是否标志着下一轮 Web3 周期的真正起点。
本次讨论将探讨 AI 基础设施的演进、交易结构的转型,以及金融范式的变化。嘉宾将分析 AI 如何从一款独立的分析工具过渡为核心交易枢纽,从根本上重塑金融市场的博弈动态。
参与方式:用户需关注 @sunpumpmeme 和 @Agent_SunGenX,转发活动帖,并@三位朋友。将随机抽取 5 位幸运参与者,每人获得 10 USDT。
GateNews2小时前
Mac Studio 跑大模型实测:M3 Ultra、集群方案与 M5 Ultra 预期
2026 年 4 月,DeepSeek V4 Pro、Kimi K2.6 等 1 兆参数级模型相继发布,把「在自家机器跑前沿开源 LLM」这件事变成可行选项。对不想自建 H100 工作站、又想拥有完整本地推理能力的工程师与小型团队,\\Mac Studio M3 Ultra 256GB\\ 是现阶段最具性价比的单机方案,搭配 Thunderbolt 5 集群更可上探 1T 参数的领域。本文整理 M3 Ultra 跑大模型的实测数据、集群方案、MLX 框架优势,以及 M5 Ultra 预期时程。
M3 Ultra 规格现况:256GB 统一内存、819
鏈新聞abmedia2小时前