Google 推出 Gemini 3.1 Flash TTS:支持 70 种语言与场景导演,AI 语音更自然

鏈新聞abmedia

Google AI 开发者关系负责人 Logan Kilpatrick 于 4 月 15 日宣布推出 Gemini 3.1 Flash TTS——Google 最新的文字转语音模型。这款模型支持 70 种语言、场景导演(scene direction)、说话者级别的精细控制与音频标签,目前已在 Google AI Studio 的音频 playground 和 Gemini API 中开放使用。

四大核心功能

Gemini 3.1 Flash TTS 相较于前代有四项显著升级:

场景导演(Scene Direction)—— 可以为语音设置情境,例如“在嘈杂的咖啡厅中低声说话”或“兴奋地宣布好消息”,模型会根据场景调整语调、语速和情绪

说话者级别控制(Speaker-Level Specificity)—— 在多角色对话中,可以为每个角色设置不同的声音特征

音频标签(Audio Tags)—— 支持在文本中插入音效指令,控制停顿、语气变化等细节

70 种语言支持—— 大幅扩展多语言覆盖,包含中文

更自然、更有表现力的声音

Google 强调这款模型在语音自然度上的进步。传统 TTS 模型的输出常被批评为“听起来像 AI”,Gemini 3.1 Flash TTS 试图通过更丰富的韵律变化和情绪表达来缩小与人类语音的差距。Kilpatrick 指出,从 Gemini 2.5 到 3.1 的进步“非常显著”。

开发者如何使用

开发者可通过两种方式使用:

Google AI Studio 音频 Playground—— 直接在网页界面中测试和预览语音效果

Gemini API—— 整合至应用程序中,用于语音助理、有声书、Podcast 自动生成、多语言客服等场景

Gemini 产品线持续扩张

Flash TTS 是 Gemini 3.1 系列近期密集发布的一环。此前 Google 已推出 Gemini Robotics ER 1.6(机器人视觉推理)、Tab Tab Tab(Vibe Coding prompt 补全)和设计预览等功能。Google 正在将 Gemini 从“聊天模型”扩展为涵盖文字、语音、视觉、机器人的全模态 AI 平台。

这篇文章 Google 推出 Gemini 3.1 Flash TTS:支持 70 种语言与场景导演,AI 语音更自然 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Silicon Valley Tech Executives Boost Security Details After Recent Attacks on Altman, Others

Gate 新闻消息,4月27日——在近期针对知名科技领袖的袭击之后,包括对 Sam Altman 位于旧金山的住所以及 UnitedHealthcare CEO 的袭击,硅谷高管正在显著升级个人安保措施。日益高涨的反AI情绪,叠加这些备受关注的事件,促使科技创始人重新评估私人安保安排:从此前不愿雇用保镖,转向将全面保护视为标准做法。 安保风险既来自线下抗议,也来自线上威胁。根据安保专业人士的说法,社交媒体可以在数天内迅速将公众的不满集中指向特定个人;而公开分享的照片、行程和位置等信息,会形成可被利用的漏洞。科技高管所面临的威胁范围,从人身保护和住宅安防,延伸到出行风险评估以及线上威胁监测。 企业披露反映了这一趋势。根据 Equilar 对 S&P 500 代理声明的分析,2025 年有 37.8% 的公司为至少部分高管提供安保福利,高于 2024 年的 33.5%。在提供此类福利的公司中,中位数安保支出从 $108,700 增至 $130,500。Meta 在 2026 年的代理文件中披露,由于 Mark Zuckerberg 备受关注且面临特定安保威胁,公司为他提供了全面的安保安排:2025 年用于住宅与个人出行安保的支出约为 $8.50 million,另有一笔额外的 百万(税前)安保津贴。私人安保公司也在调整服务模式:从传统的穿西装、佩戴耳机的保镖,转向能够融入高管董事会议室、晚宴以及家庭场景的人员。

GateNews6 分钟前

Moonshot AI 的 Kimi K3 将在 2026 年第三季度推出:测试中拥有 2.5T+ 参数和 1M 个 tokens 上下文

Gate News 消息,4 月 27 日——据报道,Moonshot AI 计划在 2026 年第三季度 ( 年 7 月-9 月) 推出 Kimi K3。该模型将拥有超过 2.5 万亿个参数,内部测试显示其上下文窗口能力超过 100 万个 tokens。 然而,1M 上下文是否会

GateNews47 分钟前

OpenAI 的 Greg Brockman:AI 正从聊天转向自主任务执行

Gate 新闻消息,4月27日——OpenAI 总裁兼联合创始人 Greg Brockman 表示,新一轮人工智能将把用户从与 AI 机器人聊天,转向指派现实世界的任务。 这种转变要求企业重新思考运营工作流程,并为安保、管理与成本建立新的协议,为

GateNews1小时前

B.AI 升级基础设施,推出重磅技能功能

Gate News 消息,4月27日——B.AI 本周宣布多项产品与生态进展。本周,BAIclaw 落地页获得了全面的视觉与交互改版,并将网站多语言支持扩展至 10 种语言,进一步增强其全球可用性。 在基础设施方面

GateNews1小时前

北京拋禁令要求撤銷交易!Meta 砸 20 億美元收購中國 AI 新創 Manus 落空

中国国家发展改革委今(4 月 27 日)正式发布公告,外商投资安全审查工作机制办公室“依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易”。这是中国《外商投资安全审查办法》施行以来,少数动用最高强度处置“禁止投资”并要求撤销既成交易的案例。 Meta 砸 20 亿美元,买进最便宜的 AI 应用 时间回到 2025 年 12 月 29 日。Meta 宣布收购中国 AI 代理新创 Manus,市场预估价格落在 20 至 30 亿美元之间。Manus 是北京蝴蝶效应科技开发的通用型 AI,2025 年 3 月 6 日上线后因 GAIA benchmark 表现亮眼一夜

鏈新聞abmedia1小时前

智己科技-P IPO股份在灰市上飙升逾360%,涨幅收窄至320%

Gate 新闻消息,4月27日——(01879.HK),一家在香港上市的AI芯片公司——智己科技-P(Xizhi Technology-P)的股价在今天早些时候的灰市 (dark market) 上暴涨逾360%,尽管此后涨幅已收窄至320%。 该股票正在等待其官方香港IPO上市

GateNews1小时前
评论
0/400
暂无评论