OpenAI 宣布 ChatGPT 即将“看、听、说”

奔跑财经

包括语音识别和文本转语音功能在内的新功能将在接下来的两周内推出。

根据 OpenAI 9 月 25 日的公告,ChatGPT 很快将提供新功能,允许用户通过图像和语音识别与其互动。

OpenAI 宣布用户将能够使用语音命令与 ChatGPT 进行交互,从而实现更加个性化的用户体验。该公司表示,该功能由文本转语音模型提供支持,该模型可以根据专业配音演员创建的最小样本语音生成音频。该公司表示,该功能还由其开源语音识别系统 Whisper 提供支持。

语音功能预计将提供更广泛的用例,例如协助阅读睡前故事、创建食谱、撰写演讲、背诵诗歌、解释常用短语,甚至解决“餐桌辩论”等任务。

OpenAI 补充说,用户很快将能够向 ChatGPT 提供图像(或选择图像的某些部分)以进行解释和响应。

OpenAI 承认风险

OpenAI 承认存在欺诈和假冒风险,并表示,相应地,它正在限制其语音聊天平台的语音功能。它强调它使用专业配音演员——而不是用户的声音——来输出音频。OpenAI 补充说,某些其他团体被允许将语音功能用于其他目的;例如,Spotify 正在将参与的播客翻译成新语言,并使用每位主持人的原始声音。

该公司指出,图像识别存在隐私风险,并表示,作为回应,它限制了 ChatGPT 发表有关人物的声明的能力。它指出 ChatGPT“并不总是准确”,但表示对图像的一般描述可能很有用,并引用了其早期与 Be My Eyes 的合作,Be My Eyes 是一款针对盲人和弱视人士的应用程序。

OpenAI 表示,将在未来两周内向 ChatGPT Plus 和 Enterprise 引入语音和图像功能。该公司表示,语音功能将在 iOS 和 Android 上提供(可选择加入),图像功能将在所有平台上提供。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论