IOLA,语音识别革新…根据情境自动选择最优ASR模型

Techub News

人工智能初创公司aiOla推出了一项能够革命性提升语音识别准确度的新解决方案。该公司发布的"语音智能网关"系统,可实时分析用户语音并自动连接至最合适的语音识别模型。该系统通过动态判断复杂的语言特性后,选择能实现最佳准确度的模型进行处理。

aiOla去年公开的"DRAX"是通过并行流学习技术克服传统语音识别局限的语音AI模型。DRAX能同时处理所有语句,在面对环境噪音、语调等多种现实变量时表现出强大性能。基于此技术,此次发布的新技术"QUASAR"通过分析语音特征、说话者语调、噪音存在与否、上下文等信息,从众多自动语音识别引擎中自动选择最合适的模型。

当前语音AI市场虽有多家ASR服务商围绕噪音环境或语调优化展开竞争,包括OpenAI的Whisper、亚马逊的Transcribe、阿里巴巴的Qwen2以及Deepgram等,但多数企业仍仅使用在标准评估中表现最优的单一模型。这导致实际使用环境中识别错误频发,用户体验大幅下降的批评持续不断。

aiOla联合创始人兼总裁阿米尔·哈拉马蒂指出企业被迫承受特定ASR模型缺陷的现状:"有些模型在处理美式英语时表现卓越,但在英式语调或噪音环境中往往束手无策。"他强调:“QUASAR是首个将语音识别视为动态问题而非静态技术的系统。”

aiOla在内部基准测试中将该系统应用于多种实际语调、背景噪音和专业内容环境。结果显示,在88.8%的响应请求中能动态选择最优ASR引擎以提升准确度。预计该技术将在客户支持、会议记录、自动应答系统等领域显著提升人机对话的理解度。

哈拉马蒂表示:"随着语音识别逐渐成为连接人类与AI的基础接口,识别错误已变得不可接受。“他将QUASAR称为"将ASR转化为活体基础设施的技术”,并补充道:“这不仅是技术突破,更是能影响从处理数十亿通话数据的全球呼叫中心到开发字幕功能的独立开发者的变革。”

aiOla计划通过此项技术大幅提升语音AI界面的实用性与可靠性,为整个AI语音生态系统创造结构性转折点。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论