Gate News 消息,4月27日——Google DeepMind 的资深产品经理、Google AI Studio 的产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应当建立各自的定制基准,用于衡量 AI 模型的性能。他将其描述为一种方法:让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”
目前,多数公司依赖公开排行榜来选择 AI 模型,但这些排行榜衡量的是通用能力,而往往与特定的业务场景不匹配。Kilpatrick 举了一个合同审查公司的例子,该公司最关心的是条款提取的准确性——这一能力在公开基准中缺失,因而无法评估模型在该任务上的表现。定制基准带来两项关键优势:首先,它们使公司能够针对自身的业务任务来评估每一次模型更新,并选择在其实际用例中表现最佳的模型,而不是只看总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而推动在对公司业务而言重要的领域实现持续优化。
Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在实施这种做法,并表示“这里可以创造出大量的 alpha”。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
Silicon Valley Tech Executives Boost Security Details After Recent Attacks on Altman, Others
Gate 新闻消息,4月27日——在近期针对知名科技领袖的袭击之后,包括对 Sam Altman 位于旧金山的住所以及 UnitedHealthcare CEO 的袭击,硅谷高管正在显著升级个人安保措施。日益高涨的反AI情绪,叠加这些备受关注的事件,促使科技创始人重新评估私人安保安排:从此前不愿雇用保镖,转向将全面保护视为标准做法。
安保风险既来自线下抗议,也来自线上威胁。根据安保专业人士的说法,社交媒体可以在数天内迅速将公众的不满集中指向特定个人;而公开分享的照片、行程和位置等信息,会形成可被利用的漏洞。科技高管所面临的威胁范围,从人身保护和住宅安防,延伸到出行风险评估以及线上威胁监测。
企业披露反映了这一趋势。根据 Equilar 对 S&P 500 代理声明的分析,2025 年有 37.8% 的公司为至少部分高管提供安保福利,高于 2024 年的 33.5%。在提供此类福利的公司中,中位数安保支出从 $108,700 增至 $130,500。Meta 在 2026 年的代理文件中披露,由于 Mark Zuckerberg 备受关注且面临特定安保威胁,公司为他提供了全面的安保安排:2025 年用于住宅与个人出行安保的支出约为 $8.50 million,另有一笔额外的 百万(税前)安保津贴。私人安保公司也在调整服务模式:从传统的穿西装、佩戴耳机的保镖,转向能够融入高管董事会议室、晚宴以及家庭场景的人员。
GateNews34 分钟前
Meta与Overview Energy和Noon Energy合作,推动1GW太阳能与储能项目
Gate 新闻消息,4月27日——Meta宣布了两项能源合作,以通过创新的可再生发电与储能技术为其AI基础设施和数据中心供能。该公司将与Overview Energy合作,开展一个1吉瓦的太空端太阳能发电项目,旨在实现全天候发电,并提升现有太阳能农场的发电效率。
Meta还与Noon Energy合作,部署最高达1吉瓦/100吉瓦时的超长时长能源储能系统,为下一代AI数据中心提供持续获取清洁、可靠电力的能力。
GateNews44 分钟前
Moonshot AI 的 Kimi K3 将在 2026 年第三季度推出:测试中拥有 2.5T+ 参数和 1M 个 tokens 上下文
Gate News 消息,4 月 27 日——据报道,Moonshot AI 计划在 2026 年第三季度 ( 年 7 月-9 月) 推出 Kimi K3。该模型将拥有超过 2.5 万亿个参数,内部测试显示其上下文窗口能力超过 100 万个 tokens。
然而,1M 上下文是否会
GateNews1小时前
OpenAI 的 Greg Brockman:AI 正从聊天转向自主任务执行
Gate 新闻消息,4月27日——OpenAI 总裁兼联合创始人 Greg Brockman 表示,新一轮人工智能将把用户从与 AI 机器人聊天,转向指派现实世界的任务。 这种转变要求企业重新思考运营工作流程,并为安保、管理与成本建立新的协议,为
GateNews1小时前
B.AI 升级基础设施,推出重磅技能功能
Gate News 消息,4月27日——B.AI 本周宣布多项产品与生态进展。本周,BAIclaw 落地页获得了全面的视觉与交互改版,并将网站多语言支持扩展至 10 种语言,进一步增强其全球可用性。
在基础设施方面
GateNews1小时前
北京拋禁令要求撤銷交易!Meta 砸 20 億美元收購中國 AI 新創 Manus 落空
中国国家发展改革委今(4 月 27 日)正式发布公告,外商投资安全审查工作机制办公室“依法依规对外资收购 Manus 项目作出禁止投资决定,要求当事人撤销该收购交易”。这是中国《外商投资安全审查办法》施行以来,少数动用最高强度处置“禁止投资”并要求撤销既成交易的案例。
Meta 砸 20 亿美元,买进最便宜的 AI 应用
时间回到 2025 年 12 月 29 日。Meta 宣布收购中国 AI 代理新创 Manus,市场预估价格落在 20 至 30 亿美元之间。Manus 是北京蝴蝶效应科技开发的通用型 AI,2025 年 3 月 6 日上线后因 GAIA benchmark 表现亮眼一夜
鏈新聞abmedia2小时前