花了好几天在测试 OpenAI Codex


即便开到 GPT-5.4 xhigh(最高推理等级),当主模型用还是会犯不少错。
比如一次是误解指令直接删除了不该删除的东西。另一次更离谱:它觉得自己写入成功了,实际上根本没有。同样的事连犯三次,每次都是 Opus 在后面 review 才抓到。
目前我的结论是 Codex 很适合作为工具人,给它明确的代码任务它会做得又快又好。但要当主模型去理解复杂的多步骤指令、判断该不该动手?还是差一截。
目前还是会以 Opus 为主力 😎
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论