2026-03-07 16:32:57

Ý kiến không phổ biến: Việc ra mắt các mô hình AI ngày càng trở nên nhàm chán.

Không phải vì các mô hình không tiến bộ.. chúng đang tiến bộ.
Nhưng mỗi lần ra mắt chỉ là.. các bài kiểm tra so sánh.
@OpenAI vừa ra GPT-5.4 và toàn bộ thông báo chủ yếu dựa trên bảng này.
75% trên OSWorld. 57.7% trên SWE-Bench Pro. 94.4% trên GPQA Diamond.
thật tuyệt.. nhưng điều đó có ý nghĩa gì đối với tôi khi xây dựng thứ gì đó lúc 2 giờ sáng?
Không ai ngoài AI twitter quan tâm đến việc cải thiện 2% trên MMLU. không ai. không một ai.
Phần hài hước nhất? hãy xem kỹ bảng này..
> Opus 4.6 gần như cạnh tranh được trên hầu hết các bài kiểm tra.
> Gemini 3.1 Pro âm thầm vượt qua tất cả mọi người trên BrowseComp với 85.9%.
"Người chiến thắng" thay đổi tùy theo hàng bạn nhìn.
Bạn biết tôi thực sự muốn xem gì không?
cho tôi xem nhiệm vụ thực tế phức tạp hơn mà nó xử lý tốt hơn trước đây. cho tôi xem bản demo làm tôi hơi rối trí. cho tôi xem ai đó xây dựng thứ gì đó với nó mà tháng trước không thể làm được.
bài kiểm tra tốt nhất là "điều này đã làm cuộc sống của tôi dễ dàng hơn chưa?"
chỉ vậy thôi. đó là toàn bộ đánh giá.
các công ty đang ăn mừng điểm số toán học trong khi người dùng chỉ muốn biết liệu nó có thể xử lý cuối cùng một mã code 4K mà không làm hỏng nửa số tính năng hay không.
bắt đầu từ đó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

2 thích