Tin Cổng, ngày 23 tháng 4 — Nhóm kỹ thuật của Anthropic đã xác nhận rằng sự suy giảm chất lượng của Claude Code được người dùng báo cáo trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, không phải từ vấn đề API hay từ mô hình nền tảng. Ba vấn đề này đã được khắc phục lần lượt vào ngày 7 tháng 4, ngày 10 tháng 4 và ngày 20 tháng 4, với phiên bản cuối cùng hiện là v2.1.116.
Thay đổi đầu tiên diễn ra vào ngày 4 tháng 3, khi nhóm giảm mức độ nỗ lực suy luận mặc định cho Claude Code từ “high” xuống “medium” để xử lý các đỉnh độ trễ cực đoan thỉnh thoảng xảy ra ở Opus 4.6 khi cường độ suy luận cao. Sau khi nhận được nhiều phàn nàn từ người dùng về hiệu năng giảm, nhóm đã hoàn tác thay đổi vào ngày 7 tháng 4. Mặc định hiện tại bây giờ là “xhigh” cho Opus 4.7 và “high” cho các mô hình khác.
Vấn đề thứ hai là một lỗi được đưa vào ngày 26 tháng 3. Hệ thống được thiết kế để xóa các bản ghi suy luận cũ sau khi sự bất hoạt trong cuộc trò chuyện vượt quá một giờ nhằm giảm chi phí khôi phục phiên. Tuy nhiên, một sai sót trong quá trình triển khai khiến việc xóa được thực thi lặp lại ở mọi lượt tiếp theo thay vì chỉ chạy một lần, khiến mô hình dần dần mất đi ngữ cảnh suy luận trước đó. Điều này thể hiện qua sự hay quên ngày càng tăng, các thao tác lặp lại và việc gọi công cụ bất thường. Lỗi cũng dẫn đến bỏ sót cache ở mọi yêu cầu, làm tăng tốc việc tiêu hao hạn mức của người dùng. Hai thí nghiệm nội bộ không liên quan đã che giấu các điều kiện tái hiện, kéo dài quá trình gỡ lỗi lên hơn một tuần. Sau khi khắc phục vào ngày 10 tháng 4, nhóm đã xem xét mã gây vấn đề bằng Opus 4.7 và phát hiện rằng Opus 4.7 có thể nhận diện được lỗi trong khi Opus 4.6 thì không.
Thay đổi thứ ba được triển khai vào ngày 16 tháng 4 cùng với Opus 4.7. Nhóm đã thêm hướng dẫn vào system prompt để giảm đầu ra dư thừa. Kiểm thử nội bộ trong nhiều tuần cho thấy không có suy giảm, nhưng sau khi ra mắt, tương tác với các prompt khác đã làm chất lượng lập trình giảm đi. Đánh giá mở rộng cho thấy mức sụt giảm hiệu năng 3% ở cả Opus 4.6 và 4.7, dẫn đến việc quay lại vào ngày 20 tháng 4.
Ba thay đổi này đã tác động đến các nhóm người dùng khác nhau vào những thời điểm khác nhau, và tác động kết hợp của chúng tạo ra tình trạng suy giảm chất lượng rộng khắp và không nhất quán, làm cho việc chẩn đoán trở nên phức tạp. Anthropic cho biết hiện họ sẽ cần nhiều nhân viên nội bộ hơn để sử dụng cùng phiên bản bản dựng công khai như người dùng, chạy đầy đủ các bộ đánh giá mô hình cho mọi lần sửa đổi system prompt và triển khai các giai đoạn triển khai theo từng bước. Như một hình thức bù đắp, Anthropic đã đặt lại hạn mức sử dụng cho tất cả người dùng gói đăng ký.
Bài viết liên quan
Cohere Mua Lại Công Ty AI của Đức Aleph Alpha, Nhận Được $600M Đầu Tư để Mở Rộng Tại Châu Âu
Xpeng, Xiaomi dẫn đầu làn sóng AI trên xe tại Triển lãm Ô tô Bắc Kinh
Cựu kỹ sư Seed của ByteDance: Lượt lặp AI của ByteDance mất sáu tháng so với ba tháng của Google
Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3
Naver Ra Mắt Bản Beta AI Tab Khi Google Gemini Bước Vào Thị Trường Tìm Kiếm Tại Hàn Quốc
Ấn Độ Tuyển dụng Kỹ sư AI Bùng nổ 59,5%, Mở rộng ra Ngoài Các Trung tâm Công nghệ