Bên trong Claude Opus 4.7: Mẫu mới của Anthropic nâng cao tiêu chuẩn cho kỹ thuật phần mềm tự động

Tóm tắt ngắn gọn

Anthropic phát hành Claude Opus 4.7, nâng cao kỹ thuật phần mềm, lý luận đa phương thức, xử lý ngữ cảnh dài và độ chính xác hướng dẫn cho các nhiệm vụ AI phức tạp, lâu dài trong các quy trình doanh nghiệp.

Inside Claude Opus 4.7: Anthropic’s New Model Raises The Bar For Autonomous Software EngineeringCông ty nghiên cứu AI và an toàn Anthropic đã ra mắt Claude Opus 4.7, một mô hình mới được xem là bước nâng cấp nhỏ nhưng đáng chú ý so với Opus 4.6, đặc biệt nhấn mạnh vào cải tiến trong kỹ thuật phần mềm tiên tiến và thực thi nhiệm vụ phức tạp. Mô hình được thiết kế để xử lý các quy trình dài và kỹ thuật đòi hỏi cao với độ nhất quán cao hơn, tuân thủ hướng dẫn chính xác hơn và xác thực nội bộ kết quả trước khi tạo phản hồi.

Theo công ty, Opus 4.7 thể hiện hiệu suất mạnh mẽ hơn trong các tình huống liên quan đến các thách thức mã phức tạp, nơi các phiên bản trước thường cần giám sát chặt chẽ hơn của con người. Mô hình được mô tả là có khả năng duy trì tính chính xác trong các chuỗi giải quyết vấn đề kéo dài, giảm xu hướng bỏ sót hoặc hiểu sai các hướng dẫn nhiều bước. Trong các trường hợp sử dụng thực tế, nó nhằm hỗ trợ thực thi tự động các nhiệm vụ kỹ thuật khó khăn hơn, bao gồm gỡ lỗi, thiết kế hệ thống và tạo mã có cấu trúc.

Giới thiệu khả năng mở rộng trong đa phương thức và xử lý ngữ cảnh dài

Một cải tiến chính được nhấn mạnh trong bản phát hành là khả năng đa phương thức nâng cao của mô hình, đặc biệt trong hiểu biết hình ảnh. Opus 4.7 có thể xử lý hình ảnh độ phân giải cao hơn so với các phiên bản trước, cho phép diễn giải chi tiết hơn các đầu vào hình ảnh phức tạp như ảnh chụp màn hình dày đặc, sơ đồ kỹ thuật và giao diện thiết kế. Nâng cấp này phù hợp với các ứng dụng yêu cầu độ chính xác từng pixel, bao gồm phân tích giao diện và quy trình trích xuất tài liệu.

Anthropic cũng lưu ý về các cải tiến trong chất lượng đầu ra cho các nhiệm vụ chuyên nghiệp và sáng tạo. Mô hình được báo cáo tạo ra các trình bày có cấu trúc rõ ràng hơn, tài liệu rõ ràng hơn và thiết kế giao diện cải tiến khi sử dụng trong các môi trường năng suất. Những thay đổi này được xem như một phần của nỗ lực mở rộng nhằm tăng tính hữu ích trong các môi trường doanh nghiệp thực tế hơn là chỉ dựa trên các tiêu chuẩn benchmark.

Hệ thống cũng đã được thử nghiệm trong các lĩnh vực liên quan đến lý luận ngữ cảnh dài và giữ bộ nhớ. Opus 4.7 được mô tả là tốt hơn trong việc duy trì thông tin ngữ cảnh dựa trên tệp trong các phiên kéo dài, cho phép nó tiếp tục các quy trình phức tạp mà không cần nhập lại nhiều thông tin nền. Điều này nhằm hỗ trợ phát triển đa phiên và các nhiệm vụ phân tích đòi hỏi tính liên tục.

Cùng với các cập nhật về hiệu suất, Anthropic đã nhấn mạnh về an toàn và kiểm soát khả năng triển khai. Mô hình được giới thiệu kèm các biện pháp phòng ngừa nhằm phát hiện và chặn các yêu cầu liên quan đến an ninh mạng có rủi ro cao hoặc bị cấm. Công ty cho biết bản phát hành này là một phần của phương pháp nghiên cứu rộng hơn, trong đó các hệ thống ít tiên tiến hơn được dùng để thử nghiệm các cơ chế an toàn trước khi áp dụng cho các mô hình có khả năng cao hơn. Trong khi hiệu suất an ninh mạng chung bị giới hạn cố ý so với các hệ thống nội bộ tiên tiến hơn, mô hình vẫn được cung cấp cho các ứng dụng an ninh hợp pháp thông qua một chương trình xác minh có cấu trúc.

Kết quả đánh giá do công ty chia sẻ cho thấy Opus 4.7 duy trì hồ sơ an toàn tương tự như phiên bản trước, với một số cải tiến như khả năng chống lại tấn công chèn prompt và giảm hành vi lừa đảo, cùng với một số giảm nhẹ trong các lĩnh vực liên quan đến hướng dẫn nhạy cảm quá mức. Đánh giá phù hợp chung mô tả mô hình là khá đáng tin cậy mặc dù vẫn còn những giới hạn trong các trường hợp ngoại lệ.

Bản phát hành cũng giới thiệu các thay đổi về kiểm soát vận hành và công cụ phát triển. Một thiết lập nỗ lực trung gian mới đã được thêm vào để cân bằng chi tiết giữa chất lượng phản hồi và độ trễ. Các tính năng nền tảng bổ sung bao gồm mở rộng hỗ trợ độ phân giải hình ảnh, công cụ quản lý sử dụng token và cập nhật lệnh quy trình làm việc nhằm cải thiện quy trình xem xét mã và thực thi nhiệm vụ dựa trên tác nhân.

Opus 4.7 được triển khai trên các sản phẩm của Anthropic cũng như các nhà cung cấp hạ tầng bên ngoài, với mức giá duy trì như các phiên bản trước. Các yếu tố cần xem xét khi chuyển đổi bao gồm thay đổi trong hành vi token hóa và tăng độ verbose của đầu ra ở chế độ nỗ lực cao hơn, những yếu tố này có thể ảnh hưởng đến tích hợp trong các hệ thống sản xuất nhưng được trình bày như là các đánh đổi để nâng cao độ tin cậy lý luận.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim