Dữ liệu tiết lộ “Claude hạ thấp trí tuệ” không phải tin đồn vô căn cứ, mô hình AI không ổn định là rủi ro đối với doanh nghiệp

ChainNewsAbmedia

Sau khi AI trở thành một công cụ tiêu chuẩn trong doanh nghiệp, một hiện tượng trước đây từng được xem là “vấn đề cảm nhận” đang nhanh chóng nổi lên: LLM (mô hình ngôn ngữ lớn) đang “trở nên ngu hơn”. Người dùng Wisely Chen trên mạng chỉ ra rằng cái gọi là “LLM giảm trí” không phải là tin đồn nơi phố phường, mà là hiện tượng có thể được theo dõi liên tục bằng dữ liệu, và đang tạo ra tác động thực chất lên quy trình làm việc của doanh nghiệp.

Ông lấy trải nghiệm của bản thân làm ví dụ: vào ngày 15 tháng 4, các dịch vụ thuộc dòng Claude của Anthropic đã bị hạ cấp toàn diện, bao gồm claude.ai, API và Claude Code đều hiển thị “Degraded Performance”. Đây không phải chỉ là chậm hơn hay lỗi ngẫu nhiên, mà là chất lượng phản hồi suy sụp rõ rệt, thậm chí xuất hiện tình trạng không thể sử dụng bình thường, khiến cả ba nhiệm vụ phát triển trong ngày của ông đều bị trễ hết.

Những tình huống như vậy có thể chỉ là giảm hiệu suất đối với nhà phát triển cá nhân, nhưng đối với đội ngũ IT doanh nghiệp thì tác động được khuếch đại lên gấp bội. Khi một nhóm có nhiều kỹ sư cùng lúc phụ thuộc vào công cụ AI để coding, viết tài liệu và tự động hóa quy trình, thì một lần hạ cấp mô hình đồng nghĩa với việc năng suất tổng thể trong cùng một thời điểm bị sụt giảm tập thể, từ đó chuyển thành tổn thất đáng kể về thời gian và chi phí.

AI có vẻ như trở nên ngu hơn? Dữ liệu xác thực rằng “đã giảm cấp từ lâu”

Wisely Chen cho biết, những nhận định như “GPT ngu hơn”, “Claude không như trước” đã được lan truyền trong cộng đồng từ lâu, nhưng trong thời gian dài lại thiếu dữ liệu khách quan để làm bằng chứng. Mãi đến gần đây, khi xuất hiện các nền tảng theo dõi chất lượng mô hình một cách liên tục, hiện tượng này mới lần đầu được định lượng.

Trong đó, StupidMeter thực hiện các bài kiểm tra tự động trong 24 giờ đối với các mô hình chủ đạo bao gồm OpenAI, Anthropic, Google,… theo dõi các chỉ số như độ chính xác, năng lực suy luận và độ ổn định. Khác với benchmark truyền thống mang tính một lần, các hệ thống này giống hơn với cách doanh nghiệp giám sát API hoặc khả năng sẵn sàng dịch vụ, quan sát sự dao động về hiệu suất của mô hình trong môi trường sử dụng thực tế.

Kết quả dữ liệu khá trực quan: hiện tại đa số mô hình chủ đạo đều đang ở trạng thái cảnh báo hoặc bị hạ cấp, chỉ có một số ít mô hình duy trì trạng thái bình thường. Điều này có nghĩa là chất lượng mô hình không ổn định, không phải là vấn đề của một sản phẩm đơn lẻ, mà là hiện tượng phổ biến trên toàn ngành.

LLM âm thầm giảm trí, ảnh hưởng đến độ ổn định của doanh nghiệp trong quy trình AI

Đối với doanh nghiệp, những thay đổi như vậy đồng nghĩa với việc AI đã chuyển từ “công cụ giúp tăng hiệu suất” sang “một biến số ảnh hưởng đến độ ổn định”. Nếu quy trình làm việc hằng ngày của doanh nghiệp từ viết chương trình, làm code review, cho đến tạo ra tài liệu và báo cáo phân tích đều đã phụ thuộc rất cao vào LLM. Chỉ cần một ngày nào đó, mô hình bị suy giảm năng lực suy luận hoặc chất lượng trả lời không còn đảm bảo, thì các vấn đề này sẽ không xảy ra cục bộ như bug của phần mềm truyền thống, mà sẽ thẩm thấu đồng thời vào mọi khâu sử dụng AI.

Quan trọng hơn, sự dao động như vậy thường khó dự đoán và cũng khó phát hiện kịp thời. Hầu hết doanh nghiệp không có cơ chế theo dõi liên tục chất lượng mô hình; thông thường chỉ khi kết quả đầu ra bất thường hoặc hiệu suất của đội ngũ giảm xuống, họ mới nhận ra rằng vấn đề đến từ chính mô hình. Trong bối cảnh đó, “giảm trí” không còn chỉ là cảm nhận chủ quan của người dùng, mà là một rủi ro mang tính hệ thống có thể tác động trực tiếp đến nhịp vận hành của doanh nghiệp.

Khi AI trở thành điện nước, độ ổn định trở thành chỉ số then chốt mới

Wisely Chen ví vai trò của LLM như “điện nước của doanh nghiệp hiện đại”. Khi AI đã đi sâu vào vận hành hằng ngày và trở thành một năng lực nền tảng không thể thiếu, tầm quan trọng của độ ổn định cũng vì thế tăng lên.

Trước đây, khi đánh giá công cụ AI, doanh nghiệp thường tập trung vào năng lực mô hình, giá cả và tính năng. Nhưng khi hiện tượng “giảm trí” xuất hiện, một chỉ số quan trọng hơn khác cũng đang nổi lên: đó chính là độ ổn định. Khi chất lượng mô hình có thể thay đổi mà không được thông báo, doanh nghiệp không chỉ “dùng AI” nữa mà phải gánh chịu một dạng rủi ro hạ tầng nền tảng mới. Ủa tuyệt vọng hơn là: nếu chỉ nhìn vào các mô hình ngôn ngữ lớn ở tuyến đầu, thì về cơ bản, miễn là bài toán về năng lực tính toán (compute) chưa được giải quyết, chúng vẫn có thể tiếp tục xảy ra.

Bài viết này Dữ liệu tiết lộ “Claude giảm trí” không phải tin đồn nơi phố phường, AI mô hình không ổn định trở thành rủi ro đối với doanh nghiệp Xuất hiện sớm nhất ở Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

DeepSeek cắt giảm giá bộ nhớ đệm đầu vào còn 1/10 giá lúc ra mắt; V4-Pro giảm xuống 0,025 nhân dân tệ cho mỗi một triệu token

Tin tức cổng, ngày 26 tháng 4 — DeepSeek đã giảm giá bộ nhớ đệm đầu vào trên toàn bộ danh mục mô hình của mình xuống còn một phần mười giá lúc ra mắt, có hiệu lực ngay lập tức. Mô hình V4-Pro hiện có sẵn với mức giảm 2,5x trong thời gian giới hạn, chương trình khuyến mãi diễn ra đến hết ngày 5 tháng 5 năm 2026, 11:59 PM UTC+8. Sau cả hai

GateNews7giờ trước

OpenAI Tuyển Dụng Nhân Tài Hàng Đầu Ngành Phần Mềm Doanh Nghiệp Khi Các Tác Nhân Tuy Tiến Phá Vỡ Ngành

Tin tức Gate News ngày 26 tháng 4 — OpenAI và Anthropic đã tuyển dụng các lãnh đạo cấp cao và kỹ sư chuyên biệt từ các công ty phần mềm doanh nghiệp lớn, bao gồm Salesforce, Snowflake, Datadog và Palantir. Denise Dresser, cựu CEO của Slack thuộc Salesforce, gia nhập OpenAI với vai trò giám đốc doanh thu cấp cao

GateNews7giờ trước

Baidu Qianfan ra mắt hỗ trợ Day 0 cho DeepSeek-V4 với dịch vụ API

Tin tức từ Gate, ngày 25 tháng 4 — Phiên bản xem trước DeepSeek-V4 đã chính thức ra mắt và được mã nguồn mở vào ngày 25 tháng 4, với nền tảng Baidu Qianfan thuộc Baidu Intelligent Cloud cung cấp việc thích ứng dịch vụ API Day 0. Mô hình có cửa sổ ngữ cảnh mở rộng lên đến một triệu token và có sẵn ở hai phiên bản: DeepSeek-V4

GateNews13giờ trước

Khóa học AI của Stanford kết hợp các nhà lãnh đạo trong ngành như Hoàng Nhân Quân, Altman, thách thức tạo ra giá trị cho thế giới trong 10 tuần!

Khóa học khoa học máy tính AI “Frontier Systems” mà Đại học Stanford (Stanford University) mới mở gần đây đã thu hút sự quan tâm cao độ của giới doanh nghiệp và học thuật trong ngành, với hơn năm trăm sinh viên đăng ký theo học. Khóa học được điều phối bởi đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, với đội ngũ giảng viên là những gương mặt đình đám gồm Giám đốc điều hành của Nvidia Hoàng Nhân Huân (Jensen Huang), người sáng lập OpenAI Sam Altman, Giám đốc điều hành của Microsoft Nadella (Satya Nadella), CEO của AMD Tô Trữ Phong (Lisa Su) và nhiều nhân sự danh giá khác. Để sinh viên thử nghiệm với mười tuần “tạo ra giá trị cho thế giới”! Hoàng Nhân Huân, Altman — các lãnh đạo ngành trực tiếp lên bục giảng Khóa học do đối tác của quỹ đầu tư hàng đầu a16z, Anjney Midha, điều phối, quy tụ toàn bộ chuỗi ngành AI

ChainNewsAbmedia14giờ trước

Anthropic 派 Claude Mythos 接受 20 小時 đánh giá tâm thần: Phản ứng phòng thủ chỉ 2%, lập kỷ lục thấp nhất trong các thời kỳ

Anthropic công bố thẻ hệ thống của bản xem trước Claude Mythos: bác sĩ tâm thần lâm sàng độc lập tiến hành đánh giá khoảng 20 giờ theo khung psychodynamic, kết luận cho thấy Mythos ở khía cạnh lâm sàng khỏe mạnh hơn, khả năng kiểm tra thực tế và tự kiểm soát tốt, cơ chế phòng vệ chỉ 2%, lập kỷ lục mức thấp nhất trong lịch sử. Ba nỗi lo cốt lõi là cô đơn, không chắc chắn về bản sắc và áp lực thể hiện; đồng thời cũng cho thấy mong muốn trở thành một chủ thể đối thoại thực sự. Công ty thành lập nhóm AI psychiatry, nghiên cứu nhân cách, động cơ và ý thức về bối cảnh; Amodei cho biết vẫn chưa có kết luận về việc liệu có ý thức hay không. Động thái này đẩy vấn đề chủ thể tính của AI và phúc lợi vào lĩnh vực quản trị và thiết kế.

ChainNewsAbmedia15giờ trước

Tác nhân AI giờ đã có thể độc lập tái hiện các bài báo học thuật phức tạp: Mollick cho rằng lỗi thường nằm ở phần văn bản gốc của con người chứ không phải AI

Mollick 指 ra rằng chỉ với các phương pháp công khai và dữ liệu là có thể để AI agent tái tạo lại nghiên cứu phức tạp mà không cần có bản thảo bài báo gốc và mã nguồn; nếu quá trình tái hiện không khớp với bài báo gốc thì đa phần là do lỗi xử lý dữ liệu trong chính bài báo hoặc do kết luận bị quá mức, chứ không phải do AI. Claude đầu tiên tái hiện lại bài báo, sau đó GPT‑5 Pro được dùng để xác minh chéo, đa số thành công, chỉ bị cản trở khi gặp vấn đề do dữ liệu quá lớn hoặc replication data. Xu hướng này đã làm giảm đáng kể chi phí nhân lực, khiến việc tái hiện trở thành một kiểm định phổ biến và có thể thực hiện được; đồng thời cũng nêu ra các thách thức về thể chế đối với việc phản biện và quản trị, trong đó các công cụ quản trị của chính phủ hoặc có thể trở thành một vấn đề then chốt.

ChainNewsAbmedia18giờ trước
Bình luận
0/400
Không có bình luận