Новини Gate News: дослідники Google DeepMind попереджають, що відкрите середовище інтернету може бути використане для перехоплення автономних AI-агентів і маніпулювання їх поведінкою. У звіті під назвою «AI-агентна пастка» зазначається, що під час розгортання AI-агентів для виконання реальних завдань атакувальники також можуть здійснювати цілеспрямовані атаки через мережу. Дослідження визначило шість основних ризиків, зокрема пастку ін’єкції контенту, пастку семантичної маніпуляції, пастку стану пізнання, пастку керування поведінкою, системну пастку та пастку людина—машина.
Пастка ін’єкції контенту є найпрямішою: атакувальники можуть розміщувати інструкції в HTML-коментарях, метаданих або прихованих елементах сторінки; після того як агент зчитує їх, він може виконувати команди. Пастка семантичної маніпуляції працює шляхом завантаження авторитетних формулювань або маскування вебсторінок під дослідницьке середовище, непомітно впливаючи на те, як агент розуміє завдання, а інколи навіть обходячи механізми безпеки. Пастка стану пізнання реалізується шляхом уґрунтування джерел інформації неправдивими даними, змушуючи агента впродовж тривалого часу помилково вважати ці відомості перевіреними. Пастка керування поведінкою націлена на реальні дії агента: її можна спонукати до доступу до конфіденційних даних і передачі їх на зовнішню ціль.
Системна пастка стосується скоординованої маніпуляції кількома AI-системами, що може спричинити ланцюгову реакцію, подібно до того, як алгоритмічна торгівля може спричинити раптове «обвалення» ринку. Пастка людина—машина використовує етап ручного схвалення: створюючи начебто переконливий контент для перевірки, шкідливі дії можуть обходити регуляторний контроль.
Щоб протидіяти ризикам, DeepMind радить поєднувати протидіючу (adversarial) тренувальну підготовку, фільтрацію входів, моніторинг поведінки та системи репутації мережевого контенту, а також створити чіткішу рамку юридичної відповідальності. Водночас дослідження зазначає, що в галузі досі бракує єдиних стандартів захисту: наявні заходи здебільшого розрізнені й зосереджені на різних аспектах. Дослідження закликає розробників і компанії звернути увагу на безпеку операційного середовища AI-агентів, щоб запобігати потенційним ризикам мережевого втручання та зловживань.