АІ-агенти, які виконують вашу роботу, поки ви спите, звучать чудово. Насправді все набагато складніше — «це як малюк, за яким потрібно стежити»

Лі summer Yue може працювати над безпекою та узгодженістю у команді суперінтелекту Meta, але навіть вона визнає, що не застрахована від надмірної впевненості, коли йдеться про автономних AI-агентів.

Рекомендоване відео


У пості на X у понеділок Yue описала, як її автономні AI-агенти OpenClaw — створені для роботи локально на комп’ютері Mac mini — видалили весь її вхідний ящик, ігноруючи інструкції на паузу та запит підтвердження спочатку.

«Мені довелося бігти до мого Mac Mini, ніби я розмінюю бомбу», — сказала вона. Це, додала вона, була «помилка новачка». Робочий процес працював у тестовому ящику, який вона використовувала для безпечного випробування агента протягом тижнів, пояснила вона, але в реальному ящику агент втратив її початкову інструкцію.

Досвід Yue різко контрастує з вірусними постами, такими як «Революція омара: чому AI-агенти 24/7 змінили все», у яких Петер Діамандіс стверджує, що цілодобовий AI набагато безперебійніший.

«Дозвольте мені розповісти, як це відчувається при використанні цього», — писав Діамандіс. «Ви прокидаєтеся вранці, і ваш агент — мій називається Skippy, весело саркастичний і неймовірно здатний — зробив вісім годин роботи, поки ви спали. Він прочитав тисячу сторінок Markdown. Він організував ваші файли. Він склав три плани проектів. Він забронював вашу поїздку. Він дослідив питання, яке у вас було о 23:00, і забув про нього.»

«Коли мій Mac mini був офлайн шість годин, я відчув відмову», — додав він. «Наче зник мій найкращий друг.»

Разом ці суперечливі описи сили AI-агентів відображають напругу, що лежить в основі сучасного руху до «завжди увімкненого» AI. Оскільки інструменти, такі як OpenClaw і Claude Code, технічно дозволяють агентам працювати тривалий час, зростає ентузіазм щодо ідеї AI, який працює під час вашого сну. Але на практиці ранні користувачі стверджують, що автономія залишається крихкою, непередбачуваною і трудомісткою у керуванні. Замість заміни людської праці, сучасні агенти часто потребують постійного моніторингу, обмежень і втручання, особливо коли ставки перевищують низькоризикові експерименти.

AI-агенти найкраще працюють, коли завдання прості та з низькими ставками

Шьямал Анадак, який раніше працював інженером з прикладного AI в OpenAI, сказав, що більшість сучасних успішних агентів все ще потребують частих перевірок людиною або обмежені строго визначеними, чітко окресленими завданнями — хоча він підкреслив, що це зміниться з покращенням методів вимірювання та оцінки.

«Система, яка має 95% точності на окремих кроках, стає хаотичною при 20-кроковому автономному робочому процесі», — сказав Анадак. «Довгострокове планування все ще слабке». В результаті, пояснив він, агенти можуть добре справлятися з короткими ланцюгами завдань, але руйнуються при управлінні складними багатоденними проектами. Ще однією великою обмежуючою характеристикою є пам’ять: «У багатьох агентів пам’ять або відсутня, або дуже крихка. Вам потрібні системи, які можуть зберігати цілісну модель вашого робочого контексту, пріоритетів і обмежень.»

Це не означає, що обіцянки AI-агентів — це лише міф, каже Йоав Шохам, колишній головний науковець Google, професор емеритус у Стенфорді та співзасновник AI21 Labs. Але це означає, що існує ризик, що люди зможуть переоцінити свої можливості. За його словами, найкраще AI-агенти працюють, коли завдання є низькоризиковими, слабо визначеними і недорогими у помилках.

«Розробники люблять іграшки, і у вас є ця іграшка, яка може робити чудові речі», — сказав він Fortune. «Якщо те, що вони роблять, досить просто і з низькими ставками ризику, і допускає високий рівень помилок, — це нормально». Наприклад, якщо ви хочете, щоб ваш агент прочитав 10 000 сайтів і зробив щось цікаве з результатами, щоб надати вам корисну інформацію за ніч.

Але для критичних для підприємств робочих процесів планка набагато вища. Компанії потребують систем, які можна перевірити, повторювати і які є економічно вигідними — вимоги, що швидко руйнують обіцянку «налаштуй і забудь» щодо повністю автономних, завжди увімкнених агентів. У високоструктурованих сферах, таких як програмування або математика, вже можлива глибша автоматизація. Але для більшості реальних бізнес-процесів, каже Шохам, зусилля, необхідні для забезпечення надійності агентів, часто перевищують їхню користь.

Брет Грінштейн, головний AI-офіцер консалтингової компанії West Monroe, зазначив, що інструменти на кшталт OpenClaw нагадують переломний момент, схожий на те, що сталося з генеративним AI, коли у 2022 році запустили ChatGPT — вперше ідея AI-агентів стала доступною. Але це не «чарівне рішення 24/7».

«Він може довго працювати, виконуючи завдання, але це схоже на малюка, якого потрібно контролювати», — сказав він. Деякі завдання цілком можна виконувати під час сну, наприклад, переглядати повідомлення в LinkedIn або слідкувати за новинами. «Я не впевнений, що хотів би, щоб він відповідав на відгуки клієнтів, поки я сплю», — додав він.

Можливість делегувати завдання AI-агенту здається потужною

Однак, за словами Грінштейна, мало хто сумнівається, що здатність делегувати реальні завдання AI-агенту є дуже привабливою для користувачів. Він навів приклад, коли він доручив AI-агенту просту задачу — забрати його речі для прання — і спостерігав, як агент тихо виконав цю роботу від початку до кінця.

Агент самостійно зв’язався з пральнею, узгодив логістику за допомогою електронної пошти, координував час, контролював дверний дзвінок для підтвердження отримання, і повідомив Грінштейна, коли завдання було завершено. Цей випадок показав, як агенти можуть працювати через кілька систем і адаптуватися, коли щось йде не так. Але він також підкреслив, чому такі інструменти все ще потребують строгих обмежень і контролю — особливо перед їхнім впровадженням у підприємства.

«OpenClaw налаштований так, що для більшості людей він не має здаватися безпечним», — сказав Грінштейн. «Ще не достатньо зрілий, щоб бути довіреним елементом нашого життя». Щоб AI був прийнятий у повсякденному житті або бізнес-операціях, він має заслужити довіру з часом — так само, як довіра встановлюється соціально.

Навіть попри це, попит уже очевидний. Грінштейн зазначив про зустрічі та ранні галузеві зібрання, присвячені OpenClaw, — швидке зростання, яке він описав як незвичайне для такого молодого інструменту. «Це показує, наскільки люди прагнуть AI, який дійсно корисний», — сказав він, — систем, що виходять за межі відповідей на питання і починають діяти.

Аарон Леві, генеральний директор хмарної платформи для управління контентом і співпраці Box, назвав те, що відбувається з AI-агентами, «маленькими іскорками» того, що може статися у майбутньому.

«Деякі іскорки не втілюються, деякі просто стають стандартом», — пояснив він, згадуючи два роки тому, коли AI-компанія Cognition представила раннього агента Devin, який інтегрувався з Slack для делегування завдань, виправлення помилок, аналізу даних і перегляду коду. Тоді це ще здавалося футуристичним, але сьогодні «ніхто не сумнівається, що це стандартна практика», — сказав він. «Ти можеш просто написати Slack Claude Code, щоб він працював над речами — те, що здавалося цілком безглуздим, тепер фактично є стандартом будь-якої сучасної інженерної команди.»

Але, хоча AI-агенти стають дуже хорошими у автоматизації конкретних, дискретних завдань, вони залишаються поганими у виконанні ширших, контекстозалежних робіт, що складають більшість робочих місць, наголошує Леві. AI-агенти можуть повністю автоматизувати кілька завдань, але з труднощами справляються з рештою — включно з управлінням відносинами і участю у зустрічах.

«Коли ви чуєте, що лабораторія AI каже, що ми автоматизуємо всю знаньову роботу за 24 місяці, це зазвичай дуже вузьке визначення роботи», — сказав він. «Визначення того, що може робити агент, не співпадає з визначенням роботи, яка наймається в економіці.»

Фактор довіри важливий, коли щось може піти не так

Авінәш Вуткурі, старший науковець з даних у провідному роздрібному торговельному гіганті Fortune 500, сказав, що більшість корпоративних AI-агентів «абсолютно потребують няні» і наразі можуть працювати лише в рамках тісно обмеженої автономії з великими обмеженнями. «Ставки дуже високі», — пояснив він.

Наприклад, він описав створення системи для корпоративної кібербезпеки, де AI-агенти не просто генерують сповіщення і чекають на людський огляд, а активно їх досліджують. Замість засипання аналітиків тисячами попереджень, агенти збирають докази в реальному часі — запитують бази даних з інформацією про загрози, аналізують поведінкові шаблони і фільтрують хибні спрацьовування — перед тим, як вирішити, чи потрібно піднімати рівень.

Система базується на тісно обмеженій автономії і великих обмеженнях, зменшуючи навантаження на людину без втрати контролю.

У кібербезпеці, пояснив він, якщо агент помилиться, наслідки будуть негайними і серйозними. «AI або блокує легітимних клієнтів (що спричиняє великі втрати доходів), або пропускає складного зловмисника у мережу», — сказав він. «Це абсолютно важливо — якщо щось піде не так.»

За словами Бріанни Вайтхед, яка керує консалтинговою компанією з AI-операцій, де вона створює системи на базі AI для керівників і засновників, галузь зараз перебуває у «фазі калібрування довіри».

AI-агенти можуть робити більше, ніж більшість людей дозволяє, але менше, ніж навіює ажіотаж.

«Настоящий навык — не створювати агента, а правильно передавати завдання», — пояснила вона. «Більшість людей або надто довіряють агентам і в кінці кінців прибирають безлад, або мікроменеджать кожен результат і дивуються, чому AI здається більшою роботою, ніж менше.» Ідея, каже вона, — створити чіткі точки передачі, де щось можна цілком делегувати, інше — швидко перевірити, а ще інше — залишити для людини.

Поки що, каже вона, агенти «справді чудові» у тому, що вона називає середнім рівнем знаньової роботи — «речі, що раніше займали дві-три години розумної людини, наприклад, узагальнення нотаток зустрічей у план дій, складання листів у голосі когось, підготовка дослідницьких коротких звітів, організація пріоритетів у чіткий план.»

Але все, що вимагає читання ситуації, навігації в невизначеності або прийняття суджень, залежних від відносин, ще не готове до роботи з AI-агентами на рівні масового застосування. «У мене був клієнт, який хотів повністю автоматизувати комунікацію з інвесторами», — сказала вона. «AI міг гарно писати, але не міг відчути, коли інвестор втрачає інтерес і потрібен інший підхід. Агент написав листа, але рішення про його відправлення приймала людина.»

Поки що, робота з AI-агентами може бути менш про сон, ніж про напівсон

Поки що, робота з AI-агентами може бути менш про те, щоб спати, поки вони працюють, ніж про те, щоб бути напівпритомним, поки вони це роблять. Інструменти на кшталт OpenClaw можуть працювати годинами, але для багатьох ранніх користувачів ця автономія супроводжується новим видом пильності — перевіркою логів, оглядом результатів і втручанням до того, як щось піде не так.

Цю динаміку відобразив недавній вірусний пост під назвою Token Anxiety, у якому інвестор Нікудж Котхарі описав, як його друг рано покинув вечірку — не через втому, а тому, що хотів повернутися до своїх агентів. «Ніхто вже цього не ставить під сумнів», — написав Котхарі. «Половина кімнати думає те саме. Інша половина, ймовірно, перевіряє прогрес своїх агентів. Навіть на вечірці.»

Мрія про AI, що працює під час сну, можливо, реальна. Але поки що вона тримає багато людей неспаними.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.42KХолдери:0
    0.00%
  • Рин. кап.:$0.1Холдери:0
    0.00%
  • Рин. кап.:$2.41KХолдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:0
    0.00%
  • Рин. кап.:$2.42KХолдери:0
    0.00%
  • Закріпити