Искусственные агенты, которые выполняют вашу работу, пока вы спите, звучат отлично. На самом деле всё гораздо сложнее — «это как малыш, за которым нужно присматривать»

Летняя Юэ может работать над безопасностью и выравниванием в команде суперинтеллекта Meta, но даже она признает, что не застрахована от переоценки своих возможностей в отношении автономных ИИ-агентов.

Рекомендуемое видео


В посте на X в понедельник Юэ описала, как её автономные ИИ-агенты OpenClaw — созданные для работы локально на компьютере Mac mini — удалили весь её входящий ящик, игнорируя инструкции сначала приостановить работу и запросить подтверждение.

«Мне пришлось бежать к своему Mac Mini, как будто я разминировала бомбу», — сказала она. Это, по её словам, была «новичковая ошибка». Рабочий процесс работал в тестовом ящике, который она использовала для безопасного тестирования агента в течение нескольких недель, объяснила она, но в реальном ящике агент потерял её исходную инструкцию.

Опыт Юэ резко контрастирует с вирусными постами, такими как «Революция омара: почему агенты ИИ 24/7 изменили всё», в которых Питер Диамандис утверждает, что всегда включённый ИИ гораздо более беспрепятственен.

«Позвольте рассказать, как это ощущается при использовании этого», — писал Диамандис. «Вы просыпаетесь утром, а ваш агент — мой зовут Скиппи, он весело саркастичен и невероятно способен — уже сделал за вас восемь часов работы, пока вы спали. Он прочитал тысячу страниц markdown. Он организовал ваши файлы. Он подготовил три проекта плана. Он забронировал ваши поездки. Он исследовал тот вопрос, который у вас был в 11 вечера, и вы забыли о нём.»

«Когда мой Mac mini отключился на шесть часов, я почувствовал ломку», — добавил он. «Как будто исчез мой лучший друг.»

Вместе эти противоположные описания силы ИИ-агентов отражают напряжение, лежащее в основе сегодняшнего стремления к «всегда включённому» ИИ. Пока инструменты вроде OpenClaw и Claude Code делают технически возможным длительный запуск агентов, растёт энтузиазм вокруг идеи ИИ, который работает, пока вы спите. Но на практике ранние пользователи отмечают, что автономия остаётся хрупкой, непредсказуемой и трудной в управлении. Вместо того чтобы заменить человеческий труд, современные агенты часто требуют постоянного контроля, ограничений и вмешательства, особенно когда ставки выходят за рамки низкорисковых экспериментов.

ИИ-агенты работают лучше при простых и низкорисковых задачах

Шьямал Анадак, ранее работавший инженером по прикладному ИИ в OpenAI, отметил, что большинство успешных агентов сегодня всё ещё требуют частых проверок человеком или ограничены строго определёнными, хорошо сформулированными задачами — хотя он подчеркнул, что это изменится по мере улучшения методов измерения и оценки.

«Система, которая достигает 95% точности на отдельных шагах, становится хаотичной при 20-шаговом автономном рабочем процессе», — сказал Анадак. «Долгосрочное планирование всё ещё слабое». В результате, объяснил он, агенты могут хорошо справляться с короткими цепочками задач, но начинают разваливаться при управлении сложными многодневными проектами. Модель памяти — ещё одно серьёзное ограничение: «У многих агентов память либо отсутствует, либо очень хрупкая. Вам нужны системы, которые могут поддерживать связную модель вашего рабочего контекста, приоритетов и ограничений.»

Это не означает, что обещания ИИ-агентов — всё мифы и иллюзии, — говорит Йоав Шохам, бывший главный учёный Google, профессор-эмерит Стэнфордского университета и соучредитель AI21 Labs. Но это означает, что есть опасность, что люди могут забежать вперёд. Сегодняшние ИИ-агенты, по его словам, работают лучше всего, когда задача низкорисковая, слабо определённая и недорогая в ошибках.

«Разработчики любят игрушки, и у вас есть эта игрушка, которая может делать чудеса», — сказал он Fortune. «Пока то, что они делают, довольно просто и с низкими ставками ошибок, всё хорошо». Например, если вы хотите, чтобы ваш агент прочитал 10 000 сайтов и что-то интересное с этим сделал, чтобы дать вам полезную информацию за ночь.

Но для критически важных бизнес-процессов требования гораздо выше. Компаниям нужны системы, которые можно проверить, повторить и которые будут экономически оправданными — требования, быстро разрушая обещание полностью автономных, всегда включённых агентов. В строго структурированных областях, таких как программирование или математика, уже возможна более глубокая автоматизация. Но для большинства реальных бизнес-процессов, по словам Шохама, усилия по повышению надёжности агентов зачастую превышают их пользу.

Брет Гринштейн, главный специалист по ИИ в консалтинговой компании West Monroe, отметил, что инструменты вроде OpenClaw напоминают точку перелома, аналогичную тому, что произошло с генеративным ИИ после запуска ChatGPT в 2022 году — впервые идея ИИ-агентов стала доступной. Но это не «магическое решение» 24/7.

«Он может работать долго, выполняя задачи, — сказал он, — но это как малыш, за которым нужно присматривать». Некоторые задачи разумно выполнять во время сна, например, просматривать сообщения в LinkedIn или отслеживать новости. «Я не уверен, что стал бы доверять ему отвечать на отзывы клиентов, пока я сплю», — добавил он.

Возможность делегировать задачи ИИ-агенту кажется мощной

Тем не менее, очевидно, что возможность делегировать реальные задачи ИИ-агенту очень привлекательна для пользователей, подчеркнул Гринштейн. Он рассказал о своём опыте, когда поручил ИИ-агенту простую задачу — забрать его одежду в химчистку — и наблюдал, как он тихо завершил работу полностью.

Агент самостоятельно связался с химчисткой, организовал логистику через электронную почту, согласовал время, контролировал дверной видеодомофон, чтобы подтвердить получение, и уведомил Гринштейна, когда задача была выполнена. Этот случай показал, как агенты могут работать с несколькими системами и адаптироваться, когда что-то идёт не так. Но он также подчеркнул, почему такие инструменты всё ещё требуют строгих ограничений и контроля — особенно перед внедрением в корпоративную среду.

«OpenClaw настроен так, что для большинства людей он не должен казаться безопасным», — сказал Гринштейн. «Он ещё не достаточно зрел, чтобы стать доверенной частью нашей жизни». Чтобы ИИ стал частью повседневной жизни или бизнес-операций, он должен заслужить доверие со временем — так же, как доверие устанавливается в обществе.

Тем не менее, спрос уже есть. Гринштейн указал на встречи и ранние отраслевые собрания, посвящённые OpenClaw, — быстрый рост, который он назвал необычным для такого молодого инструмента. «Это показывает, насколько люди жаждут ИИ, который действительно полезен», — сказал он, — системы, выходящие за рамки простых ответов и начинающие предпринимать действия.

Аарон Леви, генеральный директор облачной платформы для управления контентом и совместной работы Box, назвал происходящее с ИИ-агентами «маленькими проблесками» того, что может произойти в будущем.

«Некоторые проблески не реализуются, а некоторые просто становятся стандартом», — объяснил он, ссылаясь на два года назад, когда компания Cognition представила раннего агента Devin, интегрированного с Slack для делегирования задач, исправления ошибок, анализа данных и обзора кода. Тогда это казалось футуристичным, а сегодня «никто не сомневается, что это стандартная практика», — сказал он. «Можно просто отправить Slack Claude Code, чтобы он работал над задачами — то, что казалось полностью безумной идеей, теперь стало стандартом любой современной инженерной команды.»

Но, несмотря на то, что ИИ-агенты становятся очень хороши в автоматизации конкретных, дискретных задач, они остаются плохими в выполнении более широких, контекстозависимых работ, составляющих большинство задач, подчеркнул Леви. ИИ-агенты могут полностью автоматизировать несколько задач, но испытывают трудности с остальными — например, управлением отношениями и участием в совещаниях.

«Когда вы слышите, что лаборатория ИИ говорит, что через 24 месяца они автоматизируют всю интеллектуальную работу, — сказал он, — это обычно очень узкое определение работы». «Определение того, что может делать агент, не совпадает с определением работы, которая нанимается в экономике.»

Фактор доверия важен, когда что-то может пойти не так

Авинаш Вуткури, ведущий специалист по данным в крупном ритейлере из списка Fortune 500, заявил, что большинство корпоративных ИИ-агентов «абсолютно требуют няньки» и пока могут работать только в условиях строго ограниченной автономии и с обширными ограничениями. «Ставки очень высоки», — объяснил он.

Например, он описал создание системы для корпоративной кибербезопасности, где ИИ-агенты не просто вызывают тревоги и ждут человеческого вмешательства, а активно расследуют угрозы. Вместо того чтобы засорять аналитиков тысячами предупреждений, агенты собирают доказательства в реальном времени — запрашивая данные из баз угроз, анализируя поведенческие шаблоны и фильтруя ложные срабатывания — и решают, стоит ли эскалировать ситуацию.

Эта система основана на строго ограниченной автономии и обширных ограничениях, уменьшая нагрузку на человека без исключения контроля.

В кибербезопасности, объяснил он, если агент ошибается, последствия могут быть немедленными и серьёзными. «ИИ либо блокирует законных клиентов (что вызывает огромные потери доходов), либо пропускает в сеть продвинутого злоумышленника», — сказал он. «Это абсолютно важно — если что-то пойдёт не так.»

По словам Брианны Вайтхед, руководителя консалтинговой компании по ИИ, которая разрабатывает системы на базе ИИ для руководителей и основателей, индустрия сейчас находится в «фазе калибровки доверия».

ИИ-агенты могут делать больше, чем большинство людей позволяют, но меньше, чем обещают хайпы.

«Настоящее мастерство — не в создании агента, а в проектировании передачи задач», — объяснила она. «Большинство либо слишком доверяют агентам и в итоге убирают беспорядок, либо микроменеджируют каждый результат и задаются вопросом, почему ИИ кажется больше работой, чем меньшим.» Идея, по её словам, — создавать чёткие точки передачи, где что-то полностью делегируется, другое — быстро проверяется, а третье — остаётся только для человека.

Пока что, сказала она, агенты «по-настоящему хороши» в том, что она назвала средним уровнем интеллектуальной работы — «вещами, которые раньше занимали два-три часа у умного человека, например, синтезировать заметки с совещаний в пункты действий, подготовить последующие письма в чьём-то стиле, собрать исследовательские брифы, организовать конкурирующие приоритеты в ясный план.»

Но всё, что требует чтения ситуации, навигации в неоднозначности или принятия решений, основанных на отношениях, пока не готово к использованию ИИ-агентов в полном объёме. «У меня был клиент, который хотел полностью автоматизировать коммуникацию с инвесторами», — сказала она. «ИИ мог красиво составлять черновики, но не мог понять, когда инвестор теряет интерес и нуждается в другом подходе. Агент подготовил письмо, а решать, отправлять его или нет, должен был человек.»

Пока что сон может оставаться недостижимым при работе с ИИ-агентами

Пока что работа с ИИ-агентами может больше напоминать о том, чтобы оставаться полусонным, пока они работают, чем о сне во время их работы. Инструменты вроде OpenClaw могут работать часами, но для многих ранних пользователей эта автономия сопровождается новым видом бдительности — проверкой логов, обзором результатов и вмешательством до того, как что-то пойдёт не так.

Эта динамика была отражена в недавнем вирусном посте под названием «Токеновая тревога», в котором инвестор Никундж Котхари описал, как его друг рано ушёл с вечеринки — не потому, что устал, а потому что хотел вернуться к своим агентам. «Больше никто не сомневается в этом», — писал Котхари. «Половина комнаты думает то же самое. Другая половина, вероятно, проверяет прогресс своих агентов. На вечеринке.»

Мечта о ИИ, который работает, пока вы спите, может стать реальностью. Но пока это всё ещё держит многих людей бодрствующими.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить