Google Research випускає ReasoningBank: AI-агенти вчаться стратегіям міркування з успіху та невдач

Повідомлення Gate News, 22 квітня — Google Research опублікувала ReasoningBank, фреймворк пам’яті агентів, який дає змогу агентам, керованим великими мовними моделями, безперервно вчитись після розгортання. Фреймворк витягує універсальні стратегії міркування як з успішних, так і з невдалих досвідів виконання завдань, зберігаючи їх у банку пам’яті для пошуку та виконання під час подібних майбутніх завдань. Відповідна стаття була опублікована в ICLR, а код відкрито на GitHub.

ReasoningBank удосконалює два наявні підходи: Synapse, який записує повні траєкторії дій, але має обмежену переносимість через дрібнозернисту деталізацію, та Agent Workflow Memory, яка навчається лише на успішних випадках. ReasoningBank вносить дві ключові зміни: зберігання “patternів міркування” замість “послідовностей дій”, де кожна пам’ять містить структуровані поля для назви, опису та вмісту; і включення невдалих траєкторій у процес навчання. Фреймворк використовує модель для самостійної оцінки траєкторій виконання, перетворюючи невдалий досвід на правила проти типових помилок. Наприклад, правило “клікніть кнопку Load More, коли її побачите” еволюціонує в “спершу перевірте ідентифікатор поточної сторінки, уникайте нескінченних циклів прокрутки, а потім натисніть load more.”

Стаття також вводить Memory-aware Test-time Scaling (MaTTS), яке виділяє додаткові обчислення під час інференсу, щоб досліджувати кілька траєкторій і зберігати результати в банку пам’яті. Паралельне розгортання виконує кілька різних траєкторій для одного й того ж завдання, уточнюючи більш надійні стратегії через самопорівняння; послідовне розгортання ітеративно уточнює одну траєкторію, зберігаючи проміжне міркування в пам’яті.

У браузерних задачах WebArena та задачах кодування SWE-Bench-Verified із використанням Gemini 2.5 Flash як агента ReAct, ReasoningBank досягла на 8.3% вищого рівня успіху на WebArena та на 4.6% вищого на SWE-Bench-Verified порівняно з базовим підходом без пам’яті, зменшивши середню кількість кроків на завдання приблизно на 3. Додавання MaTTS із паралельним розгортанням (k=5) ще більше покращило рівень успіху на WebArena на 3 відсоткові пункти та зменшило кількість кроків додатково на 0.4.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OpenAI Рекрутує найкращі таланти з корпоративного софту, оскільки агенти на передньому краї змінюють індустрію

Повідомлення Gate News, 26 квітня — OpenAI та Anthropic вербують старших керівників і спеціалізованих інженерів із провідних корпоративних софтверних компаній, зокрема Salesforce, Snowflake, Datadog і Palantir. Деніз Дрессер, колишня CEO Slack у складі Salesforce, приєдналася до OpenAI на посаду головної комерційної посадової особи (chief revenue of

GateNews6год тому

Worxphere перейменовує JobKorea, додаючи інструменти для найму на базі ШІ

Повідомлення Gate News, 26 квітня — Платформа з управління персоналом у Південній Кореї Worxphere перейменувала JobKorea, переходячи від традиційних онлайн-дошок вакансій до рішень для найму, керованих ШІ. Компанія об’єднує сервіси, зокрема JobKorea та Albamon, в єдину платформу, що охоплює постійну зайнятість, гіг-роботу та рекрутинг іноземних працівників.

GateNews16год тому

AI-агент уже здатний самостійно відтворювати складні академічні статті: Mollick стверджує, що помилки здебільшого трапляються в людських оригіналах, а не в AI

Моллік зазначає, що опубліковані методи та дані дозволяють AI-агентам відтворювати складні дослідження без наявності оригінальних наукових праць і коду; якщо відтворення не відповідає оригінальній статті, то найчастіше проблема не в AI, а в помилках обробки даних у самій статті або в надмірному узагальненні висновків. Claude спочатку відтворює статтю, а потім GPT‑5 Pro перехресно верифікує; у більшості випадків це вдається, лише коли дані надто великі або виникають проблеми з replication data. Ця тенденція значно знижує трудовитрати, роблячи відтворення поширеною, практично здійсненною перевіркою, а також висуває інституційні виклики для рецензування та управління (governance): інструменти державного управління можуть стати ключовим питанням.

ChainNewsAbmedia18год тому

ОАЕ оголошують перехід до моделі AI-держави протягом наступних двох років

Його Високість шейх Мохаммед бін Рашид Аль Мактум заявив, що метою було забезпечити роботу 50% державних секторів через автономний агентний ШІ. Перехід також включатиме навчання федеральних працівників, щоб «опанувати ШІ», і перебуватиме під наглядом шейха Мансура бін Зайєда. Ключові висновки:

Coinpedia04-25 08:39

Платформа для ШІ-торгівлі Fere AI залучила $1,3 млн фінансування під проводом Ethereal Ventures

Повідомлення Gate News, 25 квітня — Fere AI, платформа для торгівлі цифровими активами з підтримкою ШІ, оголосила про завершення раунду фінансування на $1,3 млн під проводом Ethereal Ventures за участі Galaxy Vision Hill та Kosmos Ventures, повідомляє Globenewswire. Платформа підтримує кросчейн

GateNews04-25 07:46

Nvidia розгортає AI-агента OpenAI Codex для всієї команди працівників на інфраструктурі Blackwell

Повідомлення Gate News, 25 квітня — Nvidia розгорнула Codex від OpenAI, AI-агента з підтримкою GPT-5.5, для всієї своєї команди працівників після успішного випробування приблизно з 10,000 співробітників, повідомляють внутрішні матеріали від CEO Дженсена Хуанга та CEO OpenAI Сема Альтмана. Codex розроблено для того, щоб допомагати з

GateNews04-25 03:11
Прокоментувати
0/400
Немає коментарів