Google Research publica ReasoningBank: los agentes de IA aprenden estrategias de razonamiento del éxito y del fracaso

Mensaje de Gate News, 22 de abril — Google Research publicó ReasoningBank, un marco de memoria para agentes que permite a los agentes impulsados por modelos de lenguaje aprender continuamente después del despliegue. El marco extrae estrategias universales de razonamiento a partir de experiencias tanto de tareas exitosas como fallidas, almacenándolas en un banco de memoria para su recuperación y ejecución en tareas futuras similares. El artículo asociado se publicó en ICLR, y el código se ha publicado como código abierto en GitHub.

ReasoningBank mejora dos enfoques existentes: Synapse, que registra trayectorias completas de acciones, pero tiene una transferibilidad limitada debido a la gran granularidad, y Agent Workflow Memory, que solo aprende de casos exitosos. ReasoningBank realiza dos cambios clave: almacenar “patrones de razonamiento” en lugar de “secuencias de acciones”, con cada memoria que contiene campos estructurados para título, descripción y contenido; e incorporar trayectorias de fallo en el aprendizaje. El marco utiliza un modelo para autoevaluar las trayectorias de ejecución, transformando las experiencias de fallo en reglas anti-errores. Por ejemplo, la regla “hacer clic en el botón Load More cuando se vea” evoluciona a “verificar primero el identificador de la página actual, evitar bucles infinitos de desplazamiento y luego hacer clic en load more.”

El artículo también introduce Memory-aware Test-time Scaling (MaTTS), que asigna cómputo adicional durante la inferencia para explorar múltiples trayectorias y almacenar hallazgos en el banco de memoria. La expansión en paralelo ejecuta múltiples trayectorias distintas para la misma tarea, refinando estrategias más robustas mediante auto-comparación; la expansión secuencial refina iterativamente una sola trayectoria, almacenando el razonamiento intermedio en memoria.

En tareas de navegador WebArena y tareas de codificación SWE-Bench-Verified usando Gemini 2.5 Flash como agente ReAct, ReasoningBank logró una tasa de éxito 8.3% más alta en WebArena y 4.6% más alta en SWE-Bench-Verified en comparación con una línea base sin memoria, reduciendo los pasos promedio por tarea en aproximadamente 3. Al agregar MaTTS con expansión en paralelo (k=5), la tasa de éxito en WebArena mejoró aún en 3 puntos porcentuales y los pasos se redujeron en 0.4 adicionales.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

OpenAI 招揽顶级企业软件人才,前沿代理颠覆行业

Gate News 消息,4 月 26 日——OpenAI 和 Anthropic 一直在从包括 Salesforce、Snowflake、Datadog 和 Palantir 在内的主要企业软件公司招募高管和专业工程师。Denise Dresser,前 Salesforce 下属 Slack 的首席执行官,加入 OpenAI 担任首席营收官

GateNewshace8h

Worxphere renombra JobKorea con herramientas de contratación impulsadas por IA

Mensaje de Gate News, 26 de abril — La plataforma de RR. HH. de Corea del Sur Worxphere ha renombrado JobKorea mientras realiza la transición de los tradicionales portales de empleo en línea a soluciones de contratación impulsadas por IA. La empresa está consolidando servicios, incluidos JobKorea y Albamon, en una plataforma unificada que abarca el empleo permanente,

GateNewshace18h

El agente de IA ya puede reproducir de forma independiente artículos académicos complejos: Mollick afirma que los errores se deben más al texto original humano que a la IA

Mollick señaló que, con los métodos y los datos públicamente disponibles, un agente de IA puede reproducir investigaciones complejas sin contar con el artículo original ni el código; si la reproducción no coincide con el artículo original, por lo general se debe a errores en el procesamiento de los datos del propio artículo o a una conclusión excesiva, más que a la IA. Claude primero reproduce el artículo y luego GPT‑5 Pro lo valida de forma cruzada; la mayoría de las veces tiene éxito, solo se ve obstaculizado cuando los datos son demasiado grandes o hay problemas con replication data. Esta tendencia reduce de forma considerable los costos laborales, haciendo que la reproducción se convierta en una verificación ampliamente ejecutable, además de plantear desafíos institucionales para el arbitraje y la gobernanza. Herramientas de gobernanza gubernamental o eso puede volverse un tema clave.

ChainNewsAbmediahace20h

Los EAU anuncian un cambio hacia un modelo de gobierno basado en IA en los próximos dos años

Su Alteza el Jeque Mohammed bin Rashid Al Maktoum declaró que el objetivo era que el 50% de los sectores gubernamentales operaran a través de IA agentica autónoma. La transición también incluirá la formación de los empleados federales para “dominar la IA” y estará supervisada por el Jeque Mansour bin Zayed. Puntos Clave:

Coinpedia04-25 08:39

Plataforma de trading de IA Fere AI recauda $1.3M en financiación liderada por Ethereal Ventures

Mensaje de Gate News, 25 de abril — Fere AI, una plataforma de comercio de activos digitales impulsada por IA, anunció la finalización de una ronda de financiación de $1.3 millones liderada por Ethereal Ventures, con la participación de Galaxy Vision Hill y Kosmos Ventures, según Globenewswire. La plataforma admite redes de cadena cruzada

GateNews04-25 07:46

Nvidia在Blackwell基础设施上将OpenAI Codex AI代理部署至全体员工

消息快报,4月25日——据首席执行官Jensen Huang和OpenAI首席执行官Sam Altman的内部沟通内容,Nvidia已在成功试点后,将OpenAI的Codex这一由GPT-5.5驱动的AI代理面向其全体员工部署,试点约涉及10,000名员工。 Codex旨在用于

GateNews04-25 03:11
Comentar
0/400
Sin comentarios