El co-matemático con IA de Google DeepMind logra un 47,9% en FrontierMath Tier 4, supera a GPT-5.5 Pro y resuelve 3 problemas previamente insolubles

Google DeepMind lanzó AI co-matemático, un asistente de investigación matemática multiagente, logrando 47,9% de precisión en el benchmark FrontierMath Tier 4, superando el récord previo de 39,6% de GPT-5.5 Pro del 9 de mayo. El sistema resolvió 23 de 48 problemas, incluidos 3 que todos los modelos anteriores no lograron resolver. Construido sobre Gemini 3.1 Pro, la arquitectura utiliza un diseño jerárquico con un agente coordinador de proyectos que distribuye tareas a subagentes encargados de recuperación de literatura, codificación y razonamiento, con múltiples agentes revisores validando las pruebas antes de la presentación.

Epoch AI realizó pruebas ciegas, impidiendo que el equipo de DeepMind viera los problemas, con cada pregunta permitida hasta 48 horas de computación. En aplicación en el mundo real, el matemático Marc Lackenby usó el sistema para resolver una conjetura abierta del Kourovka Notebook, demostrando su valor práctico de investigación. El sistema actualmente está disponible para un número limitado de matemáticos en pruebas beta.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

ByteDance planea aumentar el gasto en infraestructura de IA en un 25% este año, hasta 200 mil millones de yuanes

Según ChainCatcher citando Golden Data, ByteDance planea aumentar este año el gasto en infraestructura de IA en un 25% hasta 200 mil millones de yuanes, impulsado por el alza en los costos de los chips de memoria y el desarrollo acelerado de la inteligencia artificial.

GateNewsHace25m

Plataforma empresarial de IA cierra la ronda de financiación de $16M , liderada por a16z

Según Odaily, la plataforma de IA empresarial Pit anunció la finalización de una ronda de financiación de 16 millones de dólares liderada por a16z, con la participación de Lakestar y de ejecutivos de OpenAI, Anthropic, Google, Deel y Revolut. Pit se posiciona como “equipo de productos de IA como servicio”, diseñado para reemplazar las hojas de cálculo tradicionales y los sistemas SaaS rígidos.

GateNewsHace32m

Google impulsa exámenes de contratación que permiten a los ingenieros usar herramientas de IA

Según The Chosun Daily, Google está pilotando exámenes de contratación que permiten a los candidatos a ingeniero de software en EE. UU. usar herramientas de IA en puestos seleccionados de nivel inicial y medio. La prueba incluye tareas de comprensión de código en las que los solicitantes revisan código existente, corrigen errores y mejoran el rendimiento. Los entrevistadores evaluarán cómo los candidatos redactan instrucciones para la IA, verifican su salida, editan los resultados y depuran el c

GateNewshace2h

OpenAI descontinúa la API de ajuste fino con efecto inmediato; los usuarios existentes pueden acceder hasta el 6 de enero de 2027

Según el anuncio oficial de OpenAI monitoreado por Beating, la empresa está descontinuando su API de ajuste fino self-serve para desarrolladores con efecto inmediato. Los nuevos usuarios ya no pueden crear tareas de ajuste fino, mientras que los usuarios activos existentes pueden acceder al servicio hasta el 6 de enero de 2027. Los modelos ajustados finamente desplegados tendrán sus servicios de inferencia vinculados al ciclo de vida de sus modelos base, y se suspenderán cuando el modelo base se

GateNewshace3h

Sakana AI y Nvidia logran una inferencia 30% más rápida en H100 al omitir el 80% de los cálculos inválidos

Sakana AI y Nvidia han publicado TwELL como open-source, un formato de datos dispersos que permite a las GPU H100 omitir el 80% de los cálculos inválidos en modelos de lenguaje grandes sin perder precisión. La solución ofrece hasta un 30% más de velocidad en la inferencia y un 24% más rápida en el entrenamiento en H100, a la vez que reduce el uso máximo de memoria. En pruebas con un modelo de 1,5 mil millones de parámetros, el enfoque redujo las neuronas activas a menos del 2% mediante una regul

GateNewshace4h

Microsoft lanza código abierto el modelo Phi-Ground 4B y supera a OpenAI Operator y a Claude en precisión al hacer clic en pantalla

Beating informó que Microsoft recientemente publicó como código abierto la familia de modelos Phi-Ground, diseñada para resolver el problema de dónde debe hacer clic la IA en una pantalla de computadora. La versión de 4 mil millones de parámetros, combinada con modelos lingüísticos más grandes para la planificación de instrucciones, superó la precisión de clic de OpenAI Operator y Claude Computer Use en el benchmark Showdown y quedó en el primer lugar entre todos los modelos de menos de 100 mil

GateNewshace4h
Comentar
0/400
Sin comentarios