Kimi K2 Thinking estableció un nuevo récord en las evaluaciones de referencia para evaluar habilidades de razonamiento, codificación y agentes

Según el sitio web de Moon’s Dark Side, Kimi K2 Thinking ha establecido nuevos récords en las evaluaciones de referencia de razonamiento, codificación y capacidades de agentes. K2 Thinking logró un rendimiento SOTA del 44.9% en la evaluación de referencia HLE, alcanzó un 60.2% en la prueba BrowseComp y un 71.3% en la prueba SWE-Bench Verified, demostrando una poderosa capacidad de generalización como el modelo de agente de pensamiento más avanzado.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios