Xiaomi Revela Detalles del Entrenamiento de MiMo-V2-Pro: Parámetros de Modelo 1T, Miles de GPUs Desplegadas

Mensaje de Gate News, 24 de abril — la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr un rendimiento cercano al nivel de Claude Opus 4.6 y asegurar un pase de entrada competitivo para la siguiente fase de agentes de IA.

Técnicamente, la versión Pro emplea un mecanismo extremo de atención dispersa con una proporción 7:1 entre la atención global y la atención de ventana deslizante, controlando los costos de inferencia para el procesamiento de contextos largos. El modelo también conserva la arquitectura MTP (Multi-Token Prediction) para aprovechar el exceso de potencia de cómputo y lograr una inferencia más rápida.

En el aspecto de gestión, el equipo MiMo de 100 personas solo cuenta con 30-40 integrantes involucrados directamente en las iteraciones principales. El equipo opera sin jerarquías formales ni divisiones explícitas de subgrupos, y sin fechas límite de entrega. Cuando se encuentran problemas numéricos inestables como picos en la pérdida de entrenamiento, el equipo prioriza detener el entrenamiento para investigarlo, incluso si eso significa detener las operaciones durante una o dos semanas y asumir costos de cómputo de millones de dólares.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Anthropic implementa salvaguardas electorales para Claude antes de las elecciones legislativas de mitad de mandato de 2026

Anthropic anunció el viernes un conjunto de medidas de integridad electoral diseñadas para evitar que su chatbot de IA Claude sea utilizado como arma para difundir desinformación o manipular a los votantes antes de las elecciones legislativas de mitad de período de EE. UU. de 2026 y otros grandes comicios en todo el mundo este año. Con sede en San Francisco,

CryptoFrontierhace1h

DeepRoute.ai sistema avanzado de asistencia a la conducción supera las 300.000 unidades desplegadas: objetivo 2026 de 1.000.000 flotas urbanas NOA

DeepRoute.ai anuncia que su avanzado sistema de asistencia para conducción ha acumulado más de 300.000 vehículos desplegados en China, y que durante el último año ha ayudado a evitar más de 180.000 incidentes potenciales. El objetivo para 2026 es alcanzar un parque de NOA para ciudades de 1 millón de vehículos, con una utilización superior al 50%, lo que se considera clave para la comercialización a gran escala de Robotaxi. Esta medida muestra que la conducción autónoma en China ya ha entrado en un uso normalizado, al tiempo que crea una división con la ruta de integración vertical que sigue Estados Unidos, lo que afecta la cronología de la cadena de suministro en Asia-Pacífico.

ChainNewsAbmediahace3h

DeepSeek lanza los modelos V4-Pro y V4-Flash con un costo un 98% menor que el GPT-5.5 Pro de OpenAI

Mensaje de Gate News, 25 de abril — DeepSeek lanzó versiones de vista previa de V4-Pro y V4-Flash el 24 de abril, ambos modelos de código abierto con ventanas de contexto de un millón de tokens. V4-Pro presenta 1,6 billones de parámetros totales, pero activa solo 49 mil millones por pasada de inferencia usando una arquitectura Mixture-of-Experts.

GateNewshace8h

El juez desestima las acusaciones de fraude en la demanda de Elon Musk contra OpenAI; el caso avanza a juicio con dos acusaciones restantes

Mensaje de Gate News, 24 de abril — Un juez federal ha desestimado las acusaciones de fraude de la demanda de Elon Musk contra OpenAI, Sam Altman, Greg Brockman y Microsoft, despejando el camino para que el caso avance a juicio con dos acusaciones restantes: incumplimiento de la confianza caritativa y enriquecimiento injusto. EE. UU.

GateNewshace11h

El CEO de OpenAI, Sam Altman, se disculpa por no reportar a la policía la cuenta prohibida del agresor de una escuela

Mensaje de Gate News, 25 de abril — El director ejecutivo de OpenAI, Sam Altman, se disculpó con la comunidad de Tamborine en Canadá por el fallo de la empresa al no notificar a la policía sobre una cuenta prohibida vinculada a Jesse Van Rootselaar, quien mató a ocho personas en una escuela en febrero antes de quitarse la vida. OpenAI

GateNewshace12h

Los EAU anuncian un cambio hacia un modelo de gobierno basado en IA en los próximos dos años

Su Alteza el Jeque Mohammed bin Rashid Al Maktoum declaró que el objetivo era que el 50% de los sectores gubernamentales operaran a través de IA agentica autónoma. La transición también incluirá la formación de los empleados federales para “dominar la IA” y estará supervisada por el Jeque Mansour bin Zayed. Puntos Clave:

Coinpediahace12h
Comentar
0/400
Sin comentarios