DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, y V4-Flash con 284 mil millones de parámetros totales y 13 mil millones activados por token. Ambos admiten una ventana de contexto de 1 millón de tokens.

La arquitectura presenta tres mejoras clave: un mecanismo de atención híbrida que combina atención dispersa comprimida (CSA) y atención altamente comprimida (HCA) que reduce significativamente la sobrecarga para contextos largos: los FLOPs de inferencia para 1M de contexto de V4-Pro son solo el 27% de los de V3.2, y la caché KV (VRAM para almacenar información histórica durante la inferencia) es solo el 10% de la de V3.2; enlaces hiperconectados con restricción de manifold (mHC) que reemplazan las conexiones residuales tradicionales para mejorar la estabilidad de la propagación de señales entre capas; y el optimizador Muon para una convergencia de entrenamiento más rápida. El preentrenamiento utilizó más de 32 billones de tokens de datos.

El postentrenamiento emplea un enfoque de dos etapas: primero, entrenar expertos específicos del dominio mediante fine-tuning supervisado (SFT) y aprendizaje por refuerzo con GRPO, luego fusionarlos en un único modelo mediante destilación en línea. V4-Pro-Max (modo de inferencia más alto) afirma ser el modelo de código abierto más potente, con puntos de referencia de codificación de nivel superior y brechas significativamente reducidas frente a modelos de frontera de código cerrado en tareas de razonamiento y de agentes. V4-Flash-Max logra un rendimiento de razonamiento a nivel Pro con un presupuesto de cómputo suficiente, pero se ve limitado por la escala de parámetros en conocimiento puro y tareas de agentes complejas. Los pesos se almacenan en precisión mixta FP4+FP8.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

DeepSeek busca financiación de $1.8B con una valoración de $20B en medio de una salida de talento

Mensaje de Gate News, 25 de abril — DeepSeek planea recaudar $1.8 mil millones, valorando la empresa en aproximadamente $20 mil millones, según fuentes familiarizadas con el asunto. El impulso de recaudación de fondos llega en un momento en que la startup de IA enfrenta una importante fuga de talento, con varios investigadores principales que se marchan para

GateNewshace4h

El juez desestima las acusaciones de fraude en la demanda de Elon Musk contra OpenAI; el caso avanza a juicio con dos acusaciones restantes

Mensaje de Gate News, 24 de abril — Un juez federal ha desestimado las acusaciones de fraude de la demanda de Elon Musk contra OpenAI, Sam Altman, Greg Brockman y Microsoft, despejando el camino para que el caso avance a juicio con dos acusaciones restantes: incumplimiento de la confianza caritativa y enriquecimiento injusto. EE. UU.

GateNewshace7h

El CEO de OpenAI, Sam Altman, se disculpa por no reportar a la policía la cuenta prohibida del agresor de una escuela

Mensaje de Gate News, 25 de abril — El director ejecutivo de OpenAI, Sam Altman, se disculpó con la comunidad de Tamborine en Canadá por el fallo de la empresa al no notificar a la policía sobre una cuenta prohibida vinculada a Jesse Van Rootselaar, quien mató a ocho personas en una escuela en febrero antes de quitarse la vida. OpenAI

GateNewshace8h

Los EAU anuncian un cambio hacia un modelo de gobierno basado en IA en los próximos dos años

Su Alteza el Jeque Mohammed bin Rashid Al Maktoum declaró que el objetivo era que el 50% de los sectores gubernamentales operaran a través de IA agentica autónoma. La transición también incluirá la formación de los empleados federales para “dominar la IA” y estará supervisada por el Jeque Mansour bin Zayed. Puntos Clave:

Coinpediahace8h

Plataforma de trading de IA Fere AI recauda $1.3M en financiación liderada por Ethereal Ventures

Mensaje de Gate News, 25 de abril — Fere AI, una plataforma de comercio de activos digitales impulsada por IA, anunció la finalización de una ronda de financiación de $1.3 millones liderada por Ethereal Ventures, con la participación de Galaxy Vision Hill y Kosmos Ventures, según Globenewswire. La plataforma admite redes de cadena cruzada

GateNewshace9h

Google aumenta la apuesta con una inversión de 40 mil millones de dólares en Anthropic: primero paga 10 mil millones y luego libera 30 mil millones según el desempeño, con capacidad informática de 5 GW de TPU

Alphabet 增加对 Anthropic 的投资至 40 亿美元,分两阶段:第一笔 10 亿美元现金注入、估值 3800 亿美元;剩余 30 亿美元在业绩达标后分阶段释放。Google Cloud 在五年内提供 5 GW TPU 计算资源;同期 Amazon 也宣布最高 250 亿美元投资,显示 Anthropic 的算力与资本支持同步增强。

ChainNewsAbmediahace10h
Comentar
0/400
Sin comentarios