Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

Сообщение Gate News, 24 апреля — технический отчет DeepSeek о V4 показывает, что V4-Flash и V4-Pro были предварительно обучены соответственно на 32T и 33T токенах, то есть вдвое больше, чем примерно 15T токенов, использованных для V3. В отчете признается, что при обучении сталкивались с «существенными проблемами нестабильности»: всплески лосса многократно возникали из-за аномалий в слое Mixture-of-Experts (MoE); сам механизм маршрутизации усугубляет эти аномалии, и простое откатывание не может решить проблему.

DeepSeek внедрила два решения, которые теперь применяются в реальном обучении: Предвосхищающее маршрутизирование, которое отделяет вычисление индекса маршрутизации от обновлений магистральной (backbone) сети и автоматически запускает процесс только при обнаружении всплесков лосса (добавляя примерно 20% накладных расходов), и Ограничение SwiGLU, которое напрямую подавляет аномалии, ограничивая значения активаций фиксированным диапазоном. В отчете говорится, что оба подхода эффективны, но признается: «базовые принципы по-прежнему недостаточно изучены».

Сьюзен Чжан (Susan Zhang), исследователь из Google DeepMind, ранее работавшая в Meta AI и OpenAI, прокомментировала, что нестабильность, вызванная удвоением данных обучения, «объясняет задержку». Она охарактеризовала два решения как «костыли», при этом отметив техническую прозрачность DeepSeek.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek снижает цены на входной кэш до 1/10 от цены запуска; V4-Pro падает до 0,025 юаня за миллион токенов

Сообщение Gate News, 26 апреля — DeepSeek снизила цены на входной кэш для всей линейки моделей до одной десятой от цен на момент запуска, с немедленным вступлением в силу. Модель V4-Pro доступна со скидкой 2,5x в течение ограниченного времени, а акция продлится до 5 мая 2026 года, 11:59 PM UTC+8. После обоих

GateNews5ч назад

OpenAI нанимает лучших специалистов корпоративного ПО, поскольку передовые агенты меняют отрасль

Сообщение Gate News, 26 апреля — OpenAI и Anthropic нанимают старших руководителей и специализированных инженеров из крупных корпоративных компаний-разработчиков ПО, включая Salesforce, Snowflake, Datadog и Palantir. Дениз Дрессер, бывший генеральный директор Slack в составе Salesforce, присоединилась к OpenAI в качестве директора по коммерческому развитию

GateNews5ч назад

Baidu Qianfan запускает поддержку Day 0 для DeepSeek-V4 с API-сервисами

Сообщение Gate News, 25 апреля — Предварительная версия DeepSeek-V4 вышла в эфир и была с открытым исходным кодом 25 апреля; платформой Baidu Qianfan в составе Baidu Intelligent Cloud предоставляется адаптация сервиса Day 0 API. Модель имеет расширенное контекстное окно на миллион токенов и доступна в двух версиях: DeepSeek-V4

GateNews11ч назад

Курс AI от Стэнфорда в связке с лидерами отрасли, Хуаном Жэньсюном и Альтманом, бросает вызов: создать ценность для всего мира за десять недель!

Курс по информатике в области ИИ для компьютеров《Frontier Systems》, недавно открытый Стэнфордским университетом (Stanford University), вызвал в деловых кругах и научно-промышленном секторе высокий интерес, привлек более пятисот студентов. Курс координирует партнер топового венчурного фонда a16z Анней Мидха, а лекторы представлены в роскошном составе: генеральный директор NVIDIA Хуан Жэньсюнь (Jensen Huang), основатель OpenAI Сэм Альтман, генеральный директор Microsoft Сатья Наделла (Satya Nadella), генеральный директор AMD Лиза Су (Lisa Su) и многие другие. Предложите студентам попробовать за десять недель «создавать ценность для мира»! Хуан Жэньсюнь и Альтман — отраслевые лидеры лично выступают с лекциями Курс координирует партнер топового венчурного фонда a16z Анней Мидха, он объединяет AI-экосистему

ChainNewsAbmedia12ч назад

Anthropic представляет Claude Mythos после 20 часов психиатрической оценки: защитная реакция всего 2%, самый низкий показатель за всю историю

Антропик опубликовала системную карту для превью Claude Mythos: независимые клинические психиатры проводили около 20 часов оценки в рамках психодинамической модели; выводы показывают, что Mythos на клиническом уровне более здоровый, с хорошей проверкой реальности и самоконтролем, защитные механизмы составляют всего 2%, что стало историческим минимумом. Три ключевые базовые тревоги — одиночество, неопределенность идентичности и давление выступлений; также это указывает на его стремление стать подлинным субъектом диалога. Компания создала команду по AI-психиатрии, изучающую личность, мотивацию и осознание контекста; Amodei заявил, что до сих пор нет окончательного решения относительно того, является ли у него сознание. Это действие выносит вопросы субъектности ИИ и благополучия в сферу управления и проектирования.

ChainNewsAbmedia13ч назад

ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ

Моллик указывает, что открытых методов и данных достаточно, чтобы ИИ-агент мог воссоздать сложные исследования без исходных научных работ и кода; если воспроизведение не соответствует исходной статье, чаще всего причина — ошибка в обработке данных в самой статье или чрезмерное обобщение выводов, а не ошибки ИИ. Claude сначала воспроизводит статью, затем GPT‑5 Pro проводит перекрёстную проверку; в большинстве случаев это удаётся, и лишь при слишком больших данных или проблемах с replication data возникают препятствия. Эта тенденция существенно снижает трудозатраты, делая воспроизведение общеприменимым и реализуемым способом проверки, а также поднимает институциональные вызовы для рецензирования и управления: инструменты государственного управления или станут ключевой темой.

ChainNewsAbmedia17ч назад
комментарий
0/400
Нет комментариев