Результаты поиска для "OPUS"
2026-04-27
05:17

GPT-5.5 Возвращается на Передний край в Кодинге, но OpenAI Меняет Бенчмарки После Поражения Opus 4.7

Gate News сообщение, 27 апреля — SemiAnalysis, фирма по анализу полупроводников и ИИ, опубликовала сравнительный бенчмарк ассистентов для программирования, включая GPT-5.5, Claude Opus 4.7 и DeepSeek V4. Ключевой вывод: GPT-5.5 знаменует собой первый возврат OpenAI на передний край в моделях для кодинга за последние шесть месяцев, при этом инженеры SemiAnalysis теперь чередуют между Codex и Claude Code после того, как ранее почти исключительно полагались на Claude. GPT-5.5 основана на новом подходе к предварительному обучению с кодовым названием "Spud" и представляет собой первое расширение масштаба предварительного обучения OpenAI со времён GPT-4.5. При практических испытаниях проявилось явное разделение ролей. Claude отвечает за планирование новых проектов и первичную настройку, тогда как Codex особенно силён в исправлениях багов, требующих интенсивных рассуждений. Codex демонстрирует более сильное понимание структур данных и логических рассуждений, но испытывает трудности с тем, чтобы выводить неоднозначные намерения пользователя. В задаче на одной панели Claude автоматически воссоздал компоновку эталонной страницы, но сфабриковал большие объёмы данных, тогда как Codex пропустил компоновку, зато предоставил значительно более точные данные. Анализ выявляет деталь манипуляции бенчмарком: февральский блог OpenAI призывал отрасль перейти на SWE-bench Pro как новый стандарт для бенчмарков кода. Однако в объявлении GPT-5.5 переход осуществлён на новый бенчмарк под названием "Expert-SWE." Причина, спрятанная в мелком шрифте, заключается в том, что GPT-5.5 был обойдён Opus 4.7 на SWE-bench Pro и заметно уступил ненадлежащим образом не раскрытому Anthropic Mythos 77.8%. Что касается Opus 4.7, Anthropic опубликовала разбор последствий через неделю после релиза, признав три ошибки в Claude Code, которые сохранялись в течение нескольких недель с марта по апрель, затрагивая почти всех пользователей. Ранее несколько инженеров сообщали о деградации производительности в версии 4.6, но их замечания были отклонены как субъективные. Кроме того, новый токенизатор Opus 4.7 увеличивает использование токенов до 35%, что Anthropic откровенно признала — фактически это означает скрытое повышение цены. DeepSeek V4 оценили как "удерживающий темп с передним краем, но не ведущий," позиционируя себя как самый бюджетный вариант среди закрытых моделей. Анализ также отметил, что "Claude по-прежнему превосходит DeepSeek V4 Pro в высокосложных задачах китайской письменности," и прокомментировал, что "Claude выиграл у китайской модели на её родном языке." В статье вводится ключевая идея: цена модели должна оцениваться через "стоимость за задачу," а не через "стоимость за токен." Прайсинг GPT-5.5 вдвое выше, чем у GPT-5.4 input $5, output за миллион токенов, но он выполняет те же задачи, используя меньшее число токенов, поэтому фактическая стоимость не обязательно выше. Первичные данные SemiAnalysis показывают, что коэффициент входов к выходам у Codex составляет 80:1, что ниже, чем 100:1 у Claude Code.
Больше
04:57

Xiaomi раскрывает подробности обучения MiMo-V2-Pro: 1T параметров модели, тысячи развернутых GPU

Сообщение Gate News, 24 апреля — руководитель команды большой языковой модели Xiaomi Луо Фули в подробном интервью раскрыла, что модель MiMo-V2-Pro в сумме имеет 1 триллион параметров и для обучения потребовала тысячи GPU. Она отметила, что масштаб 1T представляет собой минимальный порог для достижения производительности, приближающейся к уровню Claude Opus 4.6, и получения конкурентного входного билета на следующий этап ИИ-агентов
Больше
04:29

V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая
Больше
01:13

Anthropic выпускает Claude Opus 4.7 с мерами кибербезопасности

Claude Opus 4.7 от Anthropic, объявленная 17 апреля, усиливает кибербезопасность за счет защитных мер против запросов с высоким риском. Она улучшает производительность при кодировании и обработке изображений, но менее способна, чем Mythos Preview, доступная только в ограниченном выпуске. Отзывы об этом релизе будут определять дальнейшие модели.
Больше
09:51
1

Маск: Grok все еще догоняет Claude Opus 4.6; ожидается, что к маю приблизится, а в июне превзойдет

Маск на платформе X заявил, что модель Grok от xAI догоняет Anthropic Claude Opus 4.6: ожидается, что в мае она приблизится к уровню, а в июне может его превзойти. Он отметил, что в сфере ИИ этот период считается довольно долгим. Claude Opus 4.6 — флагманская модель ИИ от Anthropic, относящаяся к самым мощным версиям в серии Claude 4.
Больше
02:14

Маск раскрыл количество параметров Grok 4.2; внешние предположения считают, что Claude Opus может достигать 5 трлн параметров

Маск на платформе X подтвердил, что количество параметров Grok 4.2 составляет 0,5 триллиона; расчеты показывают, что параметры Claude Opus составляют около 5 триллионов, а Sonnet — 1 триллион. Хотя Anthropic не публиковала параметры модели, эти цифры основаны на высказываниях Маска. Тем временем суперкомпьютер Colossus 2 от SpaceX AI уже обучает модель с максимально возможным масштабом в 10 триллионов параметров, и это станет ключевым фактором конкуренции.
Больше
01:39

VVV (Венеция) рост за 24 часа составил 19,99%

Gate News сообщение: 10 апреля, согласно данным Gate по рынку, к моменту подготовки материала VVV (Venice) торгуется по цене 8.03 долларов; за последние 24 часа рост составил 19.99%; максимальная цена достигала 8.00 долларов, а минимальная откатилась до 6.64 долларов; объем торгов за 24 часа — 833.6k долларов. Текущая капитализация составляет около 364M долларов. Venice — это ориентированная на приватность платформа искусственного интеллекта, которая предлагает такие услуги, как генерация диалогов и создание изображений, но не сохраняет пользовательские данные. Пользователи могут получать приватный или анонимный доступ к ведущим в отрасли AI-моделям, включая Claude Opus, GPT-5.2, Flux 2 и др., одновременно пользуясь полностью приватной защитой данных — все AI-подсказки сохраняются на устройствах пользователя и не хранятся на серверах. Кроме того, Venice стремится устранить на платформе
Больше
VVV-0,62%
RENDER-2,48%
IOTA-0,96%
12:36

Компания Zhipu объявила о запуске GLM-5.1, значительно превосходящего предыдущие версии по возможностям кодирования, и открыла его всем пользователям, участвующим в GLM Coding Plan.

Компания Zhipu выпустила GLM-5.1, доступный для всех пользователей GLM Coding Plan. В тесте на вычислительные способности GLM-5.1 набрал 45.3 балла, что значительно превосходит предыдущий показатель 35.4 и приближается к Claude Opus 4.6, демонстрируя явный прогресс.
Больше
11:51

Помимо ограничения скорости, есть и сбои: за две недели у Claude произошло 25 случаев прерывания обслуживания, три продуктовые линии столкнулись с серьезными сбоями, а Opus 4.6 — зона наибольших проблем.

Недавно у сервиса Claude компании Anthropic произошел серьезный сбой, который затронул три основные продуктовые линии. По отчетам, с 13 по 27 марта произошло около 25 сбоев, наибольшая ошибка была связана с частыми проблемами в системе входа. Хотя уровень нормальной работы оставался на уровне около 99%, спрос на услуги и давление на мощность явно возросли.
Больше
05:07

20B小型模型 сравнялись по поисковым возможностям с GPT-5 и Opus: векторная база данных Chroma — открытая агентная поисковая модель Context-1

Открытая векторная база данных Chroma выпустила Context-1, модель поиска с 20 миллиардами параметров для многократного поиска. Эта модель использует технологию самообучающегося контекста и обучается на множественных задачах с помощью усиленного обучения и курсовой механики, показывая отличные результаты, особенно в областях веба, финансов и права, а также демонстрируя кросс-доменные возможности поиска в области электронной почты.
Больше