Результати пошуку для "OPUS"
2026-04-27
05:17

GPT-5.5 повертається на передній край у кодуванні, але OpenAI змінює бенчмарки після поразки від Opus 4.7

Повідомлення Gate News, 27 квітня — SemiAnalysis, компанія з аналізу напівпровідників та ШІ, опублікувала порівняльний бенчмарк асистентів для кодування, зокрема GPT-5.5, Claude Opus 4.7 і DeepSeek V4. Ключовий висновок: GPT-5.5 означає перше повернення OpenAI на передній край у моделях для кодування за шість місяців, причому інженери SemiAnalysis тепер чергують між Codex і Claude Code після того, як раніше майже виключно покладалися на Claude. GPT-5.5 створено на основі нового підходу до попереднього навчання з кодовою назвою "Spud" і є першим розширенням масштабу попереднього навчання OpenAI з моменту GPT-4.5. У практичному тестуванні чітко проявився розподіл ролей. Claude береться за планування нових проєктів та початкове налаштування, тоді як Codex найкраще справляється з виправленнями багів, що потребують інтенсивного осмислення. Codex демонструє сильніше розуміння структур даних і логічного міркування, але має труднощі з тим, щоб вгадувати неоднозначні наміри користувача. В одній задачі на єдиній панелі керування Claude автоматично відтворив макет сторінки-зразка, але сфабрикував великі обсяги даних, тоді як Codex пропустив макет, зате видав значно точніші дані. Аналіз виявляє деталь маніпуляції бенчмарком: у лютневому блозі OpenAI закликав індустрію перейти на SWE-bench Pro як новий стандарт для бенчмарків кодування. Однак у повідомленні про GPT-5.5 перехід здійснили на новий бенчмарк під назвою "Expert-SWE." Причина, захована в дрібному шрифті, полягає в тому, що GPT-5.5 було випереджено Opus 4.7 на SWE-bench Pro і він суттєво відстав від неопублікованого Mythos 77.8% від Anthropic. Щодо Opus 4.7: Anthropic опублікувала постмортем-аналіз через тиждень після релізу, визнавши три баги в Claude Code, які зберігалися протягом кількох тижнів з березня по квітень, впливаючи майже на всіх користувачів. Раніше кілька інженерів повідомляли про погіршення продуктивності в версії 4.6, але їх відхилили, назвавши суб’єктивними спостереженнями. Крім того, новий токенізатор у Opus 4.7 збільшує використання токенів до 35%, що Anthropic прямо визнав — по суті, це приховане підвищення ціни. DeepSeek V4 оцінили як "дотримання темпу з переднім краєм, але без лідерства," позиціонуючи його як найдешевшу альтернативу серед моделей із закритим кодом. Аналіз також зазначив, що "Claude продовжує випереджати DeepSeek V4 Pro у завданнях із високою складністю китайського письма," коментуючи, що "Claude переміг китайську модель у її власній мові." У статті вводиться ключова ідея: ціноутворення моделей слід оцінювати за "вартістю за задачу" замість "вартості за токен." Ціна GPT-5.5 удвічі вища за ціну GPT-5.4 input $5, output per million tokens, але він виконує ті самі завдання, використовуючи менше токенів, тож фактична вартість не обов’язково вища. Початкові дані SemiAnalysis показують, що співвідношення вхідних і вихідних даних у Codex становить 80:1, що нижче, ніж у Claude Code — 100:1.
Більше
04:29

V4-Pro досягає 67% частки успішних проходжень коду в внутрішньому dogfooding-тесті, наближаючись до продуктивності Opus 4.5

Повідомлення Gate News, 24 квітня — V4 публічно розкрила внутрішні дані власного випробування (dogfooding) для своєї моделі V4-Pro. Компанія зібрала приблизно 200 реальних інженерних завдань від понад 50 інженерів, охоплюючи розробку функцій, виправлення багів, рефакторинг і діагностику в різних технологічних стеків, зокрема
Більше
07:51

AWS розширює багатoагентні AI-робочі процеси та підтримує Claude Opus 4.7 на Bedrock

Повідомлення Gate News, 22 квітня — Amazon Web Services оголосила про розширення своїх ініціатив агентного ШІ через багатoагентні робочі процеси, підтримуючи Anthropic's Claude Opus 4.7 на Amazon Bedrock, щоб допомогти клієнтам вийти за межі пілотів генеративного ШІ. Компанія розширює партнерські відносини, оскільки клієнти переходять від окремих інструментів ШІ до систем, що з’єднують кілька спеціалізованих агентів.
Більше
01:13

Anthropic випускає Claude Opus 4.7 із запобіжниками для кібербезпеки

Anthropic's Claude Opus 4.7, оголошений 17 квітня, посилює кібербезпеку запобіжниками проти запитів із високим ризиком. Він покращує продуктивність у програмуванні та обробці зображень, але менш спроможний, ніж Mythos Preview із обмеженим тиражем. Відгуки з цього випуску визначатимуть майбутні моделі.
Більше
09:51
1

Маск: Grok усе ще наздоганяє Claude Opus 4.6; очікується, що в травні стане ближче, а в червні наздожене

Маск у соцмережі X заявив, що модель Grok від xAI наздоганяє Anthropic Claude Opus 4.6, і що, як очікується, у травні досягне цього рівня, а в червні може його перевершити. Він зазначив, що в індустрії ШІ цей час є доволі тривалим. Claude Opus 4.6 — це флагманська модель ШІ від Anthropic, яка належить до найсильнішої версії серії Claude 4.
Більше
02:14

Маск розкрив кількість параметрів Grok 4.2, а ззовні оцінюють, що Claude Opus може мати понад 5 трильйонів параметрів

Маск на платформі X підтвердив, що кількість параметрів Grok 4.2 становить 0,5 трлн, а розрахунки вказують, що параметри Claude Opus — приблизно 5 трлн, тоді як Sonnet — 1 трлн. Хоча Anthropic не оприлюднила параметри моделей, ці цифри ґрунтуються на висловлюваннях Маска. Тим часом суперкомп’ютер Colossus 2 від SpaceX AI уже тренує модель із максимальною кількістю 10 трлн параметрів, і це стане ключовим фактором у конкуренції.
Більше
01:39

VVV(Венеція)памп 19.99% за 24 години

Gate News повідомлення: 10 квітня, за даними котирувань Gate, станом на момент підготовки матеріалу VVV (Venice) наразі торгується за $8.03. За останні 24 години актив виріс на 19.99%, досягав максимуму $8.00, а мінімум опускався до $6.64. Обсяг торгів за 24 години становить $83.36 тис. доларів США. Поточна ринкова капіталізація — близько $364 млн. Venice — це орієнтована на приватність платформа штучного інтелекту, яка надає послуги на кшталт створення діалогів і генерації зображень, але не зберігає дані користувачів. Користувачі можуть приватно або анонімно отримувати доступ до провідних у галузі моделей ШІ, зокрема Claude Opus, GPT-5.2, Flux 2 тощо, а також користуватися повністю приватним захистом даних — усі ШІ-підказки зберігаються на пристрої користувача та не зберігаються на сервері. Крім того, Venice має на меті усунути
Більше
VVV-0,62%
RENDER-2,48%
IOTA-0,96%
12:36

Компанія Zhipu офіційно оголосила про запуск GLM-5.1, чия здатність до кодування значно перевищує попередню версію, і вона доступна всім користувачам плану GLM Coding.

智谱 випустила GLM-5.1, що стало доступним для всіх користувачів GLM Coding Plan. У тестуванні кодувальних можливостей GLM-5.1 отримала 45.3 бала, що суттєво перевищує попереднє покоління з 35.4, і наближається до Claude Opus 4.6, що демонструє явний прогрес.
Більше
11:51

В рамках обмеження швидкості також були збої: за два тижні у Claude сталося 25 випадків переривання обслуговування, три основні продуктові лінії зазнали серйозних збоїв, Opus 4.6 став зоною найбільших проблем.

Нещодавно сервіс Claude компанії Anthropic зазнав значних збоїв, які вплинули на три основні продуктові лінії. Звіти показують, що з 13 по 27 березня сталося близько 25 збоїв, причому найвищий рівень помилок був пов'язаний із частими проблемами з системою входу. Незважаючи на те, що рівень нормальної роботи залишався близько 99%, попит на послуги та тиск на потужності явно зросли.
Більше
05:07

20B малий модельний пошук досягає рівня GPT-5 та Opus: векторна база даних Chroma відкриває модель пошуку Agent Context-1

Відкритий векторний бази даних Chroma випустила Context-1, модель пошуку агента з 200 мільярдами параметрів для багатократного пошуку. Ця модель використовує технологію саморедагування контексту, тренуючи на багатьох завданнях за допомогою підкріплювального навчання та механізму курсів, демонструючи відмінні результати, особливо в галузях веб, фінансів та права, а також показуючи міжгалузеві можливості пошуку в сфері електронної пошти.
Більше