Сообщение Gate News, 24 апреля — V4 публично раскрыла внутренние данные догфудинга для своей модели V4-Pro. Компания собрала примерно 200 реальных инженерных задач от более чем 50 инженеров, охватив разработку функций, исправление ошибок, рефакторинг и диагностику в различных технологических стеках, включая PyTorch, CUDA, Rust и C++. После тщательной фильтрации для оценки бенчмарка было сохранено 30 задач.

V4-Pro-Max достиг 67% процента успешного прохождения кода, существенно превзойдя Sonnet 4.5 с 47% и приблизившись к Opus 4.5 с 70%. Однако он уступает Opus 4.5 Thinking (73%) и Opus 4.6 Thinking (80%), при этом значительно опережая Haiku 4.5 на 13%.

Во внутреннем опросе с 85 респондентами все участники сообщили, что используют V4-Pro для агентного кодинга в ежедневных рабочих процессах. 52% поддержали V4-Pro как свою модель первичного кодинга по умолчанию, 39% склонялись к одобрению, и менее 9% выразили неодобрение. Сообщенные проблемы включали низкоуровневые ошибки, неверное толкование неоднозначных запросов и иногда чрезмерное обдумывание поведения.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Anthropic представляет Claude Mythos после 20 часов психиатрической оценки: защитная реакция всего 2%, самый низкий показатель за всю историю

Новости индустрии ИИ

Антропик опубликовала системную карту для превью Claude Mythos: независимые клинические психиатры проводили около 20 часов оценки в рамках психодинамической модели; выводы показывают, что Mythos на клиническом уровне более здоровый, с хорошей проверкой реальности и самоконтролем, защитные механизмы составляют всего 2%, что стало историческим минимумом. Три ключевые базовые тревоги — одиночество, неопределенность идентичности и давление выступлений; также это указывает на его стремление стать подлинным субъектом диалога. Компания создала команду по AI-психиатрии, изучающую личность, мотивацию и осознание контекста; Amodei заявил, что до сих пор нет окончательного решения относительно того, является ли у него сознание. Это действие выносит вопросы субъектности ИИ и благополучия в сферу управления и проектирования.

ChainNewsAbmedia1ч назад

ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ

ИИ-агент Новости индустрии ИИ

Моллик указывает, что открытых методов и данных достаточно, чтобы ИИ-агент мог воссоздать сложные исследования без исходных научных работ и кода; если воспроизведение не соответствует исходной статье, чаще всего причина — ошибка в обработке данных в самой статье или чрезмерное обобщение выводов, а не ошибки ИИ. Claude сначала воспроизводит статью, затем GPT‑5 Pro проводит перекрёстную проверку; в большинстве случаев это удаётся, и лишь при слишком больших данных или проблемах с replication data возникают препятствия. Эта тенденция существенно снижает трудозатраты, делая воспроизведение общеприменимым и реализуемым способом проверки, а также поднимает институциональные вызовы для рецензирования и управления: инструменты государственного управления или станут ключевой темой.

ChainNewsAbmedia4ч назад

OpenAI объединяет Codex с основной моделью, начиная с GPT-5.4, прекращает отдельную линейку для кодинга

Новости индустрии ИИ

Новостное сообщение Gate News, 26 апреля — глава отдела взаимодействия с разработчиками OpenAI Ромен Юэ (Romain Huet) в недавнем заявлении на X сообщил, что Codex, линейка специализированных моделей для кодинга, независимо поддерживаемая компанией, была объединена с основной моделью начиная с GPT-5.4 и больше не будет получать отдельные

GateNews4ч назад

Salesforce нанимет 1 000 выпускников и стажеров для AI-продуктов, а также повышает прогноз выручки на FY2026

Новости индустрии ИИ

Сообщение Gate News, 26 апреля — Salesforce нанять 1 000 выпускников и стажеров для работы над продуктами в области ИИ, включая Agentforce и Headless360, поскольку компания расширяет свой бизнес по разработке ПО на базе ИИ; об этом объявил CEO Марк Бениофф в X. Компания также повысила прогноз по выручке на 2026 финансовый год до диапазона от 41,45 млрд долларов США

GateNews4ч назад

Alibaba Cloud запускает Qwen-Image-2.0-Pro с единым преобразованием текста в изображение и редактированием, поддержкой многоязычного отображения текста

Новости индустрии ИИ

Сообщение Gate News, 26 апреля — платформа Alibaba Cloud Bailian запустила Qwen-Image-2.0-Pro, полнофункциональную версию серии Qwen-Image-2.0, которая объединяет генерацию изображений по тексту и редактирование изображений в одной модели. Пользователи могут изменять объекты, текст и стили напрямую с помощью команд на естественном языке

GateNews6ч назад

комментарий

0/400

Нет комментариев