Anthropic снижает долю джейлбрейков Claude до 0% с помощью новых методов обучения для выравнивания

GateNews

2026-05-09 07:57:22

Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.

Новости индустрии ИИ

2025 年 весь год AI-инженерное сообщество бурно спорило о том, что лучше для вызова инструментов агентами — «MCP vs CLI». Опубликованная в ноябре 2025 года статья Anthropic «Code execution with MCP» переопределила проблему с точки зрения первых принципов. akshaypachaar 5/10 собрал thread и пояснил: дело никогда не в самом протоколе, а в старой привычке — на старте session пихать в context описание всех инструментов целиком; решение Anthropic заключается в том, чтобы модель писала код для вызова и

ChainNewsAbmedia10м назад

ByteDance планирует увеличить расходы на AI-инфраструктуру на 25% до 200 миллиардов юаней в этом году

Новости индустрии ИИ

Ссылаясь на Golden Data, ChainCatcher сообщает, что ByteDance планирует увеличить расходы на ИИ-инфраструктуру на 25% — до 200 миллиардов юаней в этом году — на фоне роста стоимости чипов памяти и ускорения развития искусственного интеллекта.

GateNews47м назад

Предприятие AI-платформа Pit закрывает $16M раундов финансирования серии, лидером выступает a16z

Новости индустрии ИИ

Согласно Odaily, корпоративная платформа для ИИ Pit объявила о завершении раунда финансирования на 16 миллионов долларов, который возглавила a16z; в нём также участвовали Lakestar и руководители из OpenAI, Anthropic, Google, Deel и Revolut. Pit позиционирует себя как «AI product team as a service», предназначенную для замены традиционных таблиц и жёстких систем SaaS.

GateNews54м назад

Google запускает набор на вакансии с помощью экзаменов, на которых инженерам разрешают использовать инструменты ИИ

Новости индустрии ИИ

По данным The Chosun Daily, Google проводит пилотный набор экзаменов при приёме на работу, которые позволяют кандидатам на должности в США для разработки ПО использовать инструменты ИИ в отобранных позициях начального и среднего уровня. В рамках эксперимента предусмотрены задания на понимание кода: соискатели рассматривают существующий код, исправляют ошибки и улучшают производительность. Интервьюеры будут оценивать, как кандидаты формулируют запросы к ИИ, проверяют его вывод, вносят правки и от

GateNews3ч назад

OpenAI прекращает API для тонкой настройки с немедленным вступлением в силу; существующие пользователи могут продолжать пользоваться им до 6 января 2027 года

Новости индустрии ИИ

Согласно официальному объявлению OpenAI, которое отслеживает Beating, компания прекращает для разработчиков свой самообслуживаемый API для fine-tuning (тонкой настройки) с немедленным вступлением в силу. Новые пользователи больше не могут создавать задачи fine-tuning, тогда как существующие активные пользователи могут пользоваться сервисом до 6 января 2027 года. Развернутые модели после fine-tuning будут привязаны к жизненному циклу своих базовых моделей и прекратят работу, когда базовая модель

GateNews3ч назад

Sakana AI и Nvidia добиваются на 30% более быстрого вывода на H100, пропуская 80% недействительных вычислений

Новости индустрии ИИ

Sakana AI и Nvidia открыли исходный код TwELL — разреженного формата данных, который позволяет GPU H100 пропускать 80% недопустимых вычислений в больших языковых моделях без потери точности. Решение обеспечивает до 30% более быстрый инференс и 24% более быстрое обучение на H100, одновременно снижая пиковое потребление памяти. В тестах на модели с 1,5 миллиарда параметров подход сократил число активных нейронов до менее 2% за счёт лёгкой регуляризации во время обучения, при этом не наблюдалось ух

GateNews4ч назад

комментарий

0/400

Нет комментариев