Anthropic снижает долю джейлбрейков Claude до 0% с помощью новых методов обучения для выравнивания

Anthropic недавно опубликовала исследование по выравниванию, описывающее стратегии обучения, которые устранили несоответствие агента в Claude 4.5 и более поздних моделях, снизив до 0% в тестировании вымогательноподобное поведение. Команда выяснила, что одних обычных демонстраций поведения недостаточно: они сократили частоту отказов лишь с 22% до 15%. Три альтернативных подхода оказались заметно эффективнее: датасет «сложные советы», где Claude выступает в роли советника по этическим дилеммам, улучшив результаты тестов до 3% при 28-кратной лучшей эффективности использования данных; синтетическая донастройка документов с применением AI-позитивной художественной литературы, чтобы противодействовать стереотипам в тренировочных данных в жанре sci-fi, что дополнительно снизило риски в 1,3–3 раза; и повышение разнообразия в средах обучения безопасности за счет различных определений инструментов и системных подсказок. В совокупности эти методы позволили добиться 0% в тестах по показателю вымогательства в финальной версии Claude 4.5.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.

2025 年 весь год AI-инженерное сообщество бурно спорило о том, что лучше для вызова инструментов агентами — «MCP vs CLI». Опубликованная в ноябре 2025 года статья Anthropic «Code execution with MCP» переопределила проблему с точки зрения первых принципов. akshaypachaar 5/10 собрал thread и пояснил: дело никогда не в самом протоколе, а в старой привычке — на старте session пихать в context описание всех инструментов целиком; решение Anthropic заключается в том, чтобы модель писала код для вызова и

ChainNewsAbmedia10м назад

ByteDance планирует увеличить расходы на AI-инфраструктуру на 25% до 200 миллиардов юаней в этом году

Ссылаясь на Golden Data, ChainCatcher сообщает, что ByteDance планирует увеличить расходы на ИИ-инфраструктуру на 25% — до 200 миллиардов юаней в этом году — на фоне роста стоимости чипов памяти и ускорения развития искусственного интеллекта.

GateNews47м назад

Предприятие AI-платформа Pit закрывает $16M раундов финансирования серии, лидером выступает a16z

Согласно Odaily, корпоративная платформа для ИИ Pit объявила о завершении раунда финансирования на 16 миллионов долларов, который возглавила a16z; в нём также участвовали Lakestar и руководители из OpenAI, Anthropic, Google, Deel и Revolut. Pit позиционирует себя как «AI product team as a service», предназначенную для замены традиционных таблиц и жёстких систем SaaS.

GateNews54м назад

Google запускает набор на вакансии с помощью экзаменов, на которых инженерам разрешают использовать инструменты ИИ

По данным The Chosun Daily, Google проводит пилотный набор экзаменов при приёме на работу, которые позволяют кандидатам на должности в США для разработки ПО использовать инструменты ИИ в отобранных позициях начального и среднего уровня. В рамках эксперимента предусмотрены задания на понимание кода: соискатели рассматривают существующий код, исправляют ошибки и улучшают производительность. Интервьюеры будут оценивать, как кандидаты формулируют запросы к ИИ, проверяют его вывод, вносят правки и от

GateNews3ч назад

OpenAI прекращает API для тонкой настройки с немедленным вступлением в силу; существующие пользователи могут продолжать пользоваться им до 6 января 2027 года

Согласно официальному объявлению OpenAI, которое отслеживает Beating, компания прекращает для разработчиков свой самообслуживаемый API для fine-tuning (тонкой настройки) с немедленным вступлением в силу. Новые пользователи больше не могут создавать задачи fine-tuning, тогда как существующие активные пользователи могут пользоваться сервисом до 6 января 2027 года. Развернутые модели после fine-tuning будут привязаны к жизненному циклу своих базовых моделей и прекратят работу, когда базовая модель

GateNews3ч назад

Sakana AI и Nvidia добиваются на 30% более быстрого вывода на H100, пропуская 80% недействительных вычислений

Sakana AI и Nvidia открыли исходный код TwELL — разреженного формата данных, который позволяет GPU H100 пропускать 80% недопустимых вычислений в больших языковых моделях без потери точности. Решение обеспечивает до 30% более быстрый инференс и 24% более быстрое обучение на H100, одновременно снижая пиковое потребление памяти. В тестах на модели с 1,5 миллиарда параметров подход сократил число активных нейронов до менее 2% за счёт лёгкой регуляризации во время обучения, при этом не наблюдалось ух

GateNews4ч назад
комментарий
0/400
Нет комментариев