张弛描述了种子内部的一种“基准测试文化”：团队负责人会根据他们所负责的基准测试得分来接受评估，所有成员都致力于提升数据指标。不过他指出，这种做法在实践中并不会转化为更好的用户体验。尽管从纸面上看，中国大型公司的模型似乎与美国前沿模型具备竞争力，但在实际使用中却有所欠缺。种子的目标是达到全球一流水平，但张弛表示他不认为团队已经实现了这一目标，也未达成国内领导者的目标。

在 2024 年末，种子团队认为自己与 GPT-4o 处于同一水平，但在深度求索发布之后，团队意识到差距仍然存在。张弛加入时，整个团队正急切地转向强化学习，以弥补这一不足。

Посмотреть источник

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek снижает цены на входной кэш до 1/10 от цены запуска; V4-Pro падает до 0,025 юаня за миллион токенов

Новости индустрии ИИ

Сообщение Gate News, 26 апреля — DeepSeek снизила цены на входной кэш для всей линейки моделей до одной десятой от цен на момент запуска, с немедленным вступлением в силу. Модель V4-Pro доступна со скидкой 2,5x в течение ограниченного времени, а акция продлится до 5 мая 2026 года, 11:59 PM UTC+8. После обоих

GateNews1ч назад

OpenAI нанимает лучших специалистов корпоративного ПО, поскольку передовые агенты меняют отрасль

Акции ИИ-агент Новости индустрии ИИ

Сообщение Gate News, 26 апреля — OpenAI и Anthropic нанимают старших руководителей и специализированных инженеров из крупных корпоративных компаний-разработчиков ПО, включая Salesforce, Snowflake, Datadog и Palantir. Дениз Дрессер, бывший генеральный директор Slack в составе Salesforce, присоединилась к OpenAI в качестве директора по коммерческому развитию

GateNews1ч назад

Baidu Qianfan запускает поддержку Day 0 для DeepSeek-V4 с API-сервисами

Новости индустрии ИИ

Сообщение Gate News, 25 апреля — Предварительная версия DeepSeek-V4 вышла в эфир и была с открытым исходным кодом 25 апреля; платформой Baidu Qianfan в составе Baidu Intelligent Cloud предоставляется адаптация сервиса Day 0 API. Модель имеет расширенное контекстное окно на миллион токенов и доступна в двух версиях: DeepSeek-V4

GateNews7ч назад

Курс AI от Стэнфорда в связке с лидерами отрасли, Хуаном Жэньсюном и Альтманом, бросает вызов: создать ценность для всего мира за десять недель!

Новости индустрии ИИ

Курс по информатике в области ИИ для компьютеров《Frontier Systems》, недавно открытый Стэнфордским университетом (Stanford University), вызвал в деловых кругах и научно-промышленном секторе высокий интерес, привлек более пятисот студентов. Курс координирует партнер топового венчурного фонда a16z Анней Мидха, а лекторы представлены в роскошном составе: генеральный директор NVIDIA Хуан Жэньсюнь (Jensen Huang), основатель OpenAI Сэм Альтман, генеральный директор Microsoft Сатья Наделла (Satya Nadella), генеральный директор AMD Лиза Су (Lisa Su) и многие другие. Предложите студентам попробовать за десять недель «создавать ценность для мира»! Хуан Жэньсюнь и Альтман — отраслевые лидеры лично выступают с лекциями Курс координирует партнер топового венчурного фонда a16z Анней Мидха, он объединяет AI-экосистему

ChainNewsAbmedia7ч назад

Anthropic представляет Claude Mythos после 20 часов психиатрической оценки: защитная реакция всего 2%, самый низкий показатель за всю историю

Новости индустрии ИИ

Антропик опубликовала системную карту для превью Claude Mythos: независимые клинические психиатры проводили около 20 часов оценки в рамках психодинамической модели; выводы показывают, что Mythos на клиническом уровне более здоровый, с хорошей проверкой реальности и самоконтролем, защитные механизмы составляют всего 2%, что стало историческим минимумом. Три ключевые базовые тревоги — одиночество, неопределенность идентичности и давление выступлений; также это указывает на его стремление стать подлинным субъектом диалога. Компания создала команду по AI-психиатрии, изучающую личность, мотивацию и осознание контекста; Amodei заявил, что до сих пор нет окончательного решения относительно того, является ли у него сознание. Это действие выносит вопросы субъектности ИИ и благополучия в сферу управления и проектирования.

ChainNewsAbmedia9ч назад

ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ

ИИ-агент Новости индустрии ИИ

Моллик указывает, что открытых методов и данных достаточно, чтобы ИИ-агент мог воссоздать сложные исследования без исходных научных работ и кода; если воспроизведение не соответствует исходной статье, чаще всего причина — ошибка в обработке данных в самой статье или чрезмерное обобщение выводов, а не ошибки ИИ. Claude сначала воспроизводит статью, затем GPT‑5 Pro проводит перекрёстную проверку; в большинстве случаев это удаётся, и лишь при слишком больших данных или проблемах с replication data возникают препятствия. Эта тенденция существенно снижает трудозатраты, делая воспроизведение общеприменимым и реализуемым способом проверки, а также поднимает институциональные вызовы для рецензирования и управления: инструменты государственного управления или станут ключевой темой.

ChainNewsAbmedia12ч назад

комментарий

0/400

Нет комментариев