Vision Banana от Google: унифицированная модель зрения превосходит специализированные модели в сегментации и 3D-геометрии

Сообщение Gate News, 23 апреля — исследователи Google, включая Хэ Кайминга и Се Сайнина, опубликовали работу, представляющую Vision Banana — универсальную модель понимания изображений, созданную с помощью легкой инструкции по дообучению для уточнения на компании Nano Banana Pro (Gemini 3 Pro Image) модель генерации изображений. Ключевое нововведение унифицирует выходы всех задач компьютерного зрения в виде RGB-изображений, позволяя выполнять сегментацию, оценку глубины и предсказание нормалей поверхности посредством генерации изображений без специализированных архитектур или функций потерь.

В семантической сегментации Vision Banana превзошла специализированную модель SAM 3 на 4,7 процентного пункта на Cityscapes; в сегментации по референсному выражению она обошла SAM 3 Agent. Однако в инстанс-сегментации она уступила SAM 3. Для 3D-задач метрическая оценка глубины достигла 0,929 средней точности на четырех стандартных наборах данных, превзойдя Depth Anything V3 с 0,918, используя только синтетические данные без реальной информации о глубине или параметров камеры на этапе инференса. Оценка нормалей поверхности достигла уровня лучших на сегодняшний день результатов на трех внутренних бенчмарках.

Дообучение включало минимальный объем данных по задачам зрения, смешанный с исходным обучением генерации изображений, сохраняя способность модели к генерации — производительность совпала с оригинальной Nano Banana Pro в тестах качества генерации. В работе предлагается, что предварительное обучение генерации изображений в зрении параллельно предварительному обучению генерации текста в языке: модели учатся внутренним представлениям, необходимым для понимания изображений, во время генерации, а инструкционное дообучение лишь высвобождает эту возможность.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Baidu Qianfan запускает поддержку Day 0 для DeepSeek-V4 с API-сервисами

Сообщение Gate News, 25 апреля — Предварительная версия DeepSeek-V4 вышла в эфир и была с открытым исходным кодом 25 апреля; платформой Baidu Qianfan в составе Baidu Intelligent Cloud предоставляется адаптация сервиса Day 0 API. Модель имеет расширенное контекстное окно на миллион токенов и доступна в двух версиях: DeepSeek-V4

GateNews3ч назад

Курс AI от Стэнфорда в связке с лидерами отрасли, Хуаном Жэньсюном и Альтманом, бросает вызов: создать ценность для всего мира за десять недель!

Курс по информатике в области ИИ для компьютеров《Frontier Systems》, недавно открытый Стэнфордским университетом (Stanford University), вызвал в деловых кругах и научно-промышленном секторе высокий интерес, привлек более пятисот студентов. Курс координирует партнер топового венчурного фонда a16z Анней Мидха, а лекторы представлены в роскошном составе: генеральный директор NVIDIA Хуан Жэньсюнь (Jensen Huang), основатель OpenAI Сэм Альтман, генеральный директор Microsoft Сатья Наделла (Satya Nadella), генеральный директор AMD Лиза Су (Lisa Su) и многие другие. Предложите студентам попробовать за десять недель «создавать ценность для мира»! Хуан Жэньсюнь и Альтман — отраслевые лидеры лично выступают с лекциями Курс координирует партнер топового венчурного фонда a16z Анней Мидха, он объединяет AI-экосистему

ChainNewsAbmedia3ч назад

Anthropic представляет Claude Mythos после 20 часов психиатрической оценки: защитная реакция всего 2%, самый низкий показатель за всю историю

Антропик опубликовала системную карту для превью Claude Mythos: независимые клинические психиатры проводили около 20 часов оценки в рамках психодинамической модели; выводы показывают, что Mythos на клиническом уровне более здоровый, с хорошей проверкой реальности и самоконтролем, защитные механизмы составляют всего 2%, что стало историческим минимумом. Три ключевые базовые тревоги — одиночество, неопределенность идентичности и давление выступлений; также это указывает на его стремление стать подлинным субъектом диалога. Компания создала команду по AI-психиатрии, изучающую личность, мотивацию и осознание контекста; Amodei заявил, что до сих пор нет окончательного решения относительно того, является ли у него сознание. Это действие выносит вопросы субъектности ИИ и благополучия в сферу управления и проектирования.

ChainNewsAbmedia5ч назад

ИИ-агент уже может независимо воспроизводить сложные научные статьи: Mollick считает, что ошибки чаще бывают в человеческом исходном тексте, а не в ИИ

Моллик указывает, что открытых методов и данных достаточно, чтобы ИИ-агент мог воссоздать сложные исследования без исходных научных работ и кода; если воспроизведение не соответствует исходной статье, чаще всего причина — ошибка в обработке данных в самой статье или чрезмерное обобщение выводов, а не ошибки ИИ. Claude сначала воспроизводит статью, затем GPT‑5 Pro проводит перекрёстную проверку; в большинстве случаев это удаётся, и лишь при слишком больших данных или проблемах с replication data возникают препятствия. Эта тенденция существенно снижает трудозатраты, делая воспроизведение общеприменимым и реализуемым способом проверки, а также поднимает институциональные вызовы для рецензирования и управления: инструменты государственного управления или станут ключевой темой.

ChainNewsAbmedia8ч назад

OpenAI объединяет Codex с основной моделью, начиная с GPT-5.4, прекращает отдельную линейку для кодинга

Новостное сообщение Gate News, 26 апреля — глава отдела взаимодействия с разработчиками OpenAI Ромен Юэ (Romain Huet) в недавнем заявлении на X сообщил, что Codex, линейка специализированных моделей для кодинга, независимо поддерживаемая компанией, была объединена с основной моделью начиная с GPT-5.4 и больше не будет получать отдельные

GateNews8ч назад

Salesforce нанимет 1 000 выпускников и стажеров для AI-продуктов, а также повышает прогноз выручки на FY2026

Сообщение Gate News, 26 апреля — Salesforce нанять 1 000 выпускников и стажеров для работы над продуктами в области ИИ, включая Agentforce и Headless360, поскольку компания расширяет свой бизнес по разработке ПО на базе ИИ; об этом объявил CEO Марк Бениофф в X. Компания также повысила прогноз по выручке на 2026 финансовый год до диапазона от 41,45 млрд долларов США

GateNews8ч назад
комментарий
0/400
Нет комментариев