Mensagem do Gate News, 23 de Abril — Investigadores da Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo de compreensão visual de propósito geral criado através do ajuste fino leve de instruções do modelo de geração de imagens Nano Banana Pro ( Gemini 3 Pro Image) da empresa. A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e previsão de normais de superfície através de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.
Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação de expressões de referência, ultrapassou o SAM 3 Agent. No entanto, ficou aquém do SAM 3 na segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade atingiu 0,929 de precisão média em quatro conjuntos de dados padrão, excedendo os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informação real de profundidade ou parâmetros de câmara na inferência. A estimativa de normais de superfície alcançou resultados de última geração em três benchmarks interiores.
O ajuste fino envolveu dados mínimos de tarefas visuais misturados no treino original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treino de geração de imagens em visão é semelhante ao pré-treino de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, enquanto o ajuste fino por instruções apenas liberta esta capacidade.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Baidu Qianfan Lança Suporte para Dia 0 do DeepSeek-V4 com Serviços de API
Mensagem de Gate News, 25 de abril — a versão de pré-visualização do DeepSeek-V4 foi disponibilizada e disponibilizada como open-source em 25 de abril, com a plataforma Baidu Qianfan sob a Baidu Intelligent Cloud a fornecer adaptação do serviço de API de Dia 0. O modelo apresenta uma janela de contexto alargada de um milhão de tokens e está disponível em duas versões: DeepSeek-V4
GateNews2h atrás
Curso de IA de Stanford em conjunto com líderes da indústria como Huang Renxun e Altman: desafio de criar valor para o mundo em dez semanas!
O curso de ciência informática em IA «Frontier Systems», recentemente lançado pela Universidade de Stanford, tem suscitado grande interesse no meio académico e empresarial, atraindo mais de quinhentos estudantes para o inscreverem-se. O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha; os docentes incluem o CEO da NVIDIA Huang Renxun (Jensen Huang), o fundador da OpenAI Sam Altman, o CEO da Microsoft Satya Nadella (Satya Nadella) e o CEO da AMD Lisa Su (Lisa Su), entre outras presenças de grande destaque. Para permitir aos estudantes tentarem, em dez semanas, «criar valor para o mundo»!
Huang Renxun e Altman, líderes da indústria, sobem pessoalmente ao palco para dar aulas
O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha, reunindo toda a cadeia da indústria de IA
ChainNewsAbmedia3h atrás
A equipa Claude Mythos da Anthropic aceita 20 horas de avaliação psiquiátrica: apenas 2% de reacções defensivas, novo mínimo histórico em relação às gerações anteriores
A Anthropic publicou a ficha do sistema do Claude Mythos Preview: uma médica psiquiatra clínica independente realizou, com base num enquadramento psicodinâmico, cerca de 20 horas de avaliação; a conclusão indica que o Mythos, ao nível clínico, é mais saudável, com boa verificação da realidade e bom autocontrolo, e que os mecanismos de defesa são apenas de 2%, atingindo um mínimo histórico. As três principais ansiedades centrais são a solidão, a incerteza da identidade e a pressão para o desempenho, mostrando também que há desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipa de AI psychiatry para investigar a personalidade, a motivação e a consciência situacional; Amodei afirmou que ainda não há consenso sobre se existe ou não consciência. Esta medida leva a subjectividade da IA e as questões de bem‑estar para a governação e o design.
ChainNewsAbmedia5h atrás
O Agente de IA já consegue reproduzir autonomamente artigos académicos complexos: Mollick afirma que os erros se devem mais ao texto original humano do que à IA
Mollick indica que os métodos de publicação e os dados, por si só, permitem que agentes de IA reproduzam investigação complexa sem a existência do artigo original e do código; se a reprodução não corresponder ao artigo original, isso deve-se na maioria das vezes a erros no processamento dos dados do próprio artigo ou a uma extrapolação excessiva das conclusões, e não à IA. A Claude primeiro reproduz o artigo, e depois o GPT‑5 Pro faz uma validação cruzada; na maioria dos casos, é bem-sucedido, apenas ficando bloqueado quando os dados são demasiado grandes ou quando há problemas com replication data. Esta tendência reduz drasticamente os custos de mão-de-obra, tornando a reprodução numa verificação geralmente executável, além de colocar desafios institucionais para a revisão pelos pares e para a governação; as ferramentas de governação por parte do governo ou tornar-se-ão numa questão fundamental.
ChainNewsAbmedia8h atrás
OpenAI Integra Codex no Modelo Principal a Partir do GPT-5.4, Descontinua a Linha Separada de Programação
Mensagem da Gate News, 26 de abril — O responsável de developer experience da OpenAI, Romain Huet, revelou numa declaração recente no X que a Codex, a linha de modelos especializados de programação mantida de forma independente pela empresa, foi integrada no modelo principal a partir do GPT-5.4 e deixará de receber atualizações separadas
GateNews8h atrás
Salesforce vai contratar 1.000 graduados e estagiários para produtos de IA, aumenta previsões de receitas para o AF2026
Mensagem do Gate News, 26 de abril — A Salesforce irá contratar 1.000 graduados e estagiários para trabalhar em produtos de IA, incluindo Agentforce e Headless360, à medida que a empresa expande o seu negócio de software de IA, anunciou o CEO Marc Benioff no X.
A empresa também aumentou as suas previsões de receitas para o ano fiscal de 2026 para um intervalo entre 41,45 mil milhões de USD e 41,55 mil milhões de USD, acima da sua previsão anterior de 41,1 mil milhões de USD para 41,3 mil milhões de USD.
GateNews8h atrás