Tencent lança o Modelo de Mundo Hunyuan 2.0 de código aberto, uma frase que gera um mundo 3D navegável, podendo ser importado diretamente para Unity e UE

robot
Geração do resumo em andamento

ME News Notícias, 16 de abril (UTC+8), de acordo com o monitoramento do Beating, a Tencent lançou oficialmente e open-sourou o modelo de mundo 3D Hyun Yuan 2.0 (HY-World 2.0).
Este é uma estrutura de modelo de mundo multimodal, que suporta entrada de texto, uma única imagem, imagens de múltiplos ângulos e vídeos, e sua saída não é um vídeo, mas ativos 3D editáveis (modelos de malha, dispersão Gaussiana 3D, nuvens de pontos), que podem ser importados diretamente para Unity, Unreal Engine e NVIDIA Isaac Sim.
Os pesos do modelo e o código estão abertos no GitHub e Hugging Face.
A diferença fundamental em relação a modelos de mundo de vídeo como Genie 3, Cosmos, é que:
os modelos de mundo de vídeo geram vídeos pixel a pixel, que desaparecem após a reprodução e não podem ser editados;
HY-World 2.0 gera ativos 3D duradouros, suportando caminhada livre, colisões físicas e edição secundária.
Na reportagem técnica, a Tencent resume essa diferença como: “assistir a um vídeo que desaparece” versus “construir um mundo que permanece para sempre”.
Pode ser renderizado em tempo real com GPU de consumo, com inferência que requer apenas uma única passagem, ao contrário dos modelos de vídeo que precisam gerar cada quadro repetidamente.
Tecnicamente, há quatro fases: primeiro, usar HY-Pano 2.0 para gerar uma panorâmica de 360 graus a partir da entrada; depois, usar WorldNav para planejamento de trajetória; então, usar WorldStereo 2.0 para expandir o mundo ao longo da trajetória; por fim, usar WorldMirror 2.0 para reconstruir todos os segmentos gerados em uma cena 3D unificada.
No esquema open-source, a HY-World 2.0 é considerada o primeiro modelo de mundo 3D que alcança o nível SOTA, com desempenho comparável ao produto comercial fechado Marble.
No entanto, atualmente apenas o código e os pesos do WorldMirror 2.0 (módulo de reconstrução 3D, aproximadamente 1,2 bilhões de parâmetros) foram abertos, enquanto os códigos e pesos dos módulos de geração panorâmica, planejamento de trajetória e expansão do mundo estão marcados como “em breve lançamento”.
Para desenvolvedores de jogos, isso significa que podem gerar rapidamente protótipos de níveis e mapas com uma única frase, economizando muito tempo de modelagem manual.
Para pesquisadores de inteligência incorporada, o custo de gerar ambientes de treinamento de simulação a partir de fotos em lote é drasticamente reduzido.
A Tencent também lançou uma entrada de experiência online, onde os usuários podem manipular personagens para explorar livremente as ruas e edifícios gerados.
(Origem: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar