Gemma 4 está finalmente estável no llama.cpp


Em 2 de abril, o Google lançou o Gemma 4, e no primeiro dia, o suporte ao llama.cpp estava disponível, mas com muitos bugs. Agora todos os problemas estão resolvidos
E2B, E4B, 26B MoE, 31B Dense
31B ocupa o terceiro lugar na classificação do Arena AI, 26B ocupa o sexto
O mais forte nível de modelos de código aberto
Use --chat-template-file para carregar modelos intercalados
Recomenda-se ativar --cache-ram 2048
O comprimento do contexto depende da VRAM
No ano passado, o melhor modelo local era a versão quantizada do Llama 3.1 70B, quase inutilizável
Agora, o Gemma 4 31B Q5 funciona suavemente no Mac Studio, chegando ao nível do GPT-4
Aplicações de IA que não dependem de APIs estão começando a ter viabilidade comercial. Os dados permanecem na máquina local, sem custo, com latência extremamente baixa
Para um negócio de uma pessoa, modelos locais são a verdadeira infraestrutura. Enquanto os concorrentes pagam taxas de API, seu custo marginal é apenas eletricidade
Gemma 4 + llama.cpp = a solução ideal para inferência local, pronta para produção
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar