Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gerente sênior de produto na Google DeepMind e líder de produto do Google AI Studio, declarou no X que toda empresa que desenvolve produtos baseados em IA deve criar seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isso como um método para fazer com que as melhorias no modelo “beneficiem desproporcionalmente a sua empresa” e incentivou fundadores e líderes de negócios a “começar amanhã.”
A maioria das empresas atualmente depende de leaderboards públicos para selecionar modelos de IA, mas eles medem capacidades gerais que muitas vezes não se alinham aos cenários específicos do negócio. Kilpatrick citou o exemplo de uma empresa de revisão de contratos mais preocupada com a precisão na extração de cláusulas — uma capacidade ausente de benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Benchmarks personalizados oferecem duas vantagens principais: primeiro, eles permitem que as empresas avaliem cada atualização de modelo em relação às suas próprias tarefas de negócio e escolham o modelo que tem melhor desempenho no caso de uso real, em vez do modelo mais bem classificado no geral; segundo, eles permitem que as empresas compartilhem esses conjuntos de teste com os provedores de modelo, impulsionando a otimização contínua nas áreas que importam para o seu negócio.
Kilpatrick observou que empresas como Zapier e Sierra já estão implementando essa abordagem, afirmando que “há muito alfa que pode ser criado aqui.”
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
Greg Brockman da OpenAI: IA mudando de conversa para execução autônoma de tarefas
Mensagem do Gate News, 27 de abril — Greg Brockman, presidente e cofundador da OpenAI, diz que a próxima onda de inteligência artificial vai tirar os usuários de conversas com bots de IA e levá-los a atribuir tarefas no mundo real. Essa mudança exige que as empresas repensem fluxos de trabalho operacionais e estabeleçam novos protocolos para segurança, gerenciamento e custos para se
GateNews1m atrás
B.AI Atualiza a Infraestrutura, Lança Principais Recursos de Skills
Mensagem do Gate News, 27 de abril — A B.AI anunciou vários avanços de produtos e do ecossistema nesta semana. A página de pouso do BAIclaw recebeu uma reformulação completa de visual e de interação, com suporte multilíngue do site expandido para 10 idiomas, fortalecendo sua usabilidade global.
Na frente da infraestrutura
GateNews15m atrás
Pequim exige revogação do bloqueio de negociações! A Meta investe US$ 2 bilhões para adquirir a nova empresa de IA da China, a Manus, e o negócio não se concretiza
A Comissão Nacional de Desenvolvimento e Reforma da China (hoje, 27 de abril) divulgou oficialmente um anúncio, por meio do escritório do “mecanismo de trabalho para a revisão de segurança de investimentos estrangeiros”, que “em conformidade com a lei e de acordo com as regras, tomou a decisão de proibir investimentos na aquisição do projeto Manus por capital estrangeiro, e exige que as partes envolvidas cancelem a referida transação de aquisição”. Este é um caso raro, desde a implementação das “Medidas para a Revisão da Segurança de Investimentos Estrangeiros”, em que foi utilizada a mais alta intensidade de tratamento “proibindo investimentos” e exigindo o cancelamento de uma transação já realizada.
A Meta investe 2 bilhões de dólares, comprando o aplicativo de IA mais barato
Voltemos no tempo para 29 de dezembro de 2025. A Meta anunciou a aquisição de uma startup chinesa de agentes de IA chamada Manus; as estimativas do mercado apontavam que o preço ficaria entre 2 e 3 bilhões de dólares. Manus é uma IA de uso geral desenvolvida pela Pequena Efeito Borboleta em Pequim; depois de ser lançada em 6 de março de 2025, devido ao desempenho notável no benchmark GAIA, em uma noite
ChainNewsAbmedia29m atrás
Ações do IPO da Xizhi Technology-P Disparam Mais de 360% no Mercado de Cinzas, Ganhos Se Limitam a 320%
Mensagem do Gate News, 27 de abril — a Xizhi Technology-P (01879.HK), uma empresa de chips de IA listada em Hong Kong, viu suas ações dispararem mais de 360% no mercado de cinzas (dark market) mais cedo hoje, embora os ganhos desde então tenham diminuído para 320%.
A ação está sendo negociada antes de sua listagem oficial de IPO em Hong Kong
GateNews41m atrás
Aumentar a produção com IA reduz custos ou os diminui? Eficiência de cem vezes não trouxe receita cem vezes maior, mas ninguém na Califórnia (Vale do Silício) tem coragem de dizer para parar
Os sócios da WuYuan Capital, Meng Xing, recentemente publicou um relatório de visita e observação em Silicon Valley, propondo um tipo de julgamento que até fez ele próprio mudar o hábito de tomar notas: a Silicon Valley está entrando em uma fase em que até quem “tenta surfar as ondas” é engolido pelas ondas. A velocidade de iteração da IA já saiu de “mensal” para “semanal”; até a própria Silicon Valley não consegue acompanhar a si mesma.
Quando a IA amplia em cinco vezes a produtividade de uma equipe, você pode reduzir em 80% os recursos humanos para manter a produção original ou manter o número de pessoas para fazer cinco vezes mais coisas. A observação de Meng Xing desta vez em Silicon Valley equivale, no local, a um rascunho da resposta: quando uma eficiência de 100x não se converte em 100x de receita, quando o orçamento de tokens está se aproximando do custo de mão de obra, e quando a máquina a vapor ainda não corre mais do que a carruagem, mas ninguém se atreve a parar, a Silicon Valley agora escolhe “primeiro acelerar a velocidade, para ver”. Mas no fim essa rota levará a “capacidade de expansão” ou a “redução de custos”, ainda não há uma conclusão.
A YC passou de indicadores líderes para indicadores atrasados
Meng Xing este ano
ChainNewsAbmedia1h atrás