Executivo da Google DeepMind: Cada Empresa de Produtos de IA Deve Criar Benchmarks Personalizados

Mensagem do Gate News, 27 de abril — Logan Kilpatrick, gestor sénior de produto na Google DeepMind e responsável de produto para o Google AI Studio, declarou no X que todas as empresas que criam produtos baseados em IA devem estabelecer os seus próprios benchmarks personalizados para medir o desempenho dos modelos de IA. Ele descreveu isto como um método para fazer com que as melhorias do modelo “beneficiem desproporcionadamente a sua empresa” e instou os fundadores e líderes empresariais a “começar amanhã.”

A maioria das empresas atualmente depende de quadros de liderança públicos para selecionar modelos de IA, mas estes medem capacidades gerais que muitas vezes não se alinham com cenários empresariais específicos. Kilpatrick citou o exemplo de uma empresa de revisão de contratos cuja principal preocupação é a precisão da extração de cláusulas — uma capacidade que não existe nos benchmarks públicos, tornando impossível avaliar o desempenho do modelo nessa tarefa. Os benchmarks personalizados oferecem duas vantagens principais: primeiro, permitem que as empresas avaliem cada atualização do modelo face às suas próprias tarefas de negócio e selecionem o modelo que melhor funciona no seu caso de uso real, em vez do modelo com melhor classificação no geral; segundo, permitem que as empresas partilhem estes conjuntos de testes com os fornecedores de modelos, impulsionando a otimização contínua nas áreas que importam para o seu negócio.

Kilpatrick referiu que empresas como a Zapier e a Sierra já estão a implementar esta abordagem, afirmando que “há muito alpha que pode ser criado aqui.”

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Greg Brockman da OpenAI: A IA a mudar de chat para execução autónoma de tarefas

Mensagem da Gate News, 27 de abril — Greg Brockman, presidente e cofundador da OpenAI, diz que a próxima vaga de inteligência artificial irá levar os utilizadores a passarem de conversar com bots de IA para atribuírem tarefas do mundo real. Esta mudança exige que as empresas repensem os fluxos de trabalho operacionais e estabeleçam novos protocolos para se

GateNews1m atrás

A B.AI melhora a infraestrutura e lança grandes funcionalidades de Skills

Notícia da Gate, 27 de abril — A B.AI anunciou esta semana vários avanços de produtos e do ecossistema. A página de destino do BAIclaw recebeu uma reformulação completa a nível visual e de interações, com suporte multilingue do website alargado para 10 idiomas, reforçando a sua usabilidade global. Na área da infraestrutura

GateNews15m atrás

Pequim ordena proibição de transações e exige a sua anulação! A Meta falha a aquisição da nova empresa de IA na China Manus por 2 mil milhões de dólares

A Comissão Nacional de Desenvolvimento e Reforma da China publicou hoje (27 de abril) oficialmente um anúncio: o gabinete do mecanismo de revisão da segurança do investimento estrangeiro “decidiu, em conformidade com a lei e com as regulamentações, proibir o investimento na aquisição do projeto Manus por parte do investimento estrangeiro, exigindo que as partes envolvidas cancelem essa transação de aquisição”. Este é, desde a entrada em vigor do “Regulamento para a Revisão da Segurança do Investimento Estrangeiro” da China, um dos poucos casos em que foi utilizada a forma de tratamento com a intensidade mais elevada para “proibir o investimento” e exigir o cancelamento de uma transação já concretizada. A Meta investe 2 mil milhões de dólares, comprando a aplicação de IA mais barata O tempo volta a 29 de dezembro de 2025. A Meta anunciou a aquisição de uma nova empresa chinesa de agentes de IA, Manus, e o mercado estima que o preço se situe entre 2 e 3 mil milhões de dólares. Manus é uma IA geral desenvolvida pela Beijing Butterfly Effect Technology Development, que, após o seu lançamento a 6 de março de 2025, ficou em evidência no dia seguinte devido ao desempenho notável no benchmark GAIA

ChainNewsAbmedia29m atrás

Ações do IPO da Xizhi Technology-P Disparam Mais de 360% no Mercado de Balcão, Ganhos Reduzem para 320%

Mensagem da Gate News, 27 de abril — Xizhi Technology-P (01879.HK), uma empresa de chips de IA cotada em Hong Kong, viu as suas ações dispararem mais de 360% no mercado de balcão (dark market) mais cedo hoje, embora os ganhos tenham entretanto diminuído para 320%. A ação está a ser negociada antes da sua listagem oficial no IPO de Hong Kong

GateNews42m atrás

Aumentar a produção com IA ou reduzir custos? Não houve dez vezes mais receitas, apesar de uma eficiência 100 vezes maior, mas ninguém em Silicon Valley se atreve a parar.

Os parceiros da Five Yuan Capital, Meng Xing, publicou recentemente um relatório de visita a Silicon Valley, apresentando um juízo que até o fez mudar o seu próprio hábito de tomar notas: Silicon Valley está a entrar numa fase em que até quem constrói ondas é arrastado por elas. A velocidade de iteração da IA já passou de “por mês” para “por semana”; até o próprio Silicon Valley já não consegue acompanhar-se a si próprio. Quando a IA aumenta a produtividade de uma equipa em cinco vezes, pode reduzir oito décimos do pessoal para manter a produção original, ou pode manter o número de pessoas para fazer cinco vezes mais. As observações de Meng Xing em Silicon Valley equivalem, no local, a um primeiro rascunho da resposta: quando 100 vezes de eficiência não se traduzem em 100 vezes de receitas, quando o orçamento de tokens está a aproximar-se dos custos de mão de obra, quando a máquina a vapor ainda não consegue correr mais do que a carroça, mas ninguém se atreve a parar, Silicon Valley está agora a escolher “antes de tudo, acelerar a velocidade”. Mas, no fim, este caminho acabará por conduzir à “capacidade de expansão” ou à “compressão de custos”; por agora, não há consenso. A YC passou de indicadores líderes para indicadores atrasados Meng Xing este ano

ChainNewsAbmedia1h atrás
Comentar
0/400
Nenhum comentário