Pare de perseguir benchmarks de IA – crie o seu próprio

A cada poucos meses, um novo modelo de grande idioma (LLM) é ungido campeão da IA, com pontuações recordes de referência. Mas essas célebres métricas do desempenho do LLM-como testando o raciocínio no nível de pós-graduação e a matemática abstrata-refletem bastante necessidades comerciais reais ou representam fronteiras de IA verdadeiramente novas. Para empresas do mercado para modelos de IA corporativo, baseando-se na decisão de quais modelos usar nessas tabelas de classificação pode levar a erros caros-de orçamentos desperdiçados a recursos desalinhados e erros potencialmente prejudiciais e específicos de domínio que as pontuações de referência raramente capturam.

Os benchmarks públicos podem ser úteis para usuários individuais, fornecendo indicadores direcionais dos recursos de IA. E, reconhecidamente, alguns benchmarks de conclusão de código e engenharia de software, como SWE-Bench ou Code Forces, são valiosos para empresas dentro de uma gama estreita de aplicativos de negócios baseados em codificação, baseados em LLM. Mas os benchmarks mais comuns e as tabelas de classificação pública geralmente distraem as empresas e os desenvolvedores de modelos, levando a inovação em direção a melhorias marginais em áreas inúteis para empresas ou não relacionadas a áreas de inovação de IA inovadora.

O desafio para os executivos, portanto, reside no design de estruturas de avaliação específicas de negócios que testam modelos em potencial nos ambientes em que eles realmente serão implantados. Para fazer isso, as empresas precisarão adotar estratégias de avaliação personalizadas para executar em escala usando dados relevantes e realistas.

A incompatibilidade entre benchmarks e necessidades de negócios

Os benchmarks chamativos que os desenvolvedores modelam em seus lançamentos geralmente são destacados das realidades dos aplicativos corporativos. Considere alguns dos mais populares: raciocínio de nível de pós-graduação (Diamante GPQA) e testes de matemática no ensino médio, como Math-500 e AIME2024. Cada um deles foi citado nos lançamentos para Gpt O1Assim, Soneto 3.7ou R1 de Deepseek. Mas nenhum desses indicadores é útil na avaliação de aplicativos de empresas comuns, como ferramentas de gerenciamento de conhecimento, assistentes de design ou chatbots voltados para o cliente.

Em vez de assumir que o modelo “melhor” em uma determinada tabela de classificação é a escolha óbvia, as empresas devem usar métricas adaptadas às suas necessidades específicas para trabalhar para trás e identificar o modelo certo. Comece testando modelos em seu contexto e dados reais-Real consultas do cliente, documentos específicos de domínio ou qualquer que seja o que seu sistema encontrará na produção. Quando dados reais são escassos ou sensíveis, as empresas podemCasos de teste sintético de artesanatoIsso captura os mesmos desafios.

Sem testes do mundo real, as empresas podem acabar com modelos inadequados que podem, por exemplo, exigir muita memória para dispositivos de borda, têm latência alta demais para interações em tempo real ou com suporte insuficiente para a implantação local às vezes exigida pelos padrões de governança de dados.

Salesforce tentou preencher essa lacuna entre benchmarks comuns e seus requisitos de negócios reais por em desenvolvimento seu próprio benchmark interno para suas necessidades relacionadas ao CRM. A Companhia criou seus próprios critérios de avaliação especificamente para tarefas como prospecção, nutrir leads e geração de resumos de casos de serviço – o trabalho real que as equipes de marketing e vendas precisam de IA para executar.

Alcançando além de métricas estilizadas

Popular Os benchmarks não são apenas insuficientes para a tomada de decisão informada de negócios, mas também podem ser enganosos. Frequentemente a cobertura da mídia LLM, incluindo todos três principal anúncios recentes de lançamento, usa benchmarks para comparar modelos com base em seus média desempenho. Benchmarks específicos são destilados em um ponto único, número ou bar.

O problema é que os modelos generativos de IA são sistemas estocásticos, altamente sensíveis a entrada, o que significa que pequenas variações de um prompt pode fazê-los se comportar imprevisivelmente. Um recente Trabalho de pesquisa de antropia argumenta com razão que, como resultado, pontos únicos em um gráfico de comparação de desempenho são insuficientes devido às grandes faixas de erro das métricas de avaliação. Um estudo recente de Microsoft encontrou que o uso de uma avaliação estatisticamente mais precisa baseada em cluster nos mesmos parâmetros de referência pode alterar significativamente a ordem de classificação-e narrativas públicas sobre-modelos em uma classificação.

É por isso que os líderes empresariais precisam garantir medições confiáveis do desempenho do modelo em uma gama razoável de variações, feitas em escala, mesmo que exija centenas de execuções de teste. Essa rigor se torna ainda mais crítica quando vários sistemas são combinados por meioAI e cadeias de fornecimento de dadospotencialmente aumentando a variabilidade. Para indústrias como aviação ou assistência médica, a margem de erro é pequena e muito além do que os benchmarks atuais de IA normalmente garantem, de modo que apenas confiar nas métricas da tabela de classificação possa obscurecer o risco operacional substancial nas implantações do mundo real.

As empresas também devem testar modelos em cenários adversários para garantir a segurança e a robustez de um modelo – como a resistência de um chatbot à manipulação de maus atores que tentam ignorar os guardrax – que não podem ser medidos por benchmarks convencionais. LLMS são notavelmente vulnerável Para ser enganado por técnicas sofisticadas de provocação. Dependendo do caso de uso, a implementação de fortes salvaguardas em relação a essas vulnerabilidades pode determinar sua escolha de escolha e estratégia de implantação. A resiliência de um modelo diante de um ator ruim em potencial pode ser uma métrica mais importante do que as capacidades de matemática ou raciocínio do modelo. Em nossa opinião, fazer a IA “infalível” é uma próxima barreira emocionante e impactante para quebrar para os pesquisadores da IA, que pode exigir novas técnicas de desenvolvimento e teste de modelos.

Colocando a avaliação em prática: quatro chaves em uma abordagem escalável

Comece com estruturas de avaliação existentes. As empresas devem começar alavancando os pontos fortes das ferramentas automatizadas existentes (juntamente com o julgamento humano e as metas de medição práticas, mas repetíveis). Kits de ferramentas de avaliação de IA especializados, como DeepvalAssim, LangsmithAssim, TrulensAssim, Mastraou Artkitpode acelerar e simplificar os testes, permitindo comparação consistente entre os modelos e com o tempo.

Traga especialistas em humanos para o campo de testes. A avaliação eficaz da IA exige que os testes automatizados sejam complementados com julgamento humano sempre que possível. A avaliação automatizada pode incluir uma comparação das respostas do LLM para as respostas da verdade do solo, ou o uso de métricas proxy, como automatizado ROUGE ou Bleu Pontuações, para avaliar a qualidade do resumo do texto.

Para avaliações diferenciadas, no entanto, onde as máquinas ainda lutam, a avaliação humana permanece vital. Isso pode incluir especialistas em domínio ou usuários finais que conduzem uma revisão “cega” de uma amostra de saídas do modelo. Tais ações também podem sinalizar vieses potenciais em respostas, como LLMS, dando respostas sobre candidatos de emprego que são tendenciosos por gênero ou raça. Essa camada de revisão humana é muito trabalhosa, mas pode fornecer informações críticas adicionais, como se uma resposta é realmente útil e bem apresentada.

O valor dessa abordagem híbrida pode ser visto em um Estudo de caso recente onde uma empresa avaliou um chatbot de suporte de HR usando testes humanos e automatizados. O processo de avaliação interna iterativa da empresa com o envolvimento humano mostrou que uma fonte significativa de erros de resposta ao LLM foi devido a atualizações falhas nos dados corporativos. A descoberta destaca como a avaliação humana pode descobrir problemas sistêmicos além do próprio modelo.

Concentre -se nas trocas, não dimensões isoladas de avaliação. Ao avaliar os modelos, as empresas devem procurar além da precisão para considerar o espectro completo dos requisitos de negócios: velocidade, eficiência de custos, viabilidade operacional, flexibilidade, manutenção e conformidade regulatória. Um modelo que tem um desempenho marginalmente melhor nas métricas de precisão pode ser proibitivamente caro ou muito lento para aplicativos em tempo real. Um ótimo exemplo disso é como o GPT O1 da IA é aberto (um líder em muitos benchmarks no momento da liberação) realizado quando aplicado ao prêmio Arc-Agi. Para surpresa de muitos, o modelo O1 teve um desempenho ruim, em grande parte devido ao “limite de eficiência” da ARC-AGI no poder de computação usado para resolver as tarefas de referência. O modelo O1 costumava demorar muito, usando mais tempo de computação para tentar obter uma resposta mais precisa. Os benchmarks mais populares não têm um limite de tempo, mesmo que o tempo seja um fator criticamente importante para muitos casos de uso de negócios.

As compensações se tornam ainda mais importantes no mundo crescente de aplicações (multi)-agentes, onde tarefas mais simples podem ser tratadas por modelos mais baratos e rápidos (supervisionados por um agente de orquestração), enquanto as etapas mais complexas (como resolver a série de problemas quebrados de um cliente) precisam de uma versão mais poderosa com raciocínio para ter sucesso.

Microsoft PesquisasHugginggptpor exemplo, orquestra modelos especializados para diferentes tarefas sob um modelo de idioma central. Estar preparado para alterar modelos para diferentes tarefas requer a construção de ferramentas flexíveis que não sejam codificadas para um único modelo ou provedor. Essa flexibilidade interna permite que as empresas girem facilmente e alterem modelos com base nos resultados da avaliação. Embora isso possa parecer muito trabalho de desenvolvimento extra, há várias ferramentas disponíveis, comoLangchainAssim,LlamaindexePydantic aiisso pode simplificar o processo.

Transforme o teste do modelo em uma cultura de avaliação e monitoramento contínuos. À medida que a tecnologia evolui, a avaliação contínua garante que as soluções de IA permaneçam ideais, mantendo o alinhamento com os objetivos de negócios. Assim como as equipes de engenharia de software implementam testes contínuos de integração e regressão para capturar bugs e impedir a degradação do desempenho no código tradicional, os sistemas de IA exigem avaliação regular em relação aos benchmarks específicos dos negócios. Semelhante à prática da farmacovigilância entre os usuários de novos medicamentos, o feedback dos usuários de LLM e as partes interessadas afetadas também precisa ser continuamente reunido e analisado para garantir que a IA “se comporte conforme o esperado” e não se afasta de seus alvos de desempenho pretendidos.

Esse tipo de estrutura de avaliação sob medida promove uma cultura de experimentação e tomada de decisão orientada a dados. Também aplica o novo e crítico mantra: a IA pode ser usada para execução, mas os humanos estão no controle e devem governar a IA.

Conclusão

Para os líderes empresariais, o caminho para o sucesso da IA não está em perseguir os mais recentes campeões de referência, mas no desenvolvimento de estruturas de avaliação para seus objetivos de negócios específicos. Pense nessa abordagem como “uma tabela de classificação para cada usuário”, como umO artigo de Stanford sugere.O verdadeiro valor da implantação da IA vem de três ações principais: definir métricas que medem diretamente o sucesso no seu contexto comercial; implementar testes estatisticamente robustos em situações realistas usando seus dados reais e em seu contexto real; e promover uma cultura de monitoramento, avaliação e experimentação contínuos que se baseiam em ferramentas automatizadas e conhecimentos humanos para avaliar as trocas entre os modelos.

Seguindo essa abordagem, os executivos poderão identificar soluções otimizadas para suas necessidades específicas sem pagar preços premium por “modelos de alto nível”. Esperamos que isso possa ajudar a afastar a indústria de desenvolvimento de modelos de perseguir melhorias marginais nas mesmas métricas – que caiu vítimas da lei de Goodhart com capacidades de uso limitado para os negócios – e, em vez disso, os liberam para explorar novas avenidas de inovação e o próximo avanço da IA.

Ler outro Fortuna Colunas de François Candelon.
François Candelon é sócio da empresa de private equity Seven2 e ex -diretor global do Instituto BCG Henderson.
Theodoros evgeniou é professor da INSEAD e co -fundador da empresa de confiança e segurança Tremau.
Max Stuever é engenheiro principal da BCG-X e um embaixador no BCG Henderson Institute.
David Zuluaga Martínez é um parceiro em Boston Consulting Group e um embaixador no BCG Henderson Institute.
Algumas das empresas mencionadas nesta coluna são clientes passados ou atuais dos empregadores dos autores.