Ant Ant de Jack Ma elogia a IA avançando em chips chineses
A Ant Group Co., apoiada por Jack Ma, usou semicondutores de fabricação chinesa para desenvolver técnicas para treinar modelos de IA que reduziriam os custos em 20%, de acordo com pessoas familiarizadas com o assunto.
A Ant usou chips domésticos, inclusive do grupo afiliado do Alibaba Holding Ltd. e da Huawei Technologies Co., para treinar modelos usando a chamada mistura da abordagem de aprendizado de máquina de especialistas, disseram as pessoas. Ele obteve resultados semelhantes aos da Nvidia Corp. Chips como o H800, disseram eles, pedindo para não ser nomeado como a informação não é pública.
A Ant, com sede em Hangzhou, ainda está usando a NVIDIA para o desenvolvimento da IA, mas agora confia principalmente em alternativas, incluindo a Advanced Micro Devices Inc. e chips chineses para seus modelos mais recentes, disse uma das pessoas.
Os modelos marcam a entrada de Ant em uma corrida entre empresas chinesas e americanas que é acelerado desde que a Deepseek demonstrou como os modelos capazes podem ser treinados para muito menos do que os bilhões investidos pelo Openai e pela Alphabet Inc. o Google. Ele ressalta como as empresas chinesas estão tentando usar alternativas locais aos semicondutores da NVIDIA mais avançados. Embora não seja o mais avançado, o H800 é um processador relativamente poderoso e atualmente barrado pelos EUA da China.
A empresa publicou umTrabalho de pesquisaEste mês, que afirmou que seus modelos às vezes superaram a Meta Plataforms Inc. em certos parâmetros de referência, que a Bloomberg News não verificou independentemente. Mas se eles funcionarem como anunciados, as plataformas da Ant podem marcar outro passo adiante para o desenvolvimento da inteligência artificial chinesa, reduzindo o custo de inferir ou apoiar os serviços de IA.
À medida que as empresas despejam dinheiro significativo na IA, os modelos MOE emergiram como uma opção popular, ganhando reconhecimento por seu uso pela startseek do Google e Hangzhou, entre outros. Essa técnica divide as tarefas em conjuntos de dados menores, como ter uma equipe de especialistas que se concentram em um segmento de emprego, tornando o processo mais eficiente. Ant se recusou a comentar em uma declaração por e -mail.
No entanto, o treinamento de modelos MOE normalmente depende de chips de alto desempenho, como as unidades de processamento gráfico que a Nvidia vende. Até o momento, o custo foi proibitivo para muitas pequenas empresas e adoção mais ampla limitada. A Ant tem trabalhado em maneiras de treinar LLMs com mais eficiência e eliminar essa restrição. Seu título em papel deixa isso claro, pois a empresa define a meta de escalar um modelo “sem GPUs premium”.
Isso vai contra o grão da Nvidia. O diretor executivo Jensen Huang argumentou que a demanda de computação crescerá mesmo com o advento de modelos mais eficientes como o Deepseek’s R1, posting Que as empresas precisarão de chips melhores para gerar mais receita, não mais baratos para reduzir custos. Ele se apegou a uma estratégia de construir grandes GPUs com mais núcleos de processamento, transistores e aumento da capacidade de memória.
A Ant disse que custa cerca de 6,35 milhões de yuans (US $ 880.000) para treinar 1 trilhão de tokens usando hardware de alto desempenho, mas sua abordagem otimizada reduziria isso para 5,1 milhões de yuans usando hardware de menor especificação. Os tokens são as unidades de informação que um modelo ingere para aprender sobre o mundo e fornecer respostas úteis às consultas do usuário.
A empresa planeja alavancar o recente avanço nos grandes modelos de idiomas que desenvolveu, Ling-plus e Ling-Lite, para soluções industriais de IA, incluindo assistência médica e finanças, disseram as pessoas.
FormigacompradoPlataforma on -line chinesa haodf.com este ano paraBeef upseus serviços de inteligência artificial em cuidados de saúde. A Ant criou o assistente de médico da IA para apoiar os 290.000 médicos da HAODF com tarefas como gerenciamento de registros médicos, informou a empresa em comunicado separado na segunda -feira.
A empresa também possui um aplicativo de “assistente de vida” de IA chamado Zhixiaobao e um serviço de AI de consultoria financeira Maxiaocai.
No entendimento em inglês, Ant disse em seu artigo que o modelo Ling-Lite se saiu melhor em uma referência importante em comparação com um dos modelos de llama da Meta. Os modelos Ling-Lite e Ling-plus superaram os equivalentes da Deepseek em benchmarks em língua chinesa.
“Se você encontrar um ponto de ataque para derrotar o melhor mestre do Kung Fu do mundo, ainda pode dizer que os venceu, e é por isso que o aplicativo do mundo real é importante”, disse Robin Yu, diretor de tecnologia do fornecedor de soluções de AI de Pequim, a Shengshang Tech Co.
Ant criou os modelos Ling de código aberto. O Ling-Lite contém 16,8 bilhões de parâmetros, que são as configurações ajustáveis que funcionam como botões e mostradores para direcionar o desempenho do modelo. O Ling-plus possui 290 bilhões de parâmetros, o que é considerado relativamente grande no domínio dos modelos de linguagem. Para comparação, os especialistas estimam que o GPT-4.5 do ChatGPT possui 1,8 trilhão de parâmetros,de acordo compara a revisão de tecnologia do MIT. Deepseek-r1tem671 bilhões.
A empresa enfrentou desafios em algumas áreas do treinamento, incluindo estabilidade. Mesmo pequenas mudanças no hardware ou na estrutura do modelo levaram a problemas, incluindo saltos na taxa de erro dos modelos, afirmou o documento.
Ant disse na segunda-feira que construiu grandes máquinas modelo com foco em saúde, que estavam sendo usadas por sete hospitais e prestadores de cuidados de saúde em cidades, incluindo Pequim e Xangai. O modelo grande aproveita o Deepseek R1, o Qwen e o Ant de Alibaba e pode realizar consultoria médica, afirmou.
A empresa também disse que lançou dois agentes médicos de IA – a Angel, que serviu mais de 1.000 instalações médicas, e Yibaoer, que apoia serviços de seguro médico. Em setembro passado, lançou o Serviço de Gerenciador de Saúde da AI no Alipay, seu aplicativo de pagamentos.
Esta história foi originalmente apresentada em Fortune.com



Publicar comentário