DeepSeek revela avanço em treinamento de IA para escalabilidade de modelos

📋

Fatos Principais

DeepSeek publicou um artigo de pesquisa sobre um novo método de treinamento chamado Manifold-Constrained Hyper-Connections (mHC).
O método foi projetado para escalar modelos sem que eles se tornem instáveis ou quebrem.
Wei Sun, analista principal de IA da Counterpoint Research, classificou a abordagem como uma "ruptura marcante".
O artigo foi coautorizado pelo fundador da DeepSeek, Liang Wenfeng.
Relatos indicam que a DeepSeek está trabalhando para lançar seu próximo modelo principal, R2.

Resumo Rápido

A DeepSeek da China iniciou 2026 com a publicação de um novo método de treinamento de IA que analistas de setor estão chamando de um avanço significativo para o segmento. O artigo de pesquisa introduz uma técnica projetada para escalar modelos de linguagem grandes de forma mais eficaz, sem a instabilidade frequentemente associada ao aumento do tamanho dos modelos. Ao permitir que os modelos compartilhem uma comunicação interna mais rica de maneira controlada, o método preserva a estabilidade do treinamento e a eficiência computacional.

O artigo, coautorizado pelo fundador Liang Wenfeng, detalha um processo batizado de Manifold-Constrained Hyper-Connections (mHC). Essa abordagem enfrenta o desafio de manter o desempenho à medida que os modelos crescem, um obstáculo crítico no desenvolvimento atual de IA. Analistas sugerem que essa inovação pode moldar a evolução dos modelos fundamentais e permitir que a empresa contorne gargalos de computação, potencialmente liberando novos saltos em inteligência.

A Inovação Técnica: Manifold-Constrained Hyper-Connections

A startup chinesa de IA publicou um artigo de pesquisa na quarta-feira descrevendo um método para treinar modelos de linguagem grandes que poderia moldar "a evolução dos modelos fundamentais". O artigo introduz o que a DeepSeek chama de Manifold-Constrained Hyper-Connections, ou mHC, uma abordagem de treinamento projetada para escalar modelos sem que eles se tornem instáveis ou quebrem completamente.

À medida que os modelos de linguagem crescem, pesquisadores frequentemente tentam melhorar o desempenho permitindo que diferentes partes de um modelo compartilhem mais informações internamente. No entanto, isso aumenta o risco de as informações se tornarem instáveis. A pesquisa mais recente da DeepSeek permite que os modelos compartilhem uma comunicação interna mais rica de maneira controlada, preservando a estabilidade do treinamento e a eficiência computacional mesmo à medida que os modelos escalam.

Ao redesenhar a pilha de treinamento de ponta a ponta, a empresa sinaliza que pode combinar experimentação rápida com ideias de pesquisa altamente não convencionais. Essa proeza técnica é vista por observadores do setor como uma declaração das capacidades internas da DeepSeek.

Analistas de Setor Reagem ao Avanço

Analistas reagiram positivamente à publicação, descrevendo a abordagem como uma "ruptura marcante". Wei Sun, a analista principal de IA da Counterpoint Research, observou que a DeepSeek combinou várias técnicas para minimizar o custo extra de treinamento de um modelo. Ela acrescentou que, mesmo com um ligeiro aumento de custo, o novo método de treinamento poderia gerar um desempenho muito maior.

Sun afirmou ainda que a DeepSeek pode "mais uma vez, contornar gargalos de computação e liberar saltos em inteligência", referindo-se ao "momento Sputnik" da empresa em janeiro de 2025. Durante aquele período, a empresa revelou seu modelo de raciocínio R1, que abalou a indústria tecnológica e o mercado de ações dos EUA ao equiparar-se aos principais concorrentes a uma fração do custo.

Lian Jye Su, o analista-chefe da Omdia, disse ao Business Insider que a pesquisa publicada poderia ter um efeito cascata em toda a indústria, com laboratórios de IA concorrentes desenvolvendo suas próprias versões da abordagem. "A disposição de compartilhar descobertas importantes com a indústria, continuando a entregar valor único por meio de novos modelos, demonstra uma confiança renovada na indústria de IA chinesa", disse Su. Ele acrescentou que a abertura é adotada como "uma vantagem estratégica e um diferencial chave".

Contexto: O Caminho para o R2 e a Posição no Mercado

O artigo surge enquanto a DeepSeek, segundo relatos, está trabalhando para o lançamento de seu próximo modelo principal, R2, após um adiamento anterior. O R2, que era esperado para meados de 2025, foi atrasado depois que Liang expressou insatisfação com o desempenho do modelo. O lançamento também foi complicado por escassez de chips de IA avançados, uma restrição que tem moldado cada vez mais como os laboratórios chineses treinam e implantam modelos de fronteira.

Embora o artigo não mencione o R2, seu timing levantou sobrancelhas. A DeepSeek publicou anteriormente pesquisas de treinamento fundamentais antes do lançamento de seu modelo R1. Su disse que o histórico da DeepSeek sugere que a nova arquitetura "definitivamente será implementada em seu novo modelo".

No entanto, Wei Sun é mais cautelosa quanto ao cronograma. "É muito provável que não venha um R2 independente", disse Sun. Como a DeepSeek já integrou atualizações anteriores do R1 em seu modelo V3, ela acredita que a técnica poderia formar a espinha dorsal do modelo V4 da DeepSeek. Apesar dessas inovações, relatos sugerem que as atualizações da DeepSeek em seu modelo R1 falharam em gerar muito tração na indústria tecnológica, com distribuição permanecendo um desafio em comparação com os principais laboratórios de IA como OpenAI e Google, particularmente em mercados ocidentais.

"A abordagem é uma 'ruptura marcante'."
— Wei Sun, Analista Principal de IA da Counterpoint Research

"A Deepseek pode 'mais uma vez, contornar gargalos de computação e liberar saltos em inteligência'."
— Wei Sun, Analista Principal de IA da Counterpoint Research

"A disposição de compartilhar descobertas importantes com a indústria, continuando a entregar valor único por meio de novos modelos, demonstra uma confiança renovada na indústria de IA chinesa."
— Lian Jye Su, Analista-Chefe da Omdia