DeepSeek представляет прорыв в обучении ИИ для масштабирования моделей

📋

Ключевые факты

DeepSeek опубликовала исследовательскую статью о новом методе обучения под названием Manifold-Constrained Hyper-Connections (mHC).
Метод разработан для масштабирования моделей без потери стабильности или работоспособности.
Вэй Сунь, главный аналитик по ИИ в Counterpoint Research, назвала подход «поразительным прорывом».
Статья была написана совместно с основателем DeepSeek Лян Вэньфэном.
По сообщениям, DeepSeek работает над выпуском своей следующей флагманской модели R2.

Краткое содержание

Китайская компания DeepSeek начала 2026 год с публикации нового метода обучения ИИ, который отраслевые аналитики называют значительным достижением для сектора. В исследовательской статье представлена техника, предназначенная для более эффективного масштабирования больших языковых моделей без нестабильности, часто связанной с увеличением размера моделей. Позволяя моделям обмениваться более богатой внутренней коммуникацией в ограниченном режиме, метод сохраняет стабильность обучения и вычислительную эффективность.

Статья, написанная совместно с основателем Лян Вэньфэном, детально описывает процесс, названный Manifold-Constrained Hyper-Connections (mHC). Этот подход решает проблему сохранения производительности по мере роста моделей, что является критическим препятствием в современном развитии ИИ. Аналитики предполагают, что это инновационное решение может сформировать эволюцию фундаментальных моделей и позволить компании обойти вычислительные узкие места, потенциально открывая новые скачки в интеллекте.

Техническая инновация: Manifold-Constrained Hyper-Connections

Китайский стартап в сфере ИИ опубликовал в среду исследовательскую статью, описывающую метод обучения больших языковых моделей, который может сформировать «эволюцию фундаментальных моделей». В статье представлено то, что DeepSeek называет Manifold-Constrained Hyper-Connections, или mHC — подход к обучению, разработанный для масштабирования моделей без потери стабильности или полного отказа.

По мере роста языковых моделей исследователи часто пытаются улучшить производительность, позволяя различным частям модели обмениваться большей информацией внутри себя. Однако это увеличивает риск нестабильности информации. Последние исследования DeepSeek позволяют моделям обмениваться более богатой внутренней коммуникацией в ограниченном режиме, сохраняя стабильность обучения и вычислительную эффективность даже при масштабировании моделей.

Перепроектировав стек обучения от начала до конца, компания сигнализирует о том, что она может сочетать быстрые эксперименты с высоко неконвенциональными исследовательскими идеями. Этот технический подвиг наблюдателями отрасли расценивается как заявление о внутренних возможностях DeepSeek.

Реакция отраслевых аналитиков на прорыв

Аналитики отреагировали на публикацию положительно, описав подход как «поразительный прорыв». Вэй Сунь, главный аналитик по ИИ в Counterpoint Research, отметила, что DeepSeek объединила различные техники, чтобы минимизировать дополнительные затраты на обучение модели. Она добавила, что даже при незначительном увеличении затрат новый метод обучения может дать гораздо более высокую производительность.

Сунь также заявила, что DeepSeek может «снова обойти вычислительные узкие места и открыть скачки в интеллекте», ссылаясь на «момент Спутника» компании в январе 2025 года. В то время компания представила свою модель рассуждений R1, которая потрясла технологическую индустрию и фондовый рынок США, сопоставившись с лучшими конкурентами за небольшую часть их стоимости.

Лян Цзе Су, главный аналитик в Omdia, заявил Business Insider, что опубликованное исследование может вызвать эффект домино по всей отрасли, поскольку конкурирующие лаборатории ИИ разработают собственные версии этого подхода. «Готовность делиться важными выводами с отраслью, при этом продолжая приносить уникальную ценность через новые модели, демонстрирует newfound confidence в китайской индустрии ИИ», — сказал Су. Он добавил, что открытость воспринимается как «стратегическое преимущество и ключевой дифференциатор».

Контекст: Путь к R2 и рыночная позиция

Статья появилась в то время, как DeepSeek, по сообщениям, работает над выпуском своей следующей флагманской модели R2, после ранее объявленной отсрочки. R2, которую ожидали в середине 2025 года, была отложена после того, как Лян выразил недовольство производительностью модели. Запуск также осложнился нехваткой передовых чипов для ИИ — ограничением, которое все больше формирует то, как китайские лаборатории обучают и развертывают фронтальные модели.

Хотя в статье не упоминается R2, ее тайминг вызвал вопросы. DeepSeek ранее публиковала фундаментальные исследования по обучению перед запуском своей модели R1. Су заявил, что история DeepSeek говорит о том, что новая архитектура «определенно будет реализована в их новой модели».

Однако Вэй Сунь более осторожна в отношении сроков. «Скорее всего, отдельного R2 не будет», — сказала Сунь. Поскольку DeepSeek уже интегрировала более ранние обновления R1 в свою модель V3, она считает, что техника может стать основой для модели V4 от DeepSeek. Несмотря на эти инновации, сообщения свидетельствуют о том, что обновления DeepSeek для модели R1 не смогли сгенерировать большой интерес в технологической индустрии, а дистрибуция остается проблемой по сравнению с ведущими лабораториями ИИ, такими как OpenAI и Google, особенно на западных рынках.

«Подход — это 'поразительный прорыв'».
— Вэй Сунь, главный аналитик по ИИ в Counterpoint Research

«Deepseek может 'снова обойти вычислительные узкие места и открыть скачки в интеллекте'».
— Вэй Сунь, главный аналитик по ИИ в Counterpoint Research

«Готовность делиться важными выводами с отраслью, при этом продолжая приносить уникальную ценность через новые модели, демонстрирует newfound confidence в китайской индустрии ИИ».
— Лян Цзе Су, главный аналитик в Omdia

«Открытость воспринимается как 'стратегическое преимущество и ключевой дифференциатор'».
— Лян Цзе Су, главный аналитик в Omdia

«Скорее всего, отдельного R2 не будет».
— Вэй Сунь, главный аналитик по ИИ в Counterpoint Research

Key Facts: 1. DeepSeek опубликовала исследовательскую статью о новом методе обучения под названием Manifold-Constrained Hyper-Connections (mHC). 2. Метод разработан для масштабирования моделей без потери стабильности или работоспособности. 3. Вэй Сунь, главный аналитик по ИИ в Counterpoint Research, назвала подход «поразительным прорывом». 4. Статья была написана совместно с основателем DeepSeek Лян Вэньфэном. 5. По сообщениям, DeepSeek работает над выпуском своей следующей флагманской модели R2. FAQ: Q1: Что такое новый метод обучения ИИ от DeepSeek? A1: DeepSeek представила метод под названием Manifold-Constrained Hyper-Connections (mHC), разработанный для более легкого масштабирования больших языковых моделей при сохранении стабильности и вычислительной эффективности. Q2: Почему это развитие считается прорывом? A2: Аналитики называют это «поразительным прорывом», потому что это позволяет моделям обмениваться более богатой внутренней коммуникацией без нестабильности, потенциально обходя вычислительные узкие места и получая более высокую производительность при минимальных дополнительных затратах. Q3: Как это связано с предстоящей моделью DeepSeek R2? A3: Хотя статья была выпущена в то время, как DeepSeek, по сообщениям, работает над R2, аналитики разделились во мнениях относительно ее реализации. Некоторые считают, что новая архитектура будет использоваться в R2, в то время как другие предполагают, что она может быть интегрирована в модель V4 вместо отдельного выпуска R2.