DeepSeek presenta avance en entrenamiento de IA para escalar modelos

📋

Hechos Clave

DeepSeek publicó un artículo de investigación sobre un nuevo método de entrenamiento llamado Manifold-Constrained Hyper-Connections (mHC).
El método está diseñado para escalar modelos sin que se vuelvan inestables o fallen.
Wei Sun, analista principal de IA en Counterpoint Research, calificó el enfoque como un "avance notable".
El artículo fue coescrito por el fundador de DeepSeek, Liang Wenfeng.
DeepSeek está trabajando, según informes, en el lanzamiento de su próximo modelo insignia, R2.

Resumen Rápido

China DeepSeek inició 2026 con la publicación de un nuevo método de entrenamiento de IA que los analistas de la industria consideran un avance significativo para el sector. El artículo de investigación introduce una técnica diseñada para escalar modelos de lenguaje grandes de manera más efectiva sin la inestabilidad que a menudo se asocia con el crecimiento del tamaño de los modelos. Al permitir que los modelos compartan una comunicación interna más rica de manera restringida, el método preserva la estabilidad del entrenamiento y la eficiencia computacional.

El artículo, coescrito por el fundador Liang Wenfeng, detalla un proceso bautizado como Manifold-Constrained Hyper-Connections (mHC). Este enfoque aborda el desafío de mantener el rendimiento a medida que los modelos crecen, un obstáculo crítico en el desarrollo actual de la IA. Los analistas sugieren que esta innovación podría dar forma a la evolución de los modelos fundamentales y permitir a la empresa sortear los cuellos de botella de cómputo, desbloqueando potencialmente nuevos saltos en inteligencia.

La Innovación Técnica: Manifold-Constrained Hyper-Connections

La startup china de IA publicó un artículo de investigación el miércoles describiendo un método para entrenar modelos de lenguaje grandes que podría dar forma a "la evolución de los modelos fundamentales". El artículo introduce lo que DeepSeek llama Manifold-Constrained Hyper-Connections, o mHC, un enfoque de entrenamiento diseñado para escalar modelos sin que se vuelvan inestables o fallen por completo.

A medida que los modelos de lenguaje crecen, los investigadores a menudo intentan mejorar el rendimiento permitiendo que diferentes partes de un modelo compartan más información internamente. Sin embargo, esto aumenta el riesgo de que la información se vuelva inestable. La investigación más reciente de DeepSeek permite a los modelos compartir una comunicación interna más rica de manera restringida, preservando la estabilidad del entrenamiento y la eficiencia computacional incluso a medida que los modelos se escalan.

Al rediseñar la pila de entrenamiento de extremo a extremo, la empresa señala que puede combinar la experimentación rápida con ideas de investigación altamente no convencionales. Esta hazaña técnica es vista por los observadores de la industria como una declaración de las capacidades internas de DeepSeek.

Analistas de la Industria Reaccionan al Avance

Los analistas han reaccionado positivamente a la publicación, describiendo el enfoque como un "avance notable". Wei Sun, la analista principal de IA en Counterpoint Research, señaló que DeepSeek combinó varias técnicas para minimizar el costo adicional de entrenar un modelo. Añadió que incluso con un ligero aumento en el costo, el nuevo método de entrenamiento podría rendir un rendimiento mucho mayor.

Sun afirmó además que DeepSeek puede "una vez más, sortear los cuellos de botella de cómputo y desbloquear saltos en inteligencia", refiriéndose al "momento Sputnik" de la empresa en enero de 2025. Durante ese tiempo, la empresa presentó su modelo de razonamiento R1, que sacudió la industria tecnológica y el mercado de valores de EE. UU. al igualar a los mejores competidores a una fracción del costo.

Lian Jye Su, el analista jefe en Omdia, le dijo a Business Insider que la investigación publicada podría tener un efecto dominó en toda la industria, con laboratorios de IA rivales desarrollando sus propias versiones del enfoque. "La voluntad de compartir hallazgos importantes con la industria mientras continúa entregando valor único a través de nuevos modelos muestra una nueva confianza en la industria china de IA", dijo Su. Añadió que la apertura se adopta como "una ventaja estratégica y un diferenciador clave".

Contexto: El Camino hacia R2 y la Posición en el Mercado

El artículo llega mientras DeepSeek, según informes, trabaja en el lanzamiento de su próximo modelo insignia, R2, tras un aplazamiento anterior. R2, que se esperaba a mediados de 2025, se retrasó después de que Liang expresara su insatisfacción con el rendimiento del modelo. El lanzamiento también se complicó por la escasez de chips avanzados de IA, una limitación que ha dado forma cada vez más a cómo los laboratorios chinos entrenan y despliegan modelos de vanguardia.

Aunque el artículo no menciona R2, su temporización ha levantado sospechas. DeepSeek publicó previamente investigación de entrenamiento fundamental antes del lanzamiento de su modelo R1. Su dijo que el historial de DeepSeek sugiere que la nueva arquitectura "definitivamente se implementará en su nuevo modelo".

Sin embargo, Wei Sun es más cautelosa con respecto al cronograma. "Lo más probable es que no venga un R2 independiente", dijo Sun. Ya que DeepSeek ya ha integrado actualizaciones anteriores de R1 en su modelo V3, cree que la técnica podría formar la columna vertebral del modelo V4 de DeepSeek en su lugar. A pesar de estas innovaciones, los informes sugieren que las actualizaciones de DeepSeek a su modelo R1 no lograron generar mucha tracción en la industria tecnológica, con la distribución siendo un desafío en comparación con los principales laboratorios de IA como OpenAI y Google, particularmente en los mercados occidentales.

"El enfoque es un 'avance notable'."
— Wei Sun, Analista Principal de IA en Counterpoint Research

"Deepseek puede 'una vez más, sortear los cuellos de botella de cómputo y desbloquear saltos en inteligencia'."
— Wei Sun, Analista Principal de IA en Counterpoint Research

"La voluntad de compartir hallazgos importantes con la industria mientras continúa entregando valor único a través de nuevos modelos muestra una nueva confianza en la industria china de IA."
— Lian Jye Su, Analista Jefe en Omdia

"La apertura se adopta como 'una ventaja estratégica y un diferenciador clave'."
— Lian Jye Su, Analista Jefe en Omdia

"Lo más probable es que no venga un R2 independiente."
— Wei Sun, Analista Principal de IA en Counterpoint Research

Key Facts: 1. DeepSeek publicó un artículo de investigación sobre un nuevo método de entrenamiento llamado Manifold-Constrained Hyper-Connections (mHC). 2. El método está diseñado para escalar modelos sin que se vuelvan inestables o fallen. 3. Wei Sun, analista principal de IA en Counterpoint Research, calificó el enfoque como un 'avance notable'. 4. El artículo fue coescrito por el fundador de DeepSeek, Liang Wenfeng. 5. DeepSeek está trabajando, según informes, en el lanzamiento de su próximo modelo insignia, R2. FAQ: Q1: ¿Cuál es el nuevo método de entrenamiento de IA de DeepSeek? A1: DeepSeek introdujo un método llamado Manifold-Constrained Hyper-Connections (mHC), diseñado para escalar modelos de lenguaje grandes más fácilmente mientras mantiene la estabilidad y la eficiencia computacional. Q2: ¿Por qué se considera este desarrollo un avance? A2: Los analistas lo describen como un 'avance notable' porque permite a los modelos compartir una comunicación interna más rica sin inestabilidad, potencialmente sorteando cuellos de botella de cómputo y obteniendo un mayor rendimiento a un costo adicional mínimo. Q3: ¿Cómo se relaciona esto con el próximo modelo R2 de DeepSeek? A3: Aunque el artículo se publicó mientras DeepSeek, según informes, trabaja en R2, los analistas están divididos sobre su implementación. Algunos creen que la nueva arquitectura se usará en R2, mientras que otros sugieren que puede integrarse en un modelo V4 en lugar de un lanzamiento independiente de R2.