DeepSeek تكشف عن اختراق جديد في تدريب الذكاء الاصطناعي لتوسيع النماذج

📋

حقائق رئيسية

نشرت DeepSeek ورقة بحثية حول طريقة تدريب جديدة تسمى Manifold-Constrained Hyper-Connections (mHC).
تم تصميم الطريقة لتوسيع النماذج دون أن تصبح غير مستقرة أو تتعطل.
وصف ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research، الطريقة بأنها "اختراق مذهل".
كُتبت الورقة بالتعاون مع مؤسس DeepSeek ليانغ وينفينغ.
تشير التقارير إلى أن DeepSeek تعمل على إطلاق نموذجها العلمي الرئيسي التالي، R2.

ملخص سريع

بدأت شركة DeepSeek الصينية عام 2026 بنشر طريقة تدريب جديدة للذكاء الاصطناعي، وصفها المحللون الصناعيون بأنها تقدم كبير للقطاع. تقدم الورقة البحثية تقنية مصممة لتوسيع نماذج اللغات الكبيرة بشكل أكثر فعالية دون عدم الاستقرار المرتبط غالبًا بزيادة أحجام النماذج. ومن خلال تمكين النماذج من مشاركة اتصالات داخلية أكثر ثراءً بطريقة مقيدة، تحافظ الطريقة على استقرار التدريب والكفاءة الحسابية.

الورقة، التي كُتبت بالتعاون مع المؤسس ليانغ وينفينغ، تفصل عملية أُطلِق عليها اسم Hyper-Connections المقيدة بالمتعددات (mHC). يعالج هذا النهج تحدي الحفاظ على الأداء مع نمو النماذج، وهو عقبة حرجة في تطور الذكاء الاصطناعي الحالي. يشير المحللون إلى أن هذا الابتكار قد يشكل تطور النماذج الأساسية ويسمح للشركة بتجاوز عوائق الحوسبة، مما قد يفتح الباب أمام قفزات جديدة في الذكاء.

الابتكار التقني: Hyper-Connections المقيدة بالمتعددات

نشرت شركة الذكاء الاصطناعي الصينية ورقة بحثية يوم الأربعاء تصف طريقة لتدريب نماذج اللغات الكبيرة يمكن أن تشكل "تطور النماذج الأساسية". تقدم الورقة ما تسميه DeepSeek Hyper-Connections المقيدة بالمتعددات، أو mHC، وهو نهج تدريب مصمم لتوسيع النماذج دون أن تصبح غير مستقرة أو تتعطل تمامًا.

مع نمو نماذج اللغات، غالبًا ما يحاول الباحثون تحسين الأداء من خلال السماح لأجزاء مختلفة من النموذج بمشاركة المزيد من المعلومات داخليًا. ومع ذلك، يزيد هذا من خطر عدم استقرار المعلومات. تتيح أحدث أبحاث DeepSeek للنماذج مشاركة اتصالات داخلية أكثر ثراءً بطريقة مقيدة، مع الحفاظ على استقرار التدريب والكفاءة الحسابية حتى مع توسيع النماذج.

من خلال إعادة تصميم تدريب التكنولوجيا من البداية إلى النهاية، تُظهر الشركة أنها يمكن أن تجمع بين التجربة السريعة وأفكار البحث غير التقليدية للغاية. ينظر المراقبون الصناعيون إلى هذا الإنجاز التقني باعتباره بيانًا لقدرات DeepSeek الداخلية.

ردود فعل المحللين الصناعيون على الاختراق

أجاب المحللون بشكل إيجابي على النشر، واصفين النهج بأنه "اختراق مذهل". لاحظ ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research، أن DeepSeek جمعت بين تقنيات مختلفة لتقليل التكلفة الإضافية لتدريب نموذج. وأضافت أنه حتى مع زيادة طفيفة في التكلفة، يمكن أن تنتج طريقة التدريب الجديدة أداءً أعلى بكثير.

وذكرت سون كذلك أن DeepSeek يمكنها "مرة أخرى، تجاوز عوائق الحوسبة وفتح قفزات في الذكاء"، في إشارة إلى "لحظة سبوتنيك" للشركة في يناير 2025. خلال ذلك الوقت، كشفت الشركة عن نموذجها الاستدلالي R1، الذي هز صناعة التكنولوجيا وسوق الأسهم الأمريكي بمنافسته لأفضل المنافسين بجزء بسيط من التكلفة.

قال ليان جيي سو، المحلل الرئيسي في Omdia، لـ Business Insider إن البحث المنشور قد يكون له تأثير موجي عبر الصناعة، حيث تطور مختبرات الذكاء الاصطناعي المنافسة نسخها الخاصة من النهج. وأضاف سو: "الرغبة في مشاركة النتائج المهمة مع الصناعة مع الاستمرار في تقديم قيمة فريدة من خلال نماذج جديدة يظهر ثقة جديدة في صناعة الذكاء الاصطناعي الصينية". وأضاف أن الانفتاح يُعتبر "ميزة استراتيجية وميزة تمييزية".

السياق: الطريق إلى R2 والوضع في السوق

تأتي الورقة بينما تعمل DeepSeek، وفقًا للتقارير، على إطلاق نموذجها العلمي الرئيسي التالي، R2، بعد تأجيل سابق. كان من المتوقع إطلاق R2 في منتصف عام 2025، لكنه تأخر بعد أن أعرب ليانغ عن عدم رضاه عن أداء النموذج. كما تعقد الإطلاق بسبب نقص شرائح الذكاء الاصطناعي المتقدمة، وهو قيد شكل بشكل متزايد كيفية تدريب مختبرات الصين للنماذج前沿ية ونشرها.

على الرغم من أن الورقة لا تذكر R2، إلا أن توقيتها أثار الدهشة. نشرت DeepSeek سابقًا أبحاث تدريب أساسية قبل إطلاق نموذج R1. قال سو إن سجل DeepSeek يشير إلى أن المعمارية الجديدة "سيتم تطبيقها بالتأكيد في نموذجها الجديد".

ومع ذلك، يكون ويلي سون أكثر حذرًا فيما يتعلق بالجدول الزمني. وقال سون: "من المرجح ألا يكون هناك R2 منفصل". بما أن DeepSeek قد دمجت بالفعل تحديثات R1 الأقدم في نموذج V3 الخاص بها، فإنها تعتقد أن التقنية يمكن أن تكون العمود الفقري لنموذج V4 الخاص بـ DeepSeek بدلاً من ذلك. على الرغم من هذه الابتكارات، تشير التقارير إلى أن تحديثات DeepSeek لنموذج R1 الخاص بها فشلت في تحقيق الكثير من التأثير في صناعة التكنولوجيا، حيث ظلت التوزيع تحديًا مقارنة بمختبرات الذكاء الاصطناعي الرائدة مثل OpenAI وGoogle، خاصة في الأسواق الغربية.

"النهج هو 'اختراق مذهل'."
— ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research

"يمكن لـ Deepseek 'مرة أخرى، تجاوز عوائق الحوسبة وفتح قفزات في الذكاء'."
— ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research

"الرغبة في مشاركة النتائج المهمة مع الصناعة مع الاستمرار في تقديم قيمة فريدة من خلال نماذج جديدة يظهر ثقة جديدة في صناعة الذكاء الاصطناعي الصينية."
— ليان جيي سو، المحلل الرئيسي في Omdia

"يُعتبر الانفتاح ميزة استراتيجية وميزة تمييزية."
— ليان جيي سو، المحلل الرئيسي في Omdia

"من المرجح ألا يكون هناك R2 منفصل."
— ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research

Key Facts: 1. نشرت DeepSeek ورقة بحثية حول طريقة تدريب جديدة تسمى Manifold-Constrained Hyper-Connections (mHC). 2. تم تصميم الطريقة لتوسيع النماذج دون أن تصبح غير مستقرة أو تتعطل. 3. وصف ويلي سون، المحلل الرئيسي للذكاء الاصطناعي في Counterpoint Research، الطريقة بأنها 'اختراق مذهل'. 4. كُتبت الورقة بالتعاون مع مؤسس DeepSeek ليانغ وينفينغ. 5. تشير التقارير إلى أن DeepSeek تعمل على إطلاق نموذجها العلمي الرئيسي التالي، R2. FAQ: Q1: ما هي طريقة تدريب الذكاء الاصطناعي الجديدة من DeepSeek؟ A1: قدمت DeepSeek طريقة تسمى Manifold-Constrained Hyper-Connections (mHC)، مصممة لتوسيع نماذج اللغات الكبيرة بشكل أسهل مع الحفاظ على الاستقرار والكفاءة الحسابية. Q2: لماذا يُعتبر هذا التطور اختراقًا؟ A2: يصفه المحللون بأنه 'اختراق مذهل' لأنه يسمح للنماذج بمشاركة اتصالات داخلية أكثر ثراءً دون عدم الاستقرار، مع إمكانية تجاوز عوائق الحوسبة وإنتاج أداء أعلى بتكلفة إضافية بسيطة. Q3: كيف يرتبط هذا بنموذج R2 القادم من DeepSeek؟ A3: بينما صدرت الورقة بينما تعمل DeepSeek، وفقًا للتقارير، على R2، يختلف المحللون حول تطبيقها. يعتقد البعض أن المعمارية الجديدة ستُستخدم في R2، بينما يقترح آخرون أنها قد يتم دمجها في نموذج V4 بدلاً من إصدار R2 منفصل.