شقيقان يبنيان نموذج تحويل النص إلى فيديو من الصفر

📋

حقائق رئيسية

قضى شقيقان، ساهيل ومانو، عامين في تدريب نموذج تحويل النص إلى فيديو بالكامل من الصفر، وأطلقاه بموجب ترخيص Apache 2.0.
يولد النموذج الذي يحوي 2 مليار معلمة مقاطع فيديو مدتها 2-5 ثوانٍ بدقة 360p أو 720p، مع قدرات مقاربة لنموذج Alibaba Wan 2.1 1.3B.
ركز التطوير بشكل كبير على بناء خطوط أنابيب فعالة للانتقاء، بما في ذلك التسمية اليدوية للخصائص الجمالية وضبط النماذج اللغوية البصرية (VLMs) للتصفية على نطاق واسع.
يستخدم النموذج T5 لترميز النص، وWan 2.1 VAE للضغط، وعمود فقري من نوع DiT مدرب بتطابق التدفق.
تشمل نقاط القوة الحالية الأنماط الكارتونية والرسوم المتحركة، ومشاهد الطعام والطبيعة، والحركة البسيطة للشخصيات، بينما تظل الفيزياء المعقدة والحركة السريعة تحدياً.
يرى الشقيقان هذا العمل كخطوة نحو القدرات المتقدمة، مع خطط مستقبلية للتدريب اللاحق، والتكثيف، ودمج الصوت.

ملخص سريع

أكمل شقيقان رحلة دامت عامين لبناء نموذج تحويل النص إلى فيديو بالكامل من الصفر، وأطلقاه كبرنامج مفتوح المصدر. يوضح المشروع، الذي قاده ساهيل ومانو، أن المطورين المستقلين يمكنهم المنافسة في مجال الذكاء الاصطناعي المتقدم دون موارد شركات ضخمة.

يحتوي النموذج الناتج على مليارين من المعلمات ويمكنه إنشاء مقاطع فيديو قصيرة من أوصاف النص. على الرغم من عدم ادعاء المطابقة مع أداء الأنظمة التجارية مثل Sora أو Veo، إلا أن الشقيقان يرون عملهم كخطوة حاسمة نحو القدرات المتقدمة.

رحلة العامين

بدأ الشقيقان عملهما في أوائل عام 2024، وأطلقوا نموذجهم الأول في يناير من ذلك العام - قبل أن يتصدر OpenAI Sora العناوين. كان الإصدار الأول هو روبوت GIF بدقة 180p وثانية واحدة تم بناؤه على Stable Diffusion XL. ومع ذلك، سرعان ما اكتشفوا قيوداً أساسية في استخدام نماذج الصور لإنشاء الفيديو.

لا تفهم VAEs الصور التماسك الزمني، ومن دون بيانات التدريب الأصلية، من المستحيل تحقيق انتقال سلس بين توزيعات الصور والفيديو. في مرحلة ما، قرر الشقيقان أنه من الأفضل البدء من جديد بدلاً من محاولة إصلاح الحلول الحالية.

يمثل إصدارهم الثاني إعادة بناء كاملة من الأساس. يستخدم النموذج:

T5 لترميز النص
Wan 2.1 VAE للضغط
عمود فقري من نوع DiT مدرب بتطابق التدفق

من المثير للاهتمام، أنه على الرغم من بناء VAE زمني خاص بهم، إلا أنهم استخدموا في النهاية الإصدار الأصغر من Wan لأنه قدم أداءً مكافئاً مع توفير تكاليف التضمين. تعهد الشقيقان بإصدار VAE الخاص بهم كمصدر مفتوح قريباً.

"لستنا مدعين أننا وصلنا إلى الحدود. بالنسبة لنا، هذه خطوة نحو القدرات المتقدمة - دليل على أننا نستطيع تدريب هذه النماذج من البداية إلى النهاية بأنفسنا."
— ساهيل ومانو، مطورو النموذج

البنية التقنية

يولد النموذج 2-5 ثوانٍ من الفيديو بدقة 360p أو 720p. من حيث حجم النموذج، أقرب مقارنة هي نموذج Alibaba Wan 2.1 1.3B، على الرغم من أن الشقيقان يبلغون أن نموذجهم يحقق التقاط حركة وجماليات أفضل بشكل ملحوظ في اختباراتهم.

لم يذهب الجزء الأكبر من وقت التطوير على بنية النموذج نفسها، بل على بناء خطوط أنابيب انتقاء تعمل فعلياً. تضمن ذلك التسمية اليدوية للخصائص الجمالية وضبط النماذج اللغوية البصرية (VLMs) لتصفية بيانات التدريب على نطاق واسع.

عند سؤالهم عن نهجهم، شرح الشقيقان فلسفتهم:

المنتجات هي امتدادات للقدرات الأساسية للنموذج. إذا أراد المستخدمون ميزة لا يدعمها النموذج - مثل اتساق الشخصية، وضوابط الكاميرا، والتحرير، وتعيين الأنماط، إلخ - فأنت عالق. لبناء المنتج الذي نريده، نحتاج إلى تحديث النموذج نفسه.

وجهة النظر هذه تدفع قرارهم بالاستيلاء على عملية التطوير بالكامل، على الرغم من التكاليف الحسابية الكبيرة المترتبة على ذلك.

القدرات والقيود

يظهر النموذج نقاط قوة خاصة في مجالات محددة. من خلال الاختبار المكثف، حدد الشقيقان ما يعمل بشكل أفضل:

الأنماط الكارتونية والرسوم المتحركة
مشاهد الطعام والطبيعة
الحركة البسيطة للشخصيات

ومع ذلك، لا يزال النموذج يواجه تحديات في السيناريوهات الأكثر تعقيداً. المجالات التي لا تعمل بشكل جيد تشمل:

محاكاة الفيزياء المعقدة
تسلسلات الحركة السريعة (الجمباز، الرقص)
عرض النص بشكل متسق

الشقيقان شفافون بشأن موقع نموذجهم في المشهد الحالي. يصرحون بوضوح: "لستنا مدعين أننا وصلنا إلى الحدود." بدلاً من ذلك، يرون هذا الإصدار كإثبات للمفهوم - موضحين أنهم يستطيعون تدريب هذه النماذج من البداية إلى النهاية بأنفسهم.

لماذا بناء نموذج آخر؟

مع وجود عروض تجارية مثل Veo من Google وSora من OpenAI بالفعل، قد يبدو قرار الشقيقان بالبناء من الصفر غير منطقي. يركز تفكيرهم على التحكم في المنتج والمرونة.

عندما لا تدعم النماذج التجارية ميزات محددة، يُحد المطورون من قدرة تلك النماذج. يعتقد الشقيقان أنه لبناء المنتج الذي يصورونه، يحتاجون إلى تحديث النموذج نفسه. يتطلب ذلك الاستيلاء على عملية التطوير بدلاً من الاعتماد على واجهات برمجة التطبيقات الخارجية.

إنه رهان كبير يتطلب موارد حسابية كبيرة باستخدام وحدات معالجة الرسوميات (GPUs) ووقتاً ليدفع ثماره، لكنهم يعتقدون أنه الاستراتيجية الصحيحة على المدى الطويل. يسمح نهجهم لهم بـ:

تخصيص القدرات لحالات استخدام محددة
التكرار بسرعة على تحسينات النموذج
التحكم في تكنولوجيا المكدس بالكامل
بناء ميزات لا تدعمها النماذج التجارية

خارطة الطريق المستقبلية

رسم الشقيقان خارطة طريق واضحة للتطوير المستقبلي. تشمل أولوياتهم الفورية:

التدريب اللاحق للفيزياء والتشوهات
التكثيف لتحسين السرعة
دمج قدرات الصوت
توسيع النموذج للأداء المحسن

كما حافظوا على "مذكرة مختبر" مفصلة لجميع تجاربهم في Notion، وهم مستعدون لمشاركتها مع الآخرين المهتمين بالتفاصيل التقنية لبناء النماذج من الصفر إلى واحد.

أُطلق على النموذج ترخيص Apache 2.0، مما يجعله متاحاً مجاناً للاستخدام التجاري وغير التجاري. يتوافق هذا النهج المفتوح المصدر مع هدفهم في ديمقراطية الوصول إلى قدرات الذكاء الاصطناعي المتقدم.

النظر إلى الأمام

يمثل إطلاق هذا النموذج الذي يحوي 2 مليار معلمة أكثر من مجرد إنجاز تقني - إنه يوضح أن المطورين المستقلين يمكنهم المنافسة في مجال الذكاء الاصطناعي المتقدم مع الكفاءة والموارد الكافية. تُظهر رحلة الشقيقان التي استمرت عامين من روبوت GIF بدقة 180p إلى نموذج تحويل نص إلى فيديو متطور ما هو ممكن مع الجهد الموجه.

على الرغم من أن النموذج قد لا يضاهي بعد أداء العمالقة التجاريين، إلا أنه يعمل كـ خطوة نحو القدرات المتقدمة. التزام الشقيقان بالتطوير المفتوح المصدر