M
MercyNews
Home
Back
شقيقان يبنيان نموذج تحويل النص إلى فيديو من الصفر
تكنولوجيا

شقيقان يبنيان نموذج تحويل النص إلى فيديو من الصفر

Hacker News7h ago
3 دقيقة قراءة
📋

حقائق رئيسية

  • قضى شقيقان، ساهيل ومانو، عامين في تدريب نموذج تحويل النص إلى فيديو بالكامل من الصفر، وأطلقاه بموجب ترخيص Apache 2.0.
  • يولد النموذج الذي يحوي 2 مليار معلمة مقاطع فيديو مدتها 2-5 ثوانٍ بدقة 360p أو 720p، مع قدرات مقاربة لنموذج Alibaba Wan 2.1 1.3B.
  • ركز التطوير بشكل كبير على بناء خطوط أنابيب فعالة للانتقاء، بما في ذلك التسمية اليدوية للخصائص الجمالية وضبط النماذج اللغوية البصرية (VLMs) للتصفية على نطاق واسع.
  • يستخدم النموذج T5 لترميز النص، وWan 2.1 VAE للضغط، وعمود فقري من نوع DiT مدرب بتطابق التدفق.
  • تشمل نقاط القوة الحالية الأنماط الكارتونية والرسوم المتحركة، ومشاهد الطعام والطبيعة، والحركة البسيطة للشخصيات، بينما تظل الفيزياء المعقدة والحركة السريعة تحدياً.
  • يرى الشقيقان هذا العمل كخطوة نحو القدرات المتقدمة، مع خطط مستقبلية للتدريب اللاحق، والتكثيف، ودمج الصوت.

ملخص سريع

أكمل شقيقان رحلة دامت عامين لبناء نموذج تحويل النص إلى فيديو بالكامل من الصفر، وأطلقاه كبرنامج مفتوح المصدر. يوضح المشروع، الذي قاده ساهيل ومانو، أن المطورين المستقلين يمكنهم المنافسة في مجال الذكاء الاصطناعي المتقدم دون موارد شركات ضخمة.

يحتوي النموذج الناتج على مليارين من المعلمات ويمكنه إنشاء مقاطع فيديو قصيرة من أوصاف النص. على الرغم من عدم ادعاء المطابقة مع أداء الأنظمة التجارية مثل Sora أو Veo، إلا أن الشقيقان يرون عملهم كخطوة حاسمة نحو القدرات المتقدمة.

رحلة العامين

بدأ الشقيقان عملهما في أوائل عام 2024، وأطلقوا نموذجهم الأول في يناير من ذلك العام - قبل أن يتصدر OpenAI Sora العناوين. كان الإصدار الأول هو روبوت GIF بدقة 180p وثانية واحدة تم بناؤه على Stable Diffusion XL. ومع ذلك، سرعان ما اكتشفوا قيوداً أساسية في استخدام نماذج الصور لإنشاء الفيديو.

لا تفهم VAEs الصور التماسك الزمني، ومن دون بيانات التدريب الأصلية، من المستحيل تحقيق انتقال سلس بين توزيعات الصور والفيديو. في مرحلة ما، قرر الشقيقان أنه من الأفضل البدء من جديد بدلاً من محاولة إصلاح الحلول الحالية.

يمثل إصدارهم الثاني إعادة بناء كاملة من الأساس. يستخدم النموذج:

  • T5 لترميز النص
  • Wan 2.1 VAE للضغط
  • عمود فقري من نوع DiT مدرب بتطابق التدفق

من المثير للاهتمام، أنه على الرغم من بناء VAE زمني خاص بهم، إلا أنهم استخدموا في النهاية الإصدار الأصغر من Wan لأنه قدم أداءً مكافئاً مع توفير تكاليف التضمين. تعهد الشقيقان بإصدار VAE الخاص بهم كمصدر مفتوح قريباً.

"لستنا مدعين أننا وصلنا إلى الحدود. بالنسبة لنا، هذه خطوة نحو القدرات المتقدمة - دليل على أننا نستطيع تدريب هذه النماذج من البداية إلى النهاية بأنفسنا."

— ساهيل ومانو، مطورو النموذج

البنية التقنية

يولد النموذج 2-5 ثوانٍ من الفيديو بدقة 360p أو 720p. من حيث حجم النموذج، أقرب مقارنة هي نموذج Alibaba Wan 2.1 1.3B، على الرغم من أن الشقيقان يبلغون أن نموذجهم يحقق التقاط حركة وجماليات أفضل بشكل ملحوظ في اختباراتهم.

لم يذهب الجزء الأكبر من وقت التطوير على بنية النموذج نفسها، بل على بناء خطوط أنابيب انتقاء تعمل فعلياً. تضمن ذلك التسمية اليدوية للخصائص الجمالية وضبط النماذج اللغوية البصرية (VLMs) لتصفية بيانات التدريب على نطاق واسع.

عند سؤالهم عن نهجهم، شرح الشقيقان فلسفتهم:

المنتجات هي امتدادات للقدرات الأساسية للنموذج. إذا أراد المستخدمون ميزة لا يدعمها النموذج - مثل اتساق الشخصية، وضوابط الكاميرا، والتحرير، وتعيين الأنماط، إلخ - فأنت عالق. لبناء المنتج الذي نريده، نحتاج إلى تحديث النموذج نفسه.

وجهة النظر هذه تدفع قرارهم بالاستيلاء على عملية التطوير بالكامل، على الرغم من التكاليف الحسابية الكبيرة المترتبة على ذلك.

القدرات والقيود

يظهر النموذج نقاط قوة خاصة في مجالات محددة. من خلال الاختبار المكثف، حدد الشقيقان ما يعمل بشكل أفضل:

  • الأنماط الكارتونية والرسوم المتحركة
  • مشاهد الطعام والطبيعة
  • الحركة البسيطة للشخصيات

ومع ذلك، لا يزال النموذج يواجه تحديات في السيناريوهات الأكثر تعقيداً. المجالات التي لا تعمل بشكل جيد تشمل:

  • محاكاة الفيزياء المعقدة
  • تسلسلات الحركة السريعة (الجمباز، الرقص)
  • عرض النص بشكل متسق

الشقيقان شفافون بشأن موقع نموذجهم في المشهد الحالي. يصرحون بوضوح: "لستنا مدعين أننا وصلنا إلى الحدود." بدلاً من ذلك، يرون هذا الإصدار كإثبات للمفهوم - موضحين أنهم يستطيعون تدريب هذه النماذج من البداية إلى النهاية بأنفسهم.

لماذا بناء نموذج آخر؟

مع وجود عروض تجارية مثل Veo من Google وSora من OpenAI بالفعل، قد يبدو قرار الشقيقان بالبناء من الصفر غير منطقي. يركز تفكيرهم على التحكم في المنتج والمرونة.

عندما لا تدعم النماذج التجارية ميزات محددة، يُحد المطورون من قدرة تلك النماذج. يعتقد الشقيقان أنه لبناء المنتج الذي يصورونه، يحتاجون إلى تحديث النموذج نفسه. يتطلب ذلك الاستيلاء على عملية التطوير بدلاً من الاعتماد على واجهات برمجة التطبيقات الخارجية.

إنه رهان كبير يتطلب موارد حسابية كبيرة باستخدام وحدات معالجة الرسوميات (GPUs) ووقتاً ليدفع ثماره، لكنهم يعتقدون أنه الاستراتيجية الصحيحة على المدى الطويل. يسمح نهجهم لهم بـ:

  • تخصيص القدرات لحالات استخدام محددة
  • التكرار بسرعة على تحسينات النموذج
  • التحكم في تكنولوجيا المكدس بالكامل
  • بناء ميزات لا تدعمها النماذج التجارية

خارطة الطريق المستقبلية

رسم الشقيقان خارطة طريق واضحة للتطوير المستقبلي. تشمل أولوياتهم الفورية:

  • التدريب اللاحق للفيزياء والتشوهات
  • التكثيف لتحسين السرعة
  • دمج قدرات الصوت
  • توسيع النموذج للأداء المحسن

كما حافظوا على "مذكرة مختبر" مفصلة لجميع تجاربهم في Notion، وهم مستعدون لمشاركتها مع الآخرين المهتمين بالتفاصيل التقنية لبناء النماذج من الصفر إلى واحد.

أُطلق على النموذج ترخيص Apache 2.0، مما يجعله متاحاً مجاناً للاستخدام التجاري وغير التجاري. يتوافق هذا النهج المفتوح المصدر مع هدفهم في ديمقراطية الوصول إلى قدرات الذكاء الاصطناعي المتقدم.

النظر إلى الأمام

يمثل إطلاق هذا النموذج الذي يحوي 2 مليار معلمة أكثر من مجرد إنجاز تقني - إنه يوضح أن المطورين المستقلين يمكنهم المنافسة في مجال الذكاء الاصطناعي المتقدم مع الكفاءة والموارد الكافية. تُظهر رحلة الشقيقان التي استمرت عامين من روبوت GIF بدقة 180p إلى نموذج تحويل نص إلى فيديو متطور ما هو ممكن مع الجهد الموجه.

على الرغم من أن النموذج قد لا يضاهي بعد أداء العمالقة التجاريين، إلا أنه يعمل كـ خطوة نحو القدرات المتقدمة. التزام الشقيقان بالتطوير المفتوح المصدر

Continue scrolling for more

الذكاء الاصطناعي يحول البحث والبراهين الرياضية
Technology

الذكاء الاصطناعي يحول البحث والبراهين الرياضية

لقد انتقل الذكاء الاصطناعي من وعد متقطع إلى واقع ملموس في الرياضيات، حيث تستخدم نماذج التعلم الآلي الآن لدعم استنباط براهين أصلية. يجبر هذا التطور على إعادة تقييم طرق البحث والتدريس في هذا التخصص.

Just now
4 min
350
Read Article
مايكروسوفت تتعامل مع تعطلات خدمة بريد إلكتروني Outlook
Technology

مايكروسوفت تتعامل مع تعطلات خدمة بريد إلكتروني Outlook

أبلغ المستخدمون عن تعطلات واسعة في خدمات بريد إلكتروني Outlook على منصات التواصل الاجتماعي. يأتي الحادث بعد أشهر من تعطيل كبير عطل التطبيق لأكثر من 21 ساعة.

2h
5 min
6
Read Article
أسهم إنتل تهبط بعد إرشادات ضعيفة
Economics

أسهم إنتل تهبط بعد إرشادات ضعيفة

أعلنت إنتل عن أرباح الربع الرابع تفوق توقعات وول ستريت، لكنها قدمت إرشادات ضعيفة للربع الحالي، مما تسبب في انخفاض سهمها.

2h
5 min
6
Read Article
Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’
Society

Ms. Rachel Apologizes for Liking Antisemitic Instagram Comment: ‘I’m a Human Who Makes Mistakes’

Rachel Accurso, the prominent children’s entertainer known as Ms. Rachel, came under fire after screenshots circulated online that showed her Instagram account liking a comment that read, “Free america from the Jews.” The antisemitic comment appeared under a now-deleted post shared by Accurso that read “Free Palestine, Free Sudan, Free Congo, Free Iran.” The screenshots […]

3h
3 min
0
Read Article
تنبؤات إنتل بنمو أبطال بسبب ضغوط سلاسل التوريد
Economics

تنبؤات إنتل بنمو أبطال بسبب ضغوط سلاسل التوريد

تنبأت إنتل بنمو أبطال بسبب قيود سلاسل التوريد الشاملة للصناعة، مما يشير إلى تحديات مستمرة في قطاع الرقائق العالمي.

3h
5 min
6
Read Article
توقعات إيلون ماسك في دافوس: حقيقة الواقع
Technology

توقعات إيلون ماسك في دافوس: حقيقة الواقع

توقعات إيلون ماسك الجريئة في دافوس تغطي الروبوتات البشرية والسفر الفضائي وعلم الشيخوخة، لكن التاريخ يظهر نمطًا للتوقعات التي نادرًا ما تتحقق كما تمت صياغتها.

3h
5 min
9
Read Article
الترسانة الاقتصادية لأوروبا: السوق الموحد كسلاح استراتيجي
Politics

الترسانة الاقتصادية لأوروبا: السوق الموحد كسلاح استراتيجي

يبدأ مقال تحليلي في إبراز كيف بدأ قادة الاتحاد الأوروبي في استغلال القوة الاقتصادية للسوق الموحد كأداة استراتيجية في المفاوضات الدولية، مما يمثل تحولاً في السياسة الخارجية الأوروبية.

3h
5 min
6
Read Article
وزير الثقافة الإسرائيلي ينتقد الأفلام المرشحة للأوسكار
Politics

وزير الثقافة الإسرائيلي ينتقد الأفلام المرشحة للأوسكار

انتقد وزير الثقافة الإسرائيلي ميكي زوهار فيلمين إسرائيليين مرشحين للأوسكار، مدعياً أنهما "يعززان رواية أعدائنا" ويضران بسمعة البلاد، مما أثار جدلاً حول التمويل الحكومي للفن.

3h
5 min
6
Read Article
الولايات المتحدة تقدم عرضاً لاستضافة معرض إكسبو 2035 العالمي في ميامي
Politics

الولايات المتحدة تقدم عرضاً لاستضافة معرض إكسبو 2035 العالمي في ميامي

أعلنت الولايات المتحدة رسمياً عن ترشحها لاستضافة معرض إكسبو 2035 العالمي في ميامي، فلوريدا، حيث أشار الرئيس ترامب إلى أن هذا الحدث سيعزز العصر الذهبي الجديد لأمريكا.

3h
5 min
6
Read Article
ترامب يرفع دعوى قضائية بقيمة 5 مليارات دولار ضد جي بي مورغان تشيس بسبب إغلاق الحسابات
Politics

ترامب يرفع دعوى قضائية بقيمة 5 مليارات دولار ضد جي بي مورغان تشيس بسبب إغلاق الحسابات

رفع الرئيس السابق دونالد ترامب دعوى قضائية بقيمة 5 مليارات دولار ضد جي بي مورغان تشيس، مدعياً أن البنك أغلق حساباته بعد أحداث 6 يناير في الكابيتول هيل.

3h
7 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

العودة للرئيسية