📋

حقائق رئيسية

  • أسست في-في لي مختبرات العالم (World Labs) في 2024 بدعم أولي قدره 230 مليون دولار
  • يطلق يان ليكون مختبرات الذكاء الآلي المتقدم (AMI Labs) بعد مغادرته ميتا
  • تقلد نماذج العالم البنية العقلية البشرية للتنبؤ بالنتائج
  • كشفت مونفالي عن ماري، أول نموذج لتوليد الفيديو، في مارس
  • تتطلب نماذج العالم فهم البيئات ثلاثية الأبعاد والواقع المادي

ملخص سريع

يقوم باحذو الذكاء الاصطناعي الرائدون بتطوير نماذج عالمية بديلاً للنماذج اللغوية الكبيرة. يقوم علماء الكمبيوتر مثل في-في لي ويان ليكون ببناء أنظمة تقلد البنية العقلية البشرية للتنبؤ بالنتائج.

على عكس النماذج اللغوية الكبيرة التي تحدد المخرجات بناءً على العلاقات الإحصائية بين الكلمات، تهدف نماذج العالم إلى فهم الواقع المادي والتنبؤ به. تواجه هذه الأنظمة تحديات في البيانات لكنها تقدم تطبيقات في الروبوتات والرعاية الصحية والمجالات الإبداعية.

ما هي نماذج العالم؟

تمثل نماذج العالم تحولاً جذرياً في بحث الذكاء الاصطناعي. على عكس النماذج اللغوية الكبيرة التي تعالج النص عبر الأنماط الإحصائية، تحاول هذه الأنظمة تقلد البنية العقلية التي يخلقها البشر لفهم بيئتهم.

بينما يستثمر أوبن إيه آي وأنثروبيك وشركات التكنولوجيا الكبرى مليارات الدولارات في النماذج اللغوية، يسعى مجموعة صغيرة من الباحثين المختارين إلى ما يعتبرونه الاختراق التالي. يتعلق المفهوم الأساسي بإنشاء أنظمة ذكاء اصطناعي تتنبأ بما سيحدث بعد ذلك، تماماً كما يستخدم البشر الحدس بناءً على الخبرة.

شرح البروفيسور جاي رايت فورستر هذا المفهوم في ورقته البحثية عام 1971، ملاحظاً أن البشر يستخدمون باستمرار النماذج العقلية لاتخاذ القرارات. تمثل هذه النماذج المفاهيم والعلاقات المختارة بدلاً من احتواء الواقع الفعلي. إذا كان الذكاء الاصطناعي يجب أن يتجاوز الذكاء البشري، يعتقد الباحثون أنه يجب أن يطور قدرات نمذجة مماثلة.

مختبرات العالم الخاصة بفي-في لي

في-في لي، البروفيسورة في ستانفورد المعروفة باختراع ImageNet، أسست مختبرات العالم (World Labs) في 2024 مع دعم أولي قدره 230 مليون دولار من شركات رأس المال الجريء بما في ذلك أندريسن هورويتز، ونيو إنتربرايز أسوسييتس، وريدكال فينتشرز.

تتمثل المهمة المعلنة للشركة في رفع نماذج الذكاء الاصطناعي من المستوى ثنائي الأبعاد للبكسل إلى عالم ثلاثي الأبعاد كاملاً، افتراضي وحقيقي، ومنحها ذكاءً مكانيًا غنياً مثل ذكاءنا. عرفت لي الذكاء المكاني على أنه القدرة على فهم والاستدلال والتفاعل وتوليد العوالم ثلاثية الأبعاد.

ترى لي تطبيقات لنماذج العالم في عدة مجالات:

  • المجالات الإبداعية التي تتطلب عوالم لا نهائية
  • الروبوتات والتفاعل المادي
  • أي مجال يحتاج استدلالًا ثلاثي الأبعاد معقدًا

التحدي الأساسي هو ندرة البيانات. على عكس اللغة، التي صقلها البشر على مدى قرون، فإن الذكاء المكاني أقل تطوراً. تلاحظ لي أن إنشاء نماذج ثلاثية الأبعاد مفصلة لبيئتك المباشرة يصعب بشكل مفاجئ بدون تدريب. يتطلب جمع البيانات الكافية هندسة ومعالجة وتمثيل وتصنيعاً متقدماً.

مختبرات الذكاء الآلي المتقدم الخاصة بيان ليكون

يان ليكون، عالم الذكاء الاصطناعي الرئيسي السابق في ميتا، يطلق مختبرات الذكاء الآلي المتقدم (AMI Labs) لبناء نماذج عالمية يعتبرها أكفاء من النماذج اللغوية الكبيرة. يجادل ليكون بأن هذه الأنظمة تمتلك الحس المشترك وقدرة الاستدلال وقدرة التخطيط والذاكرة المستمرة.

في منشور على لينكد إن في نوفمبر، ذكر ليكون أن مختبرات AMI تهدف إلى إحداث الثورة الكبيرة التالية في الذكاء الاصطناعي: أنظمة تفهم العالم المادي، وتمتلك ذاكرة مستمرة، ويمكنها الاستدلال، والتخطيط لسلاسل إجراءات معقدة.

في 19 ديسمبر، أعلن ليكون أنه استقطب ألكس لوبرون، المؤسس المشارك والرئيس التنفيذي لنابلا، كرئيس تنفيذي لمختبرات AMI. ذكر لوبرون أن الذكاء الاصطناعي للرعاية الصحية يدخل عصراً حيث يهم الموثوقية والeterminism والمحاكاة بقدر الذكاء اللغوي. وأضاف أن الوصول إلى تكنولوجيا نماذج العالم سيكمل النماذج اللغوية الكبيرة الحالية وسيساعد في إطلاق أنظمة مستقلة آمنة للعيادات.

قبل إطلاق مختبرات AMI، عمل ليكون على بحث مماثل في ميتا باستخدام بيانات الفيديو لتدريب النماذج. يتضمن النهج تشغيل محاكاة تلخص الفيديو على مستويات مختلفة بدلاً من التنبؤ على مستوى البكسل. هذا يخلق تمثيلاً مجرداً يزيل التفاصيل غير القابلة للتنبؤ بينما يتيح التنبؤات ضمن هذا التمثيل.

مونفالي والتطبيقات الصناعية

مونفالي (Moonvalley)، التي أسسها باحثون سابقون في ديب مايند، تطور بصرامة نماذج عالمية لذكاء الاصطناعي التوليدي للفيديو. في مارس، كشفت الشركة عن ماري (Marey)، أول نموذج لتوليد الفيديو لديها.

شرح ماتيوش مالينوفسكي، المدير العلمي لـ مونفالي، أن الشركة تفكر في نماذج العالم والذكاء المتعدد الوسائط البصري. الهدف هو التحرك beyond الأنظمة البصرية البحتة إلى نماذج تفهم ليس فقط ما تراه، بل كيف يعمل العالم.

التطبيقات لنماذج العالم تشمل:

  • الروبوتات البشرية الشكل
  • التخطيط في العالم الحقيقي
  • صناعة الأفلام مع نمذجة الحركة
  • نمذجة الأجسام المرنة

لاحظ مالينوفسكي أنه بينما تشارك نماذج العالم أهدافاً طويلة المدى، تختلف النهج بين الشركات. تركز مونفالي على استخدام نماذج الفيديو كعناصر أساسية، حيث يكون الذكاء المكاني أكثر ضمنية. يبدو هذا النهج أكثر ملاءمة لصناعة الأفلام والروبوتات على المدى القصير بسبب قدرات نمذجة الحركة والأجسام المرنة.

"البشر ليس فقط نحن نعيش ونعمل، لكننا نبني الحضارة beyond اللغة."

— في-في لي

"نهدف إلى رفع نماذج الذكاء الاصطناعي من المستوى ثنائي الأبعاد للبكسل إلى عالم ثلاثي الأبعاد كاملاً — افتراضي وحقيقي — ومنحها ذكاءً مكانيًا غنياً مثل ذكاءنا."

— مختبرات العالم

"إذا طلبت منك أن تغلق عينيك الآن وترسم أو تبني نموذجاً ثلاثي الأبعاد للبيئة من حولك، ليس بالأمر السهل."

— في-في لي

"نحتاج إلى هندسة بيانات ومعالجة بيانات وتمثيل بيانات أكثر تطوراً."

— في-في لي

"إحداث الثورة الكبيرة التالية في الذكاء الاصطناعي: أنظمة تفهم العالم المادي، وتمتلك ذاكرة مستمرة، ويمكنها الاستدلال، والتخطيط لسلاسل إجراءات معقدة."

— يان ليكون

"يدخل الذكاء الاصطناعي للرعاية الصحية عصراً جديداً، عصراً حيث تهم الموثوقية والeterminism والمحاكاة بقدر الذكاء اللغوي."

— ألكس لوبرون

"الفكرة الأساسية هي أنك لا تتنبأ على مستوى البكسل. تدرب نظاماً لتشغيل تمثيل مجرد للفيديو حتى تتمكن من التنبؤ في هذا التمثيل المجرد، ونأمل أن يزيل هذا التمثيل جميع التفاصيل التي لا يمكن التنبؤ بها."

— يان ليكون

"نحن نفكر في نماذج العالم والذكاء المتعدد الوسائط البصري. نريد التحرك beyond الأنظمة البصرية البحتة إلى شيء أوسع نطاقاً — نماذج تفهم ليس فقط ما تراه، بل كيف يعمل العالم."

— ماتيوش مالينوفسكي