📋

حقائق رئيسية

  • Z80-μLM هو نموذج لغوي على مستوى الحرف بأوزان مكتملة 2 بت.
  • يتناسب النظام بالكامل في ملف .COM بحجم 40 كيلوبايت.
  • يعمل على معالج Z80 بذاكرة وصول عشوائي 64 كيلوبايت.
  • يمكن للنموذج لعب نسخة مبسطة من لعبة 20 سؤالاً.
  • استُخدم في التدريب التدريب المدرك للكمّ مع مقدّرات التمرير المباشر.

ملخص سريع

مشروع جديد يُظهر جدوى الذكاء الاصطناعي المحادثي على الأجهزة القديمة. Z80-μLM هو نموذج لغوي على مستوى الحرف مُصمم خصيصاً للعمل ضمن الحدود الصارمة لـ معالج Z80 وذاكرة وصول عشوائي 64 كيلوبايت. على عكس نماذج اللغة الكبيرة الحديثة التي تتطلب جيجابايت من الذاكرة ووحدات معالجة الرسوميات القوية، يتناسب هذا النموذج مع pilه كاملاً في ملف 40 كيلوبايت .COM مضغوط. وهذا يسمح له بالعمل على الأجهزة الحقيقية أو المحاكيات التي تدعم نظام التشغيل CP/M.

يستخدم النموذج أوزان مكتملة 2 بت بقيم محدودة إلى {-2، -1، 0، +1}. بينما يفتقر إلى القدرة على مهام الكتابة العامة، فإنه قادر على لعب نسخة مبسطة من 20 سؤالاً والمشاركة في محادثات قصيرة ذات شخصية مميزة. يسلط هذا الإنجاز الضوء على كيف يمكن للقيود الشديدة أن تقود إلى حلول هندسية مبتكرة في تطوير الذكاء الاصطناعي.

الهندسة المعمارية والقيود

تطوير نموذج ذكاء اصطناعي يعمل على أجهزة من أواخر سبعينيات القرن العشرين تطلب إعادة التفكير الكامل في تقنيات التعلم العميق الحديثة. واجه المطور تحدي ت fitting منطق الاستدلال، أوزان النموذج، و واجهة مستخدم الدردشة في ثنائي 40 كيلوبايت. لتحقيق ذلك، يعتمد المشروع على تشفير الترامي التكراري (trigram hashing)، وهي تقنية تتحمل الأخطاء الإملائية لكنها تضحي بترتيب الكلمات. بالإضافة إلى ذلك، يستخدم النظام الرياضيات الصحيحة 16 بت بدلاً من الأعداد العشرية المتعارف عليها في الذكاء الاصطناعي المعاصر.

تأثرت الهندسة المعمارية بشدة بحاجة المطابقة مع حدود أجهزة Z80. على وجه التحديد، كان على المطور أن يأخذ في الاعتبار حدود أكمل 16 بت للمعالج. صُمم عملية التدريب للتعامل مع هذه القيود من البداية، مما يضمن أن النموذج لا يتطلب تعديلات ما بعد التدريب التي قد تسبب انهيار الكمية.

منهجية التدريب 🧠

يكمن مفتاح نجاح Z80-μLM في منهجية تدريبه الفريدة، المعروفة باسم التدريب المدرك للكمّ (quantization-aware training). بدلاً من تدريب نموذج قياسي ثم ضغطه لاحقاً، قام المطور بتشغيل تمريرين للأمام بشكل متوازٍ أثناء التدريب: أحدهما باستخدام الأعداد العشرية القياسية والآخر باستخدام القيم الصحيحة المكتملة. وهذا سمح للنظام بتقييم النموذج على مدى نجاح معرفته في البقاء على قيد الحياة بعد عملية الكمية.

دفع حلقة التدريب الأوزان بنشاط نحو شبكة 2 بت باستخدام مقدرات التمرير المباشر (straight-through estimators). لمنع الأخطاء، طبق النظام عقوبات طفو تُحاكي حدود أكمل 16 بت لـ Z80. أensureت هذه الطريقة أنه بحلول نهاية التدريب، تكيف النموذج بالكامل مع قيود جهازه المستهدف، مما يزيل خطر انهيار الكمية بعد التدريب.

توليد البيانات والقدرات

لتعليم النموذج كيفية لعب لعبة 20 سؤالاً، احتاج المطور إلى مجموعة بيانات محددة. استخدم المشروع واجهة برمجة التطبيقات Claude API لتوليد بيانات التدريب هذه. تم إنفاق بضع دولارات على واجهة برمجة التطبيقات لإنشاء أمثلة مناسبة لصيغة اللعبة المبسطة. تسمح هذه البيانات للنظام بالعمل كشريك محادثة في سياق محدود.

رغم صغر حجمه، قادر Z80-μLM على الحفاظ على وهم المحادثة. يمتلك شخصية مميزة ويمكنه المشاركة في تبادلات مقتضبة. ومع ذلك، فإن فائدتها محددة بشكل صارم بمجموعة بيانات التدريب؛ لا يمكنه التعميم إلى مهام مثل كتابة البريد الإلكتروني أو التفكير المعقد، ويركز بدلاً من ذلك على محادثته المحددة.

الخاتمة

يمثل Z80-μLM تقاطعاً مثيراً للاهتمام بين الحوسبة القديمة وتقنيات الذكاء الاصطناعي الحديثة. من خلال الالتزام الصارم بحدود ذاكرة الوصول العشوائي 64 كيلوبايت و حجم الملف 40 كيلوبايت، يثبت المشروع أن تفاعلات الذكاء الاصطناعي المفيدة ممكنة حتى على الأجهزة الشديدة القيود. إن استخدام التدريب المدرك للكمّ و الرياضيات الصحيحة يقدم خارطة طريق للمشاريع المستقبلية التي تهدف إلى تشغيل الذكاء الاصطناعي على الأنظمة المدمجة أو الأجهزة القديمة. بينما قد لا يحل محل المساعدين الحديثين، فإنه يقف كإنجاز تقني مهم في غولف الكود وتصميم النماذج الفعال.