تقطير الدوائر الرمزية: إثبات تكافؤ دائرة LLM

📋

حقائق رئيسية

يُدعى المشروع "تقطير الدوائر الرمزية" (Symbolic Circuit Distillation).
يستهدف الدوائر على مستوى العصبونات مثل تلك الموجودة في أعمال "دوائر متفرقة" (Sparse Circuits) الخاصة بـ OpenAI.
يستخدم المنهج فحص تكافؤ محدود القاعدة (SMT-based bounded equivalence checking) لإثبات تكافؤ البرنامج.
المهام الحالية تشمل إغلاق الاقتباسات وكشف عمق الأقواس.
الضمانات محدودة بمجالات رموز محدودة.

ملخص سريع

مشروع جديد في مجال التفسيرية يُدعى تقطير الدوائر الرمزية (Symbolic Circuit Distillation) يهدف إلى أتمتة تحويل الدوائر على مستوى العصبونات إلى برامج بايثون موجزة. تعتمد الطريقة على منهجية تبدأ برسم بياني للدائرة المُنقَّحة لسلوك معين، مثل إغلاق الاقتباسات، المستخرج من محول (transformer). ثم يتم تدريب شبكة استبدال ReLU لتتطابق مع الدائرة في مجال محدود، والبحث في لغة محددة النطاق (DSL) لتوليد برامج بايثون مرشحة. أخيراً، يتحقق فحص التكافؤ المحدود القائم على SMT من تطابق البرنامج مع الدائرة الأصلية. يسعى هذا النهج لضمانات قابلة للتحقق آلياً لسلوك الدائرة، متجاوزاً التحليل اليدوي.

منهجية التقطير

يقدم مشروع تقطير الدوائر الرمزية منهجية من أربع خطوات لأتمتة تفسير الدوائر العصبية. تبدأ العملية برسم بياني للدائرة المُنقَّحة لسلوك معين، مثل إغلاق الاقتباسات أو عمق الأقواس، مستخرجًا من نموذج محول (transformer). يتم التعامل مع هذه الدائرة كدالة قابلة للتنفيذ.

بعد ذلك، يتم تدريب شبكة ReLU صغيرة لت acted كـ "استبدال" (surrogate). صُمِّم هذا الاستبدال ليتطابق تمامًا مع سلوك الدائرة الأصلية على جميع المدخلات داخل مجال محدود، عادةً ما تكون تسلسلات بطول من 5 إلى 10 رموز. يقوم النظام بعد ذلك بالبحث في لغة محددة النطاق (DSL) مقيدة لدوائر المحولات (transformer) الشائعة لتوليد برامج بايثون مرشحة. تشمل هذه الدوائر عدادات، وبدالات، وكاشفات حدود، وآلات حالات صغيرة.

الخطوة الأخيرة تستخدم فحص التكافؤ المحدود القائم على SMT. تخدم هذه التقنية هدفين: إثبات أن البرنامج المرشح والاستبدال يتفقان على جميع المدخلات في المجال، أو إنتاج مدخلة معاكسة تُبطل البرنامج. إذا وجد الحل إثباتًا، تكون النتيجة دالة بايثون صغيرة وقابلة للقراءة من قبل البشر مصحوبة بضمان قابل للتحقق آلياً بأنه يتطابق مع الدائرة الأصلية في ذلك المجال المحدود.

الدافع والأهداف

بُني المشروع لمعالجة عنق زجاجة محدد في التفسيرية الميكانيكية (mechanistic interpretability). بينما أصبح هذا المجال ماهراً في استخراج "دوائر دقيقة صغيرة" من النماذج الكبيرة، فإن عملية تحويل تمثيلات الرسوم البيانية تلك إلى خوارزميات نظيفة وقابلة للقراءة من قبل البشر لا تزال يدوية إلى حد كبير. الهدف الأساسي لتقطير الدوائر الرمزية هو أتمتة هذه الخطوة الأخيرة.

بإزالة الحاجة إلى التوجيه اليدوي، يهدف المشروع إلى الانتقال مباشرة من "إليك دائرة متفرقة" إلى "إليك خوارزمية موثقة تشرح ما تفعله". تعتبر هذه الأتمتة حاسمة لتوسيع جهود التفسيرية إلى نماذج أكبر وسلوك أكثر تعقيداً. يضمن الاعتماد على الأساليب الرسمية أن الخوارزميات الناتجة ليست مجرد تخمينات، بل تنفيذات موثقة لمنطق الدائرة.

القدرات الحالية والقيود

اعتباراً من آخر تحديث، يُظهر النظام وظيفية على مهام محددة. يعالج بنجاح مهام إغلاق الاقتباسات وكشف عمق الأقواس المستخرجة من مستودع OpenAI circuit_sparsity. تحقق المنهجية مطابقة دقيقة للاستبدال في مجالات رموز محدودة وتستخدم قوالب DSL لعدادات وبدالات وآلات حالات صغيرة. تم إثبات التكافؤ المحدود القائم على SMT بين الدائرة المتفرقة، واستبدال ReLU، وبرنامج بايثون.

ومع ذلك، لا تزال هناك قيود كبيرة. الضمانات المقدمة محدودة بشكل صارم؛ يتم إثبات التكافؤ فقط على مجالات رموز محدودة تتكون من تسلسلات قصيرة ومفردات صغيرة. حالياً، يركز المشروع على دوائر صغيرة جداً. يمثل التوسع إلى دوائر أكبر وسياقات أطول عملاً مفتوحاً في الهندسة والبحث. بالإضافة إلى ذلك، تم تصميم DSL يدوياً حول دوائر محددة قليلة. لاحظ المبتكر أنه لا يتعلم DSL نفسها بعد ولا يستخدم استراتيجيات بحث متقدمة.

الاتجاهات المستقبلية والتعليقات

يبحث المبتكر بنشاط عن تعليقات على عدة جوانب من المشروع. على وجه الخصوص، يسأل ما إذا كان إطار المشكلة والضمانات المحدودة مثيرة للاهتمام لأولئك العاملين في التفسيرية الميكانيكية أو الأساليب الرسمية. يتم طلب اقتراحات للمهام القياسية التالية، وتحديداً أي دوائر أو سلوكيات يريد المجتمع رؤية استخلاصها بعد ذلك.

يتم البحث أيضًا عن تعليقات بخصوص تصميم DSL، واستراتيجية البحث، وإعداد SMT. يدعو المشروع إلى طرح أسئلة حول تفاصيل التنفيذ، وتشفير SMT، والتكامل مع المستودعات الحالية. يهدف هذا النهج المفتوح إلى تحسين الأداة بناءً على احتياجات المجتمع وتوسيع نطاق تطبيقها لطيف أوسع من سلوكيات الشبكات العصبية.

"أصبحت التفسيرية الميكانيكية جيدة جداً في استخراج 'دوائر دقيقة صغيرة' من النماذج الكبيرة، لكن تحويل تلك الرسوم البيانية إلى خوارزميات نظيفة وقابلة للقراءة من قبل البشر لا يزال يدوياً جداً."
— مبتكر المشروع

"هنا هدفي هو أتمتة هذه الخطوة الأخيرة: الانتقال من 'إليك دائرة متفرقة' إلى 'إليك خوارزمية موثقة تشرح ما تفعله'، دون توجيه يدوي."
— مبتكر المشروع

Key Facts: 1. The project is named Symbolic Circuit Distillation. 2. It targets neuron-level circuits like those in OpenAI's 'Sparse Circuits' work. 3. The pipeline uses SMT-based bounded equivalence checking to prove program equivalence. 4. Current tasks include quote closing and bracket-depth detection. 5. The guarantees are bounded to finite token domains. FAQ: Q1: What is Symbolic Circuit Distillation? A1: It is a project that automates the recovery of concise Python programs from neuron-level circuits, along with a bounded formal proof of equivalence. Q2: How does the verification process work? A2: It trains a ReLU surrogate to match the circuit, synthesizes Python programs via a DSL search, and uses SMT solvers to check bounded equivalence. Q3: What are the current limitations? A3: The system is currently limited to small circuits and short sequences, with guarantees restricted to finite token domains.