Символьная дистилляция цепей: Доказательство эквивалентности цепей LLM

📋

Ключевые факты

Проект называется Symbolic Circuit Distillation.
Он нацелен на нейронные цепи, подобные тем, что представлены в работе OpenAI «Sparse Circuits».
Конвейер использует SMT-проверку ограниченной эквивалентности для доказательства эквивалентности программы.
Текущие задачи включают закрытие кавычек и определение глубины скобок.
Гарантии ограничены конечными доменами токенов.

Краткая сводка

Новый проект по интерпретируемости под названием Symbolic Circuit Distillation нацелен на автоматизацию преобразования нейронных цепей уровня нейронов в лаконичные программы на Python. Метод использует конвейер, который начинается с графа обрезанной цепи, извлеченного из трансформера для конкретных поведений, таких как закрытие кавычек. Затем обучается ReLU-суррогатная сеть, чтобы соответствовать цепи в конечном домене, и выполняется поиск в ограниченном DSL для синтеза кандидатских программ. Наконец, SMT-проверка ограниченной эквивалентности подтверждает, что программа соответствует исходной цепи. Этот подход стремится обеспечить гарантии, проверяемые машиной, для поведения цепи, выходя за рамки ручного анализа.

Конвейер дистилляции

Проект Symbolic Circuit Distillation представляет четырехэтапный конвейер для автоматизации интерпретации нейронных цепей. Процесс начинается с графа обрезанной цепи для конкретного поведения, например закрытия кавычек или глубины скобок, извлеченного из модели-трансформера. Эта цепь рассматривается как исполняемая функция.

Затем обучается небольшая ReLU-сеть, чтобы действовать как «суррогат». Этот суррогат предназначен для точного соответствия поведению исходной цепи для всех входов в ограниченном домене, обычно последовательностей длиной от 5 до 10 токенов над небольшим алфавитом. Затем система выполняет поиск по ограниченному предметно-ориентированному языку (DSL) распространенных мотивов трансформеров для синтеза кандидатских программ на Python. Эти мотивы включают счетчики, переключатели, детекторы порогов и небольшие конечные автоматы.

Заключительный этап использует SMT-проверку ограниченной эквивалентности. Эта технология служит двум целям: она доказывает, что кандидатская программа и суррогат согласуются по всем входам в домене, или генерирует вход-контрпример, который исключает программу. Если решатель находит доказательство, результатом является небольшая, понятная человеку функция на Python, сопровождаемая гарантией, проверяемой машиной, о том, что она соответствует исходной цепи в этом ограниченном домене.

Мотивация и цели

Проект был создан для устранения конкретного узкого места в механистической интерпретируемости. Хотя эта область стала профессионально извлекать «маленькие четкие цепи» из больших моделей, процесс превращения этих графических представлений в чистые, понятные человеку алгоритмы остается в основном ручным. Главная цель Symbolic Circuit Distillation — автоматизировать этот заключительный шаг.

Устранив необходимость в ручном управлении, проект стремится перейти напрямую от «вот разреженная цепь» к «вот верифицированный алгоритм, объясняющий, что она делает». Эта автоматизация критически важна для масштабирования усилий по интерпретируемости к более крупным моделям и более сложным поведениям. Опора на формальные методы гарантирует, что результирующие алгоритмы — это не просто догадки, а верифицированные реализации логики цепи.

Текущие возможности и ограничения

На момент последнего обновления система демонстрирует функциональность в конкретных задачах. Она успешно обрабатывает задачи закрытия кавычек и определения глубины скобок, полученные из репозитория OpenAI circuit_sparsity. Конвейер достигает точного соответствия суррогата в конечных доменах токенов и использует шаблоны DSL для простых счетчиков, переключателей и небольших конечных автоматов. Устанавливается SMT-ограниченная эквивалентность между разреженной цепью, ReLU-суррогатом и программой на Python.

Однако сохраняются значительные ограничения. Предоставляемые гарантии строго ограничены; эквивалентность доказывается только в конечных доменах токенов, состоящих из коротких последовательностей и небольшого словаря. В настоящее время проект сосредоточен на очень маленьких цепях. Масштабирование к более крупным цепям и более длинным контекстам представляет собой открытую инженерную и исследовательскую работу. Кроме того, DSL спроектирован вручную вокруг нескольких конкретных мотивов. Создатель отметил, что они еще не изучают сам DSL и не используют расширенные стратегии поиска.

Будущие направления и обратная связь

Создатель активно ищет обратную связь по нескольким аспектам проекта. В частности, он спрашивает, интересны ли постановка задачи и ограниченные гарантии тем, кто работает в механистической интерпретируемости или формальных методах. Также запрашиваются предложения по следующим бенчмаркам, а именно: какие цепи или поведения сообщество хотело бы видеть дистиллированными в следующий раз.

Обратная связь также ищется относительно дизайна DSL, стратегии поиска и настройки SMT. Проект приглашает к вопросам о деталях реализации, кодировке SMT и интеграции с существующими репозиториями. Этот открытый подход направлен на усовершенствование инструмента на основе потребностей сообщества и расширение его применимости к более широкому спектру поведений нейронных сетей.

«Механистическая интерпретируемость стала довольно хороша в извлечении «маленьких четких цепей» из больших моделей, но превращение этих графов в чистые, понятные человеку алгоритмы — это все еще очень ручной процесс».
— Создатель проекта

«Моя цель здесь — автоматизировать этот последний шаг: перейти от «вот разреженная цепь» к «вот верифицированный алгоритм, объясняющий, что она делает», без ручного управления».
— Создатель проекта

Key Facts: 1. The project is named Symbolic Circuit Distillation. 2. It targets neuron-level circuits like those in OpenAI's 'Sparse Circuits' work. 3. The pipeline uses SMT-based bounded equivalence checking to prove program equivalence. 4. Current tasks include quote closing and bracket-depth detection. 5. The guarantees are bounded to finite token domains. FAQ: Q1: What is Symbolic Circuit Distillation? A1: It is a project that automates the recovery of concise Python programs from neuron-level circuits, along with a bounded formal proof of equivalence. Q2: How does the verification process work? A2: It trains a ReLU surrogate to match the circuit, synthesizes Python programs via a DSL search, and uses SMT solvers to check bounded equivalence. Q3: What are the current limitations? A3: The system is currently limited to small circuits and short sequences, with guarantees restricted to finite token domains.