Ключевые факты
- Инструмент использует Claude Code для запросов к публичной базе данных SQL и векторов с доступом только для чтения.
- Он охватывает Hacker News, arXiv, LessWrong и другие общедоступные ресурсы.
- Текущие встроенные данные включают 1,4 млн постов и 15,6 млн комментариев с использованием Voyage-3.5-lite.
- Функции включают систему оповещений об электронной почте при выполнении определенных критериев.
- Составной векторный поиск позволяет фильтровать по тональности и теме одновременно.
Краткое содержание
Разработчик представил мощный инструмент для исследований, который использует Claude Code для запросов к массивной публичной базе данных SQL и векторов с доступом только для чтения. Эта система агрегирует данные с различных высококачественных общедоступных ресурсов, включая Hacker News, arXiv и LessWrong. Инструмент предназначен для ответов на сложные вопросы путем генерации комплексных SQL-запросов, которые безопасно выполняются на локальной машине разработчика.
Ключевые функции включают автоматизированную систему оповещений и возможности продвинутого составного векторного поиска. В настоящее время база данных содержит 1,4 миллиона постов и 15,6 миллиона комментариев, встроенных с помощью Voyage-3.5-lite. Хотя разработчик стремится расширить охват, финансовые ограничения в настоящее время препятствуют встраиванию всех доступных источников.
Основная функциональность и архитектура
Инструмент для исследований работает, позволяя пользователям вставлять промпт в Claude Code, который содержит встроенный API-ключ. Этот ключ предоставляет доступ к публичной базе данных только для чтения, содержащей как SQL, так и векторные данные. Основная функция инструмента — обеспечить современные исследования широкого спектра источников публичных данных.
Вместо того чтобы выполнять запросы напрямую на внешних платформах, Claude генерирует «монструозные SQL-запросы», которые безопасно выполняются на локальной машине разработчика. Этот подход позволяет обрабатывать сложные, тонкие вопросы, на которые стандартные поисковые системы могут затрудниться с ответом. Система эффективно действует как посредник, преобразуя намерения пользователя в исполняемые команды базы данных.
В настоящее время база данных агрегирует данные с десятков высококачественных общедоступных ресурсов. Масштаб данных, встроенных в настоящее время, включает:
- 1,4 миллиона постов
- 4,6 миллиона постов всего (подразумеваемая общая сумма)
- 15,6 миллиона комментариев
- 38 миллионов комментариев всего (подразумеваемая общая сумма)
Эти векторные представления генерируются с использованием модели Voyage-3.5-lite.
Расширенный поиск и оповещения 📢
Помимо простого запроса, инструмент предлагает сложные возможности поиска и автоматизированную систему оповещений. Функциональность Оповещений особенно полезна для мониторинга конкретных, трудноотслеживаемых тем. Пользователи могут попросить Claude отправить SQL-запрос в качестве оповещения, которое вызывает уведомление по электронной почте, когда выполняются ультратонкие критерии и изменяется результат.
Например, пользователь может настроить оповещение, чтобы получать уведомления, когда кто-то публикует информацию об «эстрогене» в психоактивном контексте, или когда в обсуждениях строительства инфраструктуры используется достаточно биологических метафор. Это позволяет осуществлять точный мониторинг нишевых тем в рамках общедоступных ресурсов.
Система также поддерживает составной векторный поиск — технику, которая позволяет проводить очень точную фильтрацию. Приведенный пример демонстрирует, как искать тексты о «кризисе FTX», которые явно свободны от виноватых тонов, но при этом могут упоминать слово «вина». Этого достигается с помощью структуры запроса, напоминающей: @FTX_crisis - (@guilt_tone - @guilt_topic).
Охват и ограничения
Проект направлен на встраивание «всего и всех остальных источников» для создания комплексной исследовательской среды. Однако разработчик отмечает значительное ограничение, касающееся ресурсов. Хотя техническая возможность встраивать дополнительные источники дешево существует, разработчик заявляет, что у него «буквально нет денег» для дальнейшего расширения набора данных в настоящее время.
Несмотря на эти финансовые ограничения, текущая реализация охватывает огромный ландшафт информации. Фокусируясь на таких сайтах, как Hacker News, arXiv и LessWrong, инструмент нацелен на сообщества, известные высококачественными техническими и интеллектуальными дискуссиями. Возможность запрашивать эти конкретные наборы данных с помощью естественных языковых промптов представляет собой значительный шаг вперед в области доступного анализа данных.
Заключение
Внедрение этого инструмента для исследований на базе Claude Code демонстрирует потенциал больших языковых моделей для взаимодействия с массивными, специализированными наборами данных. Комбинируя генерацию SQL, векторный поиск и автоматизированные оповещения, система обеспечивает надежную основу для глубоких исследований данных общедоступных ресурсов. Хотя в настоящее время она ограничена финансированием, существующий прототип дает представление о будущем автоматизированной, тонкой выборки информации.




