📋

Ключевые факты

  • Инструмент использует Claude Code для запросов к публичной базе данных SQL и векторов с доступом только для чтения.
  • Он охватывает Hacker News, arXiv, LessWrong и другие общедоступные ресурсы.
  • Текущие встроенные данные включают 1,4 млн постов и 15,6 млн комментариев с использованием Voyage-3.5-lite.
  • Функции включают систему оповещений об электронной почте при выполнении определенных критериев.
  • Составной векторный поиск позволяет фильтровать по тональности и теме одновременно.

Краткое содержание

Разработчик представил мощный инструмент для исследований, который использует Claude Code для запросов к массивной публичной базе данных SQL и векторов с доступом только для чтения. Эта система агрегирует данные с различных высококачественных общедоступных ресурсов, включая Hacker News, arXiv и LessWrong. Инструмент предназначен для ответов на сложные вопросы путем генерации комплексных SQL-запросов, которые безопасно выполняются на локальной машине разработчика.

Ключевые функции включают автоматизированную систему оповещений и возможности продвинутого составного векторного поиска. В настоящее время база данных содержит 1,4 миллиона постов и 15,6 миллиона комментариев, встроенных с помощью Voyage-3.5-lite. Хотя разработчик стремится расширить охват, финансовые ограничения в настоящее время препятствуют встраиванию всех доступных источников.

Основная функциональность и архитектура

Инструмент для исследований работает, позволяя пользователям вставлять промпт в Claude Code, который содержит встроенный API-ключ. Этот ключ предоставляет доступ к публичной базе данных только для чтения, содержащей как SQL, так и векторные данные. Основная функция инструмента — обеспечить современные исследования широкого спектра источников публичных данных.

Вместо того чтобы выполнять запросы напрямую на внешних платформах, Claude генерирует «монструозные SQL-запросы», которые безопасно выполняются на локальной машине разработчика. Этот подход позволяет обрабатывать сложные, тонкие вопросы, на которые стандартные поисковые системы могут затрудниться с ответом. Система эффективно действует как посредник, преобразуя намерения пользователя в исполняемые команды базы данных.

В настоящее время база данных агрегирует данные с десятков высококачественных общедоступных ресурсов. Масштаб данных, встроенных в настоящее время, включает:

  • 1,4 миллиона постов
  • 4,6 миллиона постов всего (подразумеваемая общая сумма)
  • 15,6 миллиона комментариев
  • 38 миллионов комментариев всего (подразумеваемая общая сумма)

Эти векторные представления генерируются с использованием модели Voyage-3.5-lite.

Расширенный поиск и оповещения 📢

Помимо простого запроса, инструмент предлагает сложные возможности поиска и автоматизированную систему оповещений. Функциональность Оповещений особенно полезна для мониторинга конкретных, трудноотслеживаемых тем. Пользователи могут попросить Claude отправить SQL-запрос в качестве оповещения, которое вызывает уведомление по электронной почте, когда выполняются ультратонкие критерии и изменяется результат.

Например, пользователь может настроить оповещение, чтобы получать уведомления, когда кто-то публикует информацию об «эстрогене» в психоактивном контексте, или когда в обсуждениях строительства инфраструктуры используется достаточно биологических метафор. Это позволяет осуществлять точный мониторинг нишевых тем в рамках общедоступных ресурсов.

Система также поддерживает составной векторный поиск — технику, которая позволяет проводить очень точную фильтрацию. Приведенный пример демонстрирует, как искать тексты о «кризисе FTX», которые явно свободны от виноватых тонов, но при этом могут упоминать слово «вина». Этого достигается с помощью структуры запроса, напоминающей: @FTX_crisis - (@guilt_tone - @guilt_topic).

Охват и ограничения

Проект направлен на встраивание «всего и всех остальных источников» для создания комплексной исследовательской среды. Однако разработчик отмечает значительное ограничение, касающееся ресурсов. Хотя техническая возможность встраивать дополнительные источники дешево существует, разработчик заявляет, что у него «буквально нет денег» для дальнейшего расширения набора данных в настоящее время.

Несмотря на эти финансовые ограничения, текущая реализация охватывает огромный ландшафт информации. Фокусируясь на таких сайтах, как Hacker News, arXiv и LessWrong, инструмент нацелен на сообщества, известные высококачественными техническими и интеллектуальными дискуссиями. Возможность запрашивать эти конкретные наборы данных с помощью естественных языковых промптов представляет собой значительный шаг вперед в области доступного анализа данных.

Заключение

Внедрение этого инструмента для исследований на базе Claude Code демонстрирует потенциал больших языковых моделей для взаимодействия с массивными, специализированными наборами данных. Комбинируя генерацию SQL, векторный поиск и автоматизированные оповещения, система обеспечивает надежную основу для глубоких исследований данных общедоступных ресурсов. Хотя в настоящее время она ограничена финансированием, существующий прототип дает представление о будущем автоматизированной, тонкой выборки информации.