Fatos Principais
- A ferramenta usa Claude Code para consultar um banco de dados público de somente leitura com SQL e vetores.
- Cobre Hacker News, arXiv, LessWrong e outros sites de domínio público.
- Os dados atuais incluem 1,4 milhão de posts e 15,6 milhões de comentários usando Voyage-3.5-lite.
- Recursos incluem um sistema de Alertas para notificações por e-mail com critérios específicos.
- A busca vetorial composicional permite filtrar por sentimento e tópico simultaneamente.
Resumo Rápido
Um desenvolvedor apresentou uma poderosa ferramenta de pesquisa que utiliza o Claude Code para consultar um enorme banco de dados público de somente leitura com SQL e vetores. Este sistema agrega dados de vários sites de domínio público de alta qualidade, incluindo Hacker News, arXiv e LessWrong. A ferramenta foi projetada para responder a perguntas complexas gerando consultas SQL sofisticadas que são executadas com segurança na máquina do desenvolvedor.
Os principais recursos incluem um sistema de alertas automatizado e capacidades avançadas de busca vetorial composicional. Atualmente, o banco de dados hospeda 1,4 milhão de posts e 15,6 milhões de comentários incorporados com Voyage-3.5-lite. Embora o desenvolvedor pretenda expandir a cobertura, as limitações financeiras impedem atualmente a incorporação de todas as fontes disponíveis.
Funcionalidade Principal e Arquitetura
A ferramenta de pesquisa opera permitindo que os usuários coleem um prompt no Claude Code que contém uma chave de API incorporada. Esta chave concede acesso a um banco de dados público de somente leitura que contém dados tanto de SQL quanto de vetores. A função principal da ferramenta é permitir pesquisas de ponta através de uma ampla gama de fontes de dados públicas.
Em vez de executar consultas diretamente em plataformas externas, o Claude gera "consultas SQL monstruosas" que são executadas com segurança na máquina local do desenvolvedor. Essa abordagem permite o processamento de questões complexas e sutis que mecanismos de busca padrão podem ter dificuldade em responder. O sistema atua efetivamente como um intermediário, traduzindo a intenção do usuário em comandos executáveis de banco de dados.
O banco de dados agrega atualmente dados de dezenas de sites de domínio público de alta qualidade. A escala dos dados atualmente incorporados inclui:
- 1,4 milhão de posts
- 4,6 milhões de posts no total (total implícito)
- 15,6 milhões de comentários
- 38 milhões de comentários no total (total implícito)
Essas incorporações são geradas usando o modelo Voyage-3.5-lite.
Busca Avançada e Alertas 📢
Além da consulta simples, a ferramenta oferece capacidades de busca sofisticadas e um sistema de alertas automatizado. A funcionalidade de Alertas é particularmente útil para monitorar tópicos específicos e difíceis de rastrear. Os usuários podem pedir ao Claude para enviar uma consulta SQL como um alerta, o que aciona uma notificação por e-mail sempre que os critérios ultrassutis são atendidos e a saída muda.
Por exemplo, um usuário pode configurar um alerta para ser notificado quando alguém postar sobre "estrogênio" em um contexto psicoativo, ou quando forem usadas metáforas de biologia suficientes em discussões sobre construção de infraestrutura. Isso permite um monitoramento preciso de tópicos de nicho em todo o domínio público.
O sistema também suporta busca vetorial composicional, uma técnica que permite filtragem altamente específica. Um exemplo fornecido demonstra como buscar escrita sobre a "crise da FTX" que seja distintamente livre de tons de culpa, mas que ainda possa mencionar a palavra "culpa". Isso é alcançado através de uma estrutura de consulta semelhante a: @FTX_crisis - (@guilt_tone - @guilt_topic).
Escopo e Limitações
O projeto visa incorporar "tudo e todas as outras fontes" para criar um ambiente de pesquisa abrangente. No entanto, o desenvolvedor observa uma limitação significativa em relação aos recursos. Embora a capacidade técnica exista para incorporar fontes adicionais de forma barata, o desenvolvedor afirma que "literalmente não tem dinheiro" para expandir o conjunto de dados neste momento.
Apesar dessas restrições financeiras, a implementação atual cobre um vasto panorama de informações. Ao focar em sites como Hacker News, arXiv e LessWrong, a ferramenta visa comunidades conhecidas por discurso técnico e intelectual de alta qualidade. A capacidade de consultar esses conjuntos de dados específicos através de prompts de linguagem natural representa um passo significativo em direção à análise de dados acessível.
Conclusão
A introdução desta ferramenta de pesquisa impulsada pelo Claude Code demonstra o potencial de grandes modelos de linguagem para interagir com conjuntos de dados massivos e especializados. Ao combinar geração de SQL, busca vetorial e alertas automatizados, o sistema fornece uma estrutura robusta para pesquisas aprofundadas em dados de domínio público. Embora atualmente limitado por financiamento, o protótipo existente oferece um vislumbre do futuro da recuperação automatizada e sutil de informações.


