📋

Hechos Clave

  • La herramienta utiliza Claude Code para consultar una base de datos pública de solo lectura con SQL y vectores.
  • Cubre Hacker News, arXiv, LessWrong y otros sitios del espacio público.
  • Los datos actuales incluyen 1.4 millones de publicaciones y 15.6 millones de comentarios usando Voyage-3.5-lite.
  • Incluye un sistema de Alertas para notificaciones por correo electrónico según criterios específicos.
  • La búsqueda vectorial compositiva permite filtrar por sentimiento y tema simultáneamente.

Resumen Rápido

Un desarrollador ha presentado una potente herramienta de investigación que aprovecha Claude Code para consultar una enorme base de datos pública de solo lectura con SQL y vectores. Este sistema agrega datos de varios sitios de alta calidad del espacio público, incluyendo Hacker News, arXiv y LessWrong. La herramienta está diseñada para responder preguntas complejas generando consultas SQL sofisticadas que se ejecutan de forma segura en la máquina del desarrollador.

Las características clave incluyen un sistema de alertas automatizado y capacidades avanzadas de búsqueda vectorial compositiva. Actualmente, la base de datos aloja 1.4 millones de publicaciones y 15.6 millones de comentarios incrustados con Voyage-3.5-lite. Aunque el desarrollador busca ampliar la cobertura, las limitaciones financieras impiden por ahora incrustar todas las fuentes disponibles.

Funcionalidad Principal y Arquitectura

La herramienta de investigación opera permitiendo a los usuarios pegar un prompt en Claude Code que contenga una clave API incrustada. Esta clave otorga acceso a una base de datos pública de solo lectura que contiene tanto datos SQL como vectoriales. La función principal de la herramienta es permitir una investigación de vanguardia a través de una amplia gama de fuentes de datos públicas.

En lugar de ejecutar consultas directamente en plataformas externas, Claude genera "consultas SQL monstruosas" que se ejecutan de forma segura en la máquina local del desarrollador. Este enfoque permite el procesamiento de preguntas complejas y matizadas que los motores de búsqueda estándar podrían tener dificultades para responder. El sistema actúa efectivamente como un intermediario, traduciendo la intención del usuario en comandos de base de datos ejecutables.

La base de datos agrega actualmente datos de docenas de sitios de alta calidad del espacio público. La escala de los datos actualmente incrustados incluye:

  • 1.4 millones de publicaciones
  • 4.6 millones de publicaciones totales (total implícito)
  • 15.6 millones de comentarios
  • 38 millones de comentarios totales (total implícito)

Estas incrustaciones se generan utilizando el modelo Voyage-3.5-lite.

Búsqueda Avanzada y Alertas 📢

Más allá de la simple consulta, la herramienta ofrece capacidades de búsqueda sofisticadas y un sistema de alertas automatizado. La funcionalidad de Alertas es particularmente útil para monitorear temas específicos y difíciles de rastrear. Los usuarios pueden pedir a Claude que envíe una consulta SQL como alerta, la cual activa una notificación por correo electrónico siempre que se cumplan los criterios ultra matizados y la salida cambie.

Por ejemplo, un usuario podría configurar una alerta para ser notificado cuando alguien publique sobre "estrógeno" en un contexto psicoactivo, o cuando se usen suficientes metáforas biológicas en discusiones sobre construcción de infraestructura. Esto permite un monitoreo preciso de temas de nicho a través del espacio público.

El sistema también admite búsqueda vectorial compositiva, una técnica que permite filtrados muy específicos. Un ejemplo proporcionado demuestra cómo buscar escritos sobre la "crisis de FTX" que estén claramente libres de tonos de culpa, aunque puedan mencionar la palabra "culpa". Esto se logra mediante una estructura de consulta que se asemeja a: @FTX_crisis - (@tono_culpa - @tema_culpa).

Alcance y Limitaciones

El proyecto busca incrustar "todo y todas las demás fuentes" para crear un entorno de investigación integral. Sin embargo, el desarrollador señala una limitación significativa con respecto a los recursos. Aunque existe la capacidad técnica para incrustar fuentes adicionales de manera económica, el desarrollador afirma que "literalmente no tiene el dinero" para expandir el conjunto de datos en este momento.

A pesar de estas limitaciones financieras, la implementación actual cubre un vasto panorama de información. Al enfocarse en sitios como Hacker News, arXiv y LessWrong, la herramienta apunta a comunidades conocidas por su discurso técnico e intelectual de alta calidad. La capacidad de consultar estos conjuntos de datos específicos a través de prompts de lenguaje natural representa un paso significativo adelante en el análisis de datos accesible.

Conclusión

La introducción de esta herramienta de investigación impulsada por Claude Code demuestra el potencial de los grandes modelos de lenguaje para interactuar con conjuntos de datos masivos y especializados. Al combinar generación de SQL, búsqueda vectorial y alertas automatizadas, el sistema proporciona un marco robusto para la investigación profunda de datos del espacio público. Aunque actualmente limitada por la financiación, la existencia de un prototipo ofrece un vistazo al futuro de la recuperación de información automatizada y matizada.