📋

Points Clés

  • L'outil utilise Claude Code pour interroger une base de données publique en lecture seule (SQL et vecteurs).
  • Il couvre Hacker News, arXiv, LessWrong et d'autres sites de bien commun public.
  • Les données actuellement intégrées comprennent 1,4 M de publications et 15,6 M de commentaires utilisant Voyage-3.5-lite.
  • Les fonctionnalités incluent un système d'Alertes pour les notifications par e-mail sur des critères spécifiques.
  • La recherche vectorielle compositionnelle permet de filtrer par sentiment et par sujet simultanément.

Résumé Rapide

Un développeur a présenté un puissant outil de recherche qui exploite Claude Code pour interroger une vaste base de données publique en lecture seule, SQL et vectorielle. Ce système agrège des données provenant de divers sites de bien commun public de haute qualité, notamment Hacker News, arXiv et LessWrong. L'outil est conçu pour répondre à des questions nuancées en générant des requêtes SQL complexes qui s'exécutent en toute sécurité sur la machine du développeur.

Les fonctionnalités clés incluent un système d'alerte automatisé et des capacités de recherche vectorielle compositionnelle avancées. Actuellement, la base de données héberge 1,4 million de publications et 15,6 millions de commentaires intégrés avec Voyage-3.5-lite. Bien que le développeur vise à étendre la couverture, les limitations financières empêchent actuellement d'intégrer toutes les sources disponibles.

Fonctionnalité Principale et Architecture

L'outil de recherche fonctionne en permettant aux utilisateurs de coller un prompt dans Claude Code qui contient une clé API intégrée. Cette clé permet l'accès à une base de données publique en lecture seule contenant à la fois des données SQL et vectorielles. La fonction principale de l'outil est de permettre une recherche de pointe à travers un large éventail de sources de données publiques.

Au lieu d'exécuter des requêtes directement sur des plateformes externes, Claude génère des « requêtes SQL monstres » qui sont exécutées en toute sécurité sur la machine locale du développeur. Cette approche permet le traitement de questions complexes et nuancées que les moteurs de recherche standard pourraient avoir du mal à résoudre. Le système agit efficacement comme un intermédiaire, traduisant l'intention de l'utilisateur en commandes de base de données exécutables.

La base de données agrège actuellement des données provenant de dizaines de sites de bien commun public de haute qualité. L'échelle des données actuellement intégrées comprend :

  • 1,4 million de publications
  • 4,6 millions de publications au total (total implicite)
  • 15,6 millions de commentaires
  • 38 millions de commentaires au total (total implicite)

Ces intégrations sont générées à l'aide du modèle Voyage-3.5-lite.

Recherche Avancée et Alertes 📢

Au-delà de la simple interrogation, l'offre des capacités de recherche sophistiquées et un système d'alerte automatisé. La fonctionnalité Alertes est particulièrement utile pour surveiller des sujets spécifiques et difficiles à suivre. Les utilisateurs peuvent demander à Claude de soumettre une requête SQL en tant qu'alerte, ce qui déclenche une notification par e-mail chaque fois que les critères ultra-nuancés sont satisfaits et que la sortie change.

Par exemple, un utilisateur pourrait configurer une alerte pour être notifié lorsque quelqu'un publie sur « l'œstrogène » dans un contexte psychotrope, ou lorsque suffisamment de métaphores biologiques sont utilisées dans les discussions sur la construction d'infrastructures. Cela permet une surveillance précise de sujets de niche à travers le bien commun public.

Le système prend également en charge la recherche vectorielle compositionnelle, une technique permettant un filtrage très spécifique. Un exemple fourni montre comment rechercher des écrits sur la « crise FTX » qui sont distinctement exempts de tons coupables, tout en pouvant encore mentionner le mot « culpabilité ». Ceci est réalisé grâce à une structure de requête ressemblant à : @FTX_crisis - (@guilt_tone - @guilt_topic).

Portée et Limitations

Le projet vise à intégrer « toutes les autres sources » pour créer un environnement de recherche complet. Cependant, le développeur note une limitation importante concernant les ressources. Bien que la capacité technique existe pour intégrer des sources supplémentaires à moindre coût, le développeur déclare qu'il « n'a littéralement pas l'argent » pour élargir davantage l'ensemble de données à l'heure actuelle.

Malgré ces contraintes financières, l'implémentation actuelle couvre un vaste paysage d'informations. En se concentrant sur des sites comme Hacker News, arXiv et LessWrong, l'outil cible des communautés connues pour des discours techniques et intellectuels de haute qualité. La capacité d'interroger ces jeux de données spécifiques via des prompts en langage naturel représente une avancée significative vers une analyse de données accessible.

Conclusion

L'introduction de cet outil de recherche alimenté par Claude Code démontre le potentiel des grands modèles de langage pour interagir avec des ensembles de données massifs et spécialisés. En combinant la génération SQL, la recherche vectorielle et l'alerte automatisée, le système fournit un cadre robuste pour la recherche approfondie sur les données du bien commun public. Bien que limité actuellement par le financement, le prototype existant offre un aperçu de l'avenir de la récupération d'informations automatisée et nuancée.