حقائق رئيسية
- يستخدم الأداة Claude Code للاستعلام عن قاعدة بيانات SQL وناقلة عامة للقراءة فقط.
- تغطي Hacker News و arXiv و LessWrong ومواقع commons العامة الأخرى.
- تتضمن البيانات المضمنة حالياً 1.4 مليون منشور و 15.6 مليون تعليق باستخدام Voyage-3.5-lite.
- تشمل الميزات نظام تنبيهات للإشعارات عبر البريد الإلكتروني عند توفر معايير محددة.
- يسمح البحث المتجهي التجميعي بتصفية المحتوى حسب المشاعر والموضوعات في وقت واحد.
ملخص سريع
أدى مطور أداة بحثية قوية تستفيد من Claude Code للاستعلام عن قاعدة بيانات SQL وناقلة عامة ضخمة للقراءة فقط. يجمع هذا النظام البيانات من مواقع commons العامة عالية الجودة المختلفة، بما في ذلك Hacker News و arXiv و LessWrong. صُممت الأداة للإجابة على الأسئلة الدقيقة من خلال إنشاء استعلامات SQL معقدة تعمل بأمان على جهاز المطور.
تشمل الميزات الرئيسية نظام تنبيهات أتوماتيكي وإمكانيات بحث متجهي تجميعي متقدمة. حالياً، تستضيف قاعدة البيانات 1.4 مليون منشور و 15.6 مليون تعليق مضمن باستخدام Voyage-3.5-lite. بينما يهدف المطور إلى توسيع التغطية، تمنع القيود المالية حالياً من ضمان جميع المصادر المتاحة.
الوظائف الأساسية والهندسة المعمارية
تعمل الأداة البحثية من خلال السماح للمستخدمين بلصق موجه في Claude Code يحتوي على مفتاح API مضمن. يمنح هذا المفتاح الوصول إلى قاعدة بيانات عامة للقراءة فقط تحتوي على بيانات SQL وناقلة. الوظيفة الأساسية للأداة هي تمكين الأبحاث المتطورة عبر مجموعة واسعة من مصادر البيانات العامة.
بدلاً من تشغيل الاستعلامات مباشرة على المنصات الخارجية، يقوم Claude بإنشاء "استعلامات SQL ضخمة" يتم تنفيذها بأمان على جهاز المطور المحلي. يسمح هذا النهج بمعالجة الأسئلة المعقدة والدقيقة التي قد تواجه محركات البحث القياسية صعوبة في الإجابة عليها. يعمل النظام كوساطة فعالة، تترجم نية المستخدم إلى أوامر قاعدة بيانات قابلة للتنفيذ.
تجمع قاعدة البيانات حالياً البيانات من عشرات مواقع commons العامة عالية الجودة. يتضمن نطاق البيانات المضمنة حالياً:
- 1.4 مليون منشور
- 4.6 مليون منشور إجمالي (المقدر)
- 15.6 مليون تعليق
- 38 مليون تعليق إجمالي (المقدر)
يتم إنشاء هذه التضمينات باستخدام نموذج Voyage-3.5-lite.
البحث المتقدم والتنبيهات 📢
بالإضافة إلى الاستعلام البسيط، تقدم الأداة قدرات بحث متطورة ونظام تنبيهات أتوماتيكي. تكون وظيفة التنبيهات مفيدة بشكل خاص لمراقبة مواضيع محددة يصعب تتبعها. يمكن للمستخدمين طلب من Claude تقديم استعلام SQL كتنبيه، مما يؤدي إلى إشعار عبر البريد الإلكتروني متى ما تم تلبيت المعايير الدقيقة للغاية وتغيرت المخرجات.
على سبيل المثال، يمكن للمستخدم ضبط تنبيه ليتم إعلامه عندما ينشر شخص ما عن "الإستروجين" في سياق نفسي، أو عندما تُستخدم استعارات بيولوجياً كافية في المناقشات حول بناء البنية التحتية. يسمح ذلك بإجراء مراقبة دقيقة للمواضيع المتخصصة عبر commons العامة.
يدعم النظام أيضاً البحث المتجهي التجميعي، وهي تقنية تسمح بالتصفية عالية التحديد. يوضح مثال مقدم كيفية البحث عن كتابات حول "أزمة FTX" تكون حرة بشكل واضح من نبرات الذنب، مع أنها قد تذكر كلمة "الذنب". يتم تحقيق ذلك من خلال هيكل استعلام يشبه: @FTX_crisis - (@guilt_tone - @guilt_topic).
النطاق والقيود
يهدف المشروع إلى ضمان "كل شيء والمصادر الأخرى" لبيئة بحث شاملة. ومع ذلك، يلاحظ المطور قيوداً كبيرة فيما يتعلق بالموارد. بينما توجد القدرة التقنية على ضمان مصادر إضافية بتكلفة منخفضة، يصرح المطور أنه "ليس لديه المال" لتوسيع مجموعة البيانات في الوقت الحالي.
على الرغم من هذه القيود المالية، يغطي التطبيق الحالي نطاقاً واسعاً من المعلومات. من خلال التركيز على مواقع مثل Hacker News و arXiv و LessWrong
الخاتمة
يُظهر إدخال هذه الأداة البحثية المدعومة بـ Claude Code الإمكانات الكبيرة لتفاعل نماذج اللغة الكبيرة مع مجموعات البيانات الضخمة المتخصصة. من خلال الجمع بين إنشاء SQL و البحث المتجهي و التنبيهات الأتوماتيكية, يقدم النظام إطار عمل قوي للأبحاث العميقة في بيانات commons العامة. بينما هو محدود حالياً بالتمويل، يقدم النموذج الحالي لمحة عن مستقبل استرجاع المعلومات الأتوماتيكي الدقيق.


