حقائق رئيسية
- نموذج لغوي محلي (~3 مليارات معلم) أكمل بنجاح عملية تسوق كاملة على أمازون بمعدل نجاح 7/7 باستخدام بيانات هيكلية فقط.
- عملت مكدس النموذج المحلي بتكلفة صفرية إضافية ولم تتطلب قدرات بصرية، على عكس مكالمات واجهة برمجة التطبيقات السحابية المكلفة.
- قلص النظام تعقيد المدخلات عن طريق تقليم حوالي 95% من عقد DOM، مما أدى إلى إنشاء لقطة دلالية مدمجة للنموذج.
- استخدم النموذج المحلي 11,114 رمزًا مقارنة بـ 19,956 رمزًا للنموذج السحابي، مما يظهر كفاءة أكبر في استخدام الرموز.
- نفذ طبقة التحقق من التأكيدات على نمط Jest بعد كل إجراء، مما يضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات تغييرات الحالة.
- خلصت التجربة إلى أن تقييد الفضاء الحددي وجعل النجاح صريحًا من خلال التحقق يكون أكثر فعالية من مجرد توسيع حجم النموذج.
مفارقة الموثوقية
يسعى السعي وراء الذكاء الاصطناعي الأكثر قوة غالبًا إلى نماذج سحابية أكبر وأكثر تكلفة. ومع ذلك، تتحدى تجربة حديثة هذه الحكمة التقليدية من خلال إظهار أن النماذج الأصغر، المحلية يمكنها تحقيق موثوقية فائقة في مهام أتمتة الويب المعقدة.
قام الباحثون بتجربة سيناريو أتمتة شائع: إكمال عملية تسوق كاملة على أمازون. كان الهدف هو التنقل من البحث إلى الدفع، وهي تسلسل يتضمن خطوات متعددة وعناصر صفحة ديناميكية. كشفت النتائج عن تناقض مفاجئ مع النهج السائد في الصناعة.
قارنت الدراسة نموذج سحابي عالي السعة بنموذج محلي مضغوط، وقاست معدلات النجاح، واستخدام الرموز، والتكلفة. تشير النتائج إلى أن الابتكار المعماري قد يفوق القوة الحسابية الخام عند بناء وكلاء ذكاء ااصطناعي موثوقين.
تحدي أمازون
ركزت التجربة على مهمة موحدة: البحث → المنتج الأول → إضافة إلى السلة → الدفع. يختبر هذا التدفق قدرة الذكاء الاصطناعي على تفسير صفحات الويب الديناميكية، واتخاذ القرارات، وإجراء إجراءات دقيقة دون مدخلات بصرية.
تم مقارنة نظامين رئيسيين. استخدم النموذج السحابي المرجعي نموذجًا كبيرًا قادرًا على الرؤية (GLM‑4.6). اعتمد مكدس الاستقلالية المحلية على مزيج من مخطط المخطط (DeepSeek R1) ونموذج منفذ أصغر (Qwen ~3B)، وكلاهما يعمل على عتاد محلي.
كشفت مقاييس الأداء عن اختلافات واضحة:
- النموذج السحابي: حقق 1 نجاح في 1 تشغيل، باستخدام 19,956 رمزًا بتكلفة واجهة برمجة التطبيقات غير المحددة.
- النموذج المحلي: حقق 7 نجاحات في 7 عمليات تشغيل، باستخدام 11,114 رمزًا بتكلفة صفرية إضافية.
بينما كان المكدس المحلي أبطأ بشكل ملحوظ (405,740 مللي ثانية مقابل 60,000 مللي ثانية)، فإن معدل النجاح المثالي وكفاءة التكلفة أبرزت تبادلاً حاسمًا بين السرعة والموثوقية.
"الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج."
— نتائج الدراسة
الابتكار المعماري
لم يكن نجاح النموذج المحلي عرضيًا؛ بل نتج عن إعادة تصميم مستوى التحكم. استخدم النظام ثلاث استراتيجيات رئيسية لتحديد المشكلة وضمان النتائج الحاسمة.
أولاً، قام بتقليم DOM لتقليل التعقيد. بدلاً من تغذية الصفحة بأكملها أو لقطات الشاشة، أنشأ النظام لقطة "دلالية" مدمجة تحتوي فقط على الأدوار، والنص، والهندسة، مع تقليم حوالي 95% من العقد.
ثانيًا، فصل التفكير عن التنفيذ ثالثًا، تم حجب كل خطوة بـ التحقق على نمط Jest. بعد كل إجراء، أكد النظام تغييرات الحالة - مثل تحديثات عناوين URL أو ظهور العناصر. إذا فشل التأكيد، فشلت الخطوة وأثارت إعادة محاولة محدودة، مما يضمن أن الوكيل لم يمضِ قدمًا على افتراض خاطئ.
من الذكاء إلى العمل
كشفت السجلات كيف حولت طبقة التحقق هذه سلوك الوكيل. في حالة واحدة، استخدم النظام تجاوزًا حاسمًا لفرض نية "النتيجة الأولى"، مما يضمن النقر على رابط المنتج الصحيح.
مثال آخر تضمن التعامل مع درج ديناميكي. تأكد النظام من ظهور الدرج وأجبر الفرع الصحيح، وسجل نتيجة واضحة "PASS | add_to_cart_verified_after_drawer".
لم تكن هذه تحليلات لاحقة؛ بل كانت بوابات مضمنة. إما أن يثبت النظام أنه أحرز تقدمًا أو يتوقف للاستعادة. يتجاوز هذا النهج التخمين الاحتمالي إلى تنفيذ قابل للإثبات.
الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج.
الخلاصة واضحة: الحركة ذات التأثير الأعلى لوكالات المتصفح الموثوقة ليست نموذجًا أكبر. بل هي تقييد الفضاء الحددي وجعل النجاح صريحًا مع التأكيدات لكل خطوة.
إلزامية التحقق
توضح هذه الدراسة الحالة أن التحقق هو حجر الزاوية لأتمتة الذكاء الاصطناعي الموثوقة. من خلال تنفيذ طبقة تأكيد صارمة، حقق نموذج محلي متواضع معدل نجاح مثالي حيث تعثر نموذج سحابي أكثر قوة.
تمتد الآثار إلى ما هو أبعد من التجارة الإلكترونية. أي مجال يتطلب إجراءات دقيقة وقابلة للتكرار - مثل إدخال البيانات، أو معالجة النماذج، أو إدارة النظام - يمكنه الاستفادة من هذا التحول المعماري. ينتقل التركيز من حجم النموذج إلى تصميم النظام.
مع اندماج وكلاء الذكاء الاصطناعي بشكل أكبر في سير العمل اليومي، سيزداد الطلب على الاعتمادية بدلاً من القوة الخام. تقدم هذه التجربة مخططًا لبناء وكلاء يعملون، وليس فقط من يبدون أذكياء.
أسئلة متكررة
ما هو النتيجة الرئيسية لاختبار أتمتة التسوق على أمازون؟
وجدت الدراسة أن نموذج لغوي محلي أصغر (~3 مليارات معلم) حقق معدل نجاح مثالي 7/7 في إكمال عملية تسوق معقدة على أمازون، متفوقًا على نموذج سحابي أكبر نجح مرة واحدة فقط. كما استخدم النموذج المحلي رموزًا أقل وتحمل تكلفة صفرية إضافية، مما يظهر أن التصميم المعماري يمكن أن يتجاوز القوة الحسابية الخام.
كيف حقق النموذج المحلي موثوقية عالية كهذه؟
استخدم النظام معمارية ثلاثية الأجزاء: قام بتقليم DOM لتقليل التعقيد، وفصل التفكير عن التنفيذ بين نموذجين متخصصين، ونفذ حلقة تحقق مع تأكيدات لكل خطوة. هذا ضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات نجاح كل إجراء، مما أزال التخمين.
ما هي الآثار لتطوير وكلاء الذكاء الاصطناعي؟
Continue scrolling for more










