النماذج المحلية تتفوق على نماذج السحابة في اختبار التسوق على أمازون

📋

حقائق رئيسية

نموذج لغوي محلي (~3 مليارات معلم) أكمل بنجاح عملية تسوق كاملة على أمازون بمعدل نجاح 7/7 باستخدام بيانات هيكلية فقط.
عملت مكدس النموذج المحلي بتكلفة صفرية إضافية ولم تتطلب قدرات بصرية، على عكس مكالمات واجهة برمجة التطبيقات السحابية المكلفة.
قلص النظام تعقيد المدخلات عن طريق تقليم حوالي 95% من عقد DOM، مما أدى إلى إنشاء لقطة دلالية مدمجة للنموذج.
استخدم النموذج المحلي 11,114 رمزًا مقارنة بـ 19,956 رمزًا للنموذج السحابي، مما يظهر كفاءة أكبر في استخدام الرموز.
نفذ طبقة التحقق من التأكيدات على نمط Jest بعد كل إجراء، مما يضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات تغييرات الحالة.
خلصت التجربة إلى أن تقييد الفضاء الحددي وجعل النجاح صريحًا من خلال التحقق يكون أكثر فعالية من مجرد توسيع حجم النموذج.

مفارقة الموثوقية

يسعى السعي وراء الذكاء الاصطناعي الأكثر قوة غالبًا إلى نماذج سحابية أكبر وأكثر تكلفة. ومع ذلك، تتحدى تجربة حديثة هذه الحكمة التقليدية من خلال إظهار أن النماذج الأصغر، المحلية يمكنها تحقيق موثوقية فائقة في مهام أتمتة الويب المعقدة.

قام الباحثون بتجربة سيناريو أتمتة شائع: إكمال عملية تسوق كاملة على أمازون. كان الهدف هو التنقل من البحث إلى الدفع، وهي تسلسل يتضمن خطوات متعددة وعناصر صفحة ديناميكية. كشفت النتائج عن تناقض مفاجئ مع النهج السائد في الصناعة.

قارنت الدراسة نموذج سحابي عالي السعة بنموذج محلي مضغوط، وقاست معدلات النجاح، واستخدام الرموز، والتكلفة. تشير النتائج إلى أن الابتكار المعماري قد يفوق القوة الحسابية الخام عند بناء وكلاء ذكاء ااصطناعي موثوقين.

تحدي أمازون

ركزت التجربة على مهمة موحدة: البحث → المنتج الأول → إضافة إلى السلة → الدفع. يختبر هذا التدفق قدرة الذكاء الاصطناعي على تفسير صفحات الويب الديناميكية، واتخاذ القرارات، وإجراء إجراءات دقيقة دون مدخلات بصرية.

تم مقارنة نظامين رئيسيين. استخدم النموذج السحابي المرجعي نموذجًا كبيرًا قادرًا على الرؤية (GLM‑4.6). اعتمد مكدس الاستقلالية المحلية على مزيج من مخطط المخطط (DeepSeek R1) ونموذج منفذ أصغر (Qwen ~3B)، وكلاهما يعمل على عتاد محلي.

كشفت مقاييس الأداء عن اختلافات واضحة:

النموذج السحابي: حقق 1 نجاح في 1 تشغيل، باستخدام 19,956 رمزًا بتكلفة واجهة برمجة التطبيقات غير المحددة.
النموذج المحلي: حقق 7 نجاحات في 7 عمليات تشغيل، باستخدام 11,114 رمزًا بتكلفة صفرية إضافية.

بينما كان المكدس المحلي أبطأ بشكل ملحوظ (405,740 مللي ثانية مقابل 60,000 مللي ثانية)، فإن معدل النجاح المثالي وكفاءة التكلفة أبرزت تبادلاً حاسمًا بين السرعة والموثوقية.

"الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج."
— نتائج الدراسة

الابتكار المعماري

لم يكن نجاح النموذج المحلي عرضيًا؛ بل نتج عن إعادة تصميم مستوى التحكم. استخدم النظام ثلاث استراتيجيات رئيسية لتحديد المشكلة وضمان النتائج الحاسمة.

أولاً، قام بتقليم DOM لتقليل التعقيد. بدلاً من تغذية الصفحة بأكملها أو لقطات الشاشة، أنشأ النظام لقطة "دلالية" مدمجة تحتوي فقط على الأدوار، والنص، والهندسة، مع تقليم حوالي 95% من العقد.

ثانيًا، فصل التفكير عن التنفيذ

ثالثًا، تم حجب كل خطوة بـ التحقق على نمط Jest. بعد كل إجراء، أكد النظام تغييرات الحالة - مثل تحديثات عناوين URL أو ظهور العناصر. إذا فشل التأكيد، فشلت الخطوة وأثارت إعادة محاولة محدودة، مما يضمن أن الوكيل لم يمضِ قدمًا على افتراض خاطئ.

من الذكاء إلى العمل

كشفت السجلات كيف حولت طبقة التحقق هذه سلوك الوكيل. في حالة واحدة، استخدم النظام تجاوزًا حاسمًا لفرض نية "النتيجة الأولى"، مما يضمن النقر على رابط المنتج الصحيح.
مثال آخر تضمن التعامل مع درج ديناميكي. تأكد النظام من ظهور الدرج وأجبر الفرع الصحيح، وسجل نتيجة واضحة "PASS | add_to_cart_verified_after_drawer".
لم تكن هذه تحليلات لاحقة؛ بل كانت بوابات مضمنة. إما أن يثبت النظام أنه أحرز تقدمًا أو يتوقف للاستعادة. يتجاوز هذا النهج التخمين الاحتمالي إلى تنفيذ قابل للإثبات.
الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج.
الخلاصة واضحة: الحركة ذات التأثير الأعلى لوكالات المتصفح الموثوقة ليست نموذجًا أكبر. بل هي تقييد الفضاء الحددي وجعل النجاح صريحًا مع التأكيدات لكل خطوة.

إلزامية التحقق

توضح هذه الدراسة الحالة أن التحقق هو حجر الزاوية لأتمتة الذكاء الاصطناعي الموثوقة. من خلال تنفيذ طبقة تأكيد صارمة، حقق نموذج محلي متواضع معدل نجاح مثالي حيث تعثر نموذج سحابي أكثر قوة.
تمتد الآثار إلى ما هو أبعد من التجارة الإلكترونية. أي مجال يتطلب إجراءات دقيقة وقابلة للتكرار - مثل إدخال البيانات، أو معالجة النماذج، أو إدارة النظام - يمكنه الاستفادة من هذا التحول المعماري. ينتقل التركيز من حجم النموذج إلى تصميم النظام.
مع اندماج وكلاء الذكاء الاصطناعي بشكل أكبر في سير العمل اليومي، سيزداد الطلب على الاعتمادية بدلاً من القوة الخام. تقدم هذه التجربة مخططًا لبناء وكلاء يعملون، وليس فقط من يبدون أذكياء.

أسئلة متكررة

ما هو النتيجة الرئيسية لاختبار أتمتة التسوق على أمازون؟

وجدت الدراسة أن نموذج لغوي محلي أصغر (~3 مليارات معلم) حقق معدل نجاح مثالي 7/7 في إكمال عملية تسوق معقدة على أمازون، متفوقًا على نموذج سحابي أكبر نجح مرة واحدة فقط. كما استخدم النموذج المحلي رموزًا أقل وتحمل تكلفة صفرية إضافية، مما يظهر أن التصميم المعماري يمكن أن يتجاوز القوة الحسابية الخام.

كيف حقق النموذج المحلي موثوقية عالية كهذه؟

استخدم النظام معمارية ثلاثية الأجزاء: قام بتقليم DOM لتقليل التعقيد، وفصل التفكير عن التنفيذ بين نموذجين متخصصين، ونفذ حلقة تحقق مع تأكيدات لكل خطوة. هذا ضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات نجاح كل إجراء، مما أزال التخمين.

ما هي الآثار لتطوير وكلاء الذكاء الاصطناعي؟

Key Facts: 1. A local ~3B parameter LLM successfully completed a full Amazon shopping flow with a 7/7 success rate using only structural page data. 2. The local model stack operated with zero incremental cost and required no vision capabilities, contrasting with expensive cloud API calls. 3. The system reduced input complexity by pruning approximately 95% of DOM nodes, creating a compact semantic snapshot for the model. 4. The local model used 11,114 tokens compared to the cloud model's 19,956 tokens, demonstrating greater efficiency in token usage. 5. The verification layer implemented Jest-style assertions after every action, ensuring the agent could only proceed after proving state changes. 6. The experiment concluded that constraining the state space and making success explicit through verification is more effective than scaling model size. FAQ: Q1: What was the main finding of the Amazon shopping automation test? A1: The study found that a smaller, local language model (~3B parameters) achieved a perfect 7/7 success rate in completing a complex Amazon shopping flow, outperforming a larger cloud model that only succeeded once. The local model also used fewer tokens and incurred zero incremental cost, demonstrating that architectural design can trump raw computational power. Q2: How did the local model achieve such high reliability? A2: The system used a three-part architecture: it pruned the DOM to reduce complexity, split reasoning from acting between two specialized models, and implemented a verification loop with per-step assertions. This ensured the agent could only proceed after proving each action was successful, eliminating guesswork. Q3: What are the implications for AI agent development? A3: The results suggest that for reliable automation, developers should focus on constraining the problem space and implementing rigorous verification checks rather than simply using larger models. This approach reduces costs, improves success rates, and makes agent behavior more predictable and trustworthy. Q4: Was there a trade-off in performance? A4: Yes, the local model stack was significantly slower, taking about 405 seconds compared to the cloud model's 60 seconds. However, the local model's perfect success rate and zero cost made it more practical for scenarios where reliability is prioritized over speed.
Continue scrolling for more