M
MercyNews
Home
Back
النماذج المحلية تتفوق على نماذج السحابة في اختبار التسوق على أمازون
تكنولوجيا

النماذج المحلية تتفوق على نماذج السحابة في اختبار التسوق على أمازون

Hacker News15h ago
3 دقيقة قراءة
📋

حقائق رئيسية

  • نموذج لغوي محلي (~3 مليارات معلم) أكمل بنجاح عملية تسوق كاملة على أمازون بمعدل نجاح 7/7 باستخدام بيانات هيكلية فقط.
  • عملت مكدس النموذج المحلي بتكلفة صفرية إضافية ولم تتطلب قدرات بصرية، على عكس مكالمات واجهة برمجة التطبيقات السحابية المكلفة.
  • قلص النظام تعقيد المدخلات عن طريق تقليم حوالي 95% من عقد DOM، مما أدى إلى إنشاء لقطة دلالية مدمجة للنموذج.
  • استخدم النموذج المحلي 11,114 رمزًا مقارنة بـ 19,956 رمزًا للنموذج السحابي، مما يظهر كفاءة أكبر في استخدام الرموز.
  • نفذ طبقة التحقق من التأكيدات على نمط Jest بعد كل إجراء، مما يضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات تغييرات الحالة.
  • خلصت التجربة إلى أن تقييد الفضاء الحددي وجعل النجاح صريحًا من خلال التحقق يكون أكثر فعالية من مجرد توسيع حجم النموذج.

مفارقة الموثوقية

يسعى السعي وراء الذكاء الاصطناعي الأكثر قوة غالبًا إلى نماذج سحابية أكبر وأكثر تكلفة. ومع ذلك، تتحدى تجربة حديثة هذه الحكمة التقليدية من خلال إظهار أن النماذج الأصغر، المحلية يمكنها تحقيق موثوقية فائقة في مهام أتمتة الويب المعقدة.

قام الباحثون بتجربة سيناريو أتمتة شائع: إكمال عملية تسوق كاملة على أمازون. كان الهدف هو التنقل من البحث إلى الدفع، وهي تسلسل يتضمن خطوات متعددة وعناصر صفحة ديناميكية. كشفت النتائج عن تناقض مفاجئ مع النهج السائد في الصناعة.

قارنت الدراسة نموذج سحابي عالي السعة بنموذج محلي مضغوط، وقاست معدلات النجاح، واستخدام الرموز، والتكلفة. تشير النتائج إلى أن الابتكار المعماري قد يفوق القوة الحسابية الخام عند بناء وكلاء ذكاء ااصطناعي موثوقين.

تحدي أمازون

ركزت التجربة على مهمة موحدة: البحث → المنتج الأول → إضافة إلى السلة → الدفع. يختبر هذا التدفق قدرة الذكاء الاصطناعي على تفسير صفحات الويب الديناميكية، واتخاذ القرارات، وإجراء إجراءات دقيقة دون مدخلات بصرية.

تم مقارنة نظامين رئيسيين. استخدم النموذج السحابي المرجعي نموذجًا كبيرًا قادرًا على الرؤية (GLM‑4.6). اعتمد مكدس الاستقلالية المحلية على مزيج من مخطط المخطط (DeepSeek R1) ونموذج منفذ أصغر (Qwen ~3B)، وكلاهما يعمل على عتاد محلي.

كشفت مقاييس الأداء عن اختلافات واضحة:

  • النموذج السحابي: حقق 1 نجاح في 1 تشغيل، باستخدام 19,956 رمزًا بتكلفة واجهة برمجة التطبيقات غير المحددة.
  • النموذج المحلي: حقق 7 نجاحات في 7 عمليات تشغيل، باستخدام 11,114 رمزًا بتكلفة صفرية إضافية.

بينما كان المكدس المحلي أبطأ بشكل ملحوظ (405,740 مللي ثانية مقابل 60,000 مللي ثانية)، فإن معدل النجاح المثالي وكفاءة التكلفة أبرزت تبادلاً حاسمًا بين السرعة والموثوقية.

"الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج."

— نتائج الدراسة

الابتكار المعماري

لم يكن نجاح النموذج المحلي عرضيًا؛ بل نتج عن إعادة تصميم مستوى التحكم. استخدم النظام ثلاث استراتيجيات رئيسية لتحديد المشكلة وضمان النتائج الحاسمة.

أولاً، قام بتقليم DOM لتقليل التعقيد. بدلاً من تغذية الصفحة بأكملها أو لقطات الشاشة، أنشأ النظام لقطة "دلالية" مدمجة تحتوي فقط على الأدوار، والنص، والهندسة، مع تقليم حوالي 95% من العقد.

ثانيًا، فصل التفكير عن التنفيذ

ثالثًا، تم حجب كل خطوة بـ التحقق على نمط Jest. بعد كل إجراء، أكد النظام تغييرات الحالة - مثل تحديثات عناوين URL أو ظهور العناصر. إذا فشل التأكيد، فشلت الخطوة وأثارت إعادة محاولة محدودة، مما يضمن أن الوكيل لم يمضِ قدمًا على افتراض خاطئ.

من الذكاء إلى العمل

كشفت السجلات كيف حولت طبقة التحقق هذه سلوك الوكيل. في حالة واحدة، استخدم النظام تجاوزًا حاسمًا لفرض نية "النتيجة الأولى"، مما يضمن النقر على رابط المنتج الصحيح.

مثال آخر تضمن التعامل مع درج ديناميكي. تأكد النظام من ظهور الدرج وأجبر الفرع الصحيح، وسجل نتيجة واضحة "PASS | add_to_cart_verified_after_drawer".

لم تكن هذه تحليلات لاحقة؛ بل كانت بوابات مضمنة. إما أن يثبت النظام أنه أحرز تقدمًا أو يتوقف للاستعادة. يتجاوز هذا النهج التخمين الاحتمالي إلى تنفيذ قابل للإثبات.

الموثوقية في الوكلاء تأتي من التحقق (التأكيدات على لقطات هيكلية)، وليس فقط توسيع حجم النموذج.

الخلاصة واضحة: الحركة ذات التأثير الأعلى لوكالات المتصفح الموثوقة ليست نموذجًا أكبر. بل هي تقييد الفضاء الحددي وجعل النجاح صريحًا مع التأكيدات لكل خطوة.

إلزامية التحقق

توضح هذه الدراسة الحالة أن التحقق هو حجر الزاوية لأتمتة الذكاء الاصطناعي الموثوقة. من خلال تنفيذ طبقة تأكيد صارمة، حقق نموذج محلي متواضع معدل نجاح مثالي حيث تعثر نموذج سحابي أكثر قوة.

تمتد الآثار إلى ما هو أبعد من التجارة الإلكترونية. أي مجال يتطلب إجراءات دقيقة وقابلة للتكرار - مثل إدخال البيانات، أو معالجة النماذج، أو إدارة النظام - يمكنه الاستفادة من هذا التحول المعماري. ينتقل التركيز من حجم النموذج إلى تصميم النظام.

مع اندماج وكلاء الذكاء الاصطناعي بشكل أكبر في سير العمل اليومي، سيزداد الطلب على الاعتمادية بدلاً من القوة الخام. تقدم هذه التجربة مخططًا لبناء وكلاء يعملون، وليس فقط من يبدون أذكياء.

أسئلة متكررة

ما هو النتيجة الرئيسية لاختبار أتمتة التسوق على أمازون؟

وجدت الدراسة أن نموذج لغوي محلي أصغر (~3 مليارات معلم) حقق معدل نجاح مثالي 7/7 في إكمال عملية تسوق معقدة على أمازون، متفوقًا على نموذج سحابي أكبر نجح مرة واحدة فقط. كما استخدم النموذج المحلي رموزًا أقل وتحمل تكلفة صفرية إضافية، مما يظهر أن التصميم المعماري يمكن أن يتجاوز القوة الحسابية الخام.

كيف حقق النموذج المحلي موثوقية عالية كهذه؟

استخدم النظام معمارية ثلاثية الأجزاء: قام بتقليم DOM لتقليل التعقيد، وفصل التفكير عن التنفيذ بين نموذجين متخصصين، ونفذ حلقة تحقق مع تأكيدات لكل خطوة. هذا ضمن أن الوكيل لا يمكنه المضي قدمًا إلا بعد إثبات نجاح كل إجراء، مما أزال التخمين.

ما هي الآثار لتطوير وكلاء الذكاء الاصطناعي؟

Key Facts: 1. A local ~3B parameter LLM successfully completed a full Amazon shopping flow with a 7/7 success rate using only structural page data. 2. The local model stack operated with zero incremental cost and required no vision capabilities, contrasting with expensive cloud API calls. 3. The system reduced input complexity by pruning approximately 95% of DOM nodes, creating a compact semantic snapshot for the model. 4. The local model used 11,114 tokens compared to the cloud model's 19,956 tokens, demonstrating greater efficiency in token usage. 5. The verification layer implemented Jest-style assertions after every action, ensuring the agent could only proceed after proving state changes. 6. The experiment concluded that constraining the state space and making success explicit through verification is more effective than scaling model size. FAQ: Q1: What was the main finding of the Amazon shopping automation test? A1: The study found that a smaller, local language model (~3B parameters) achieved a perfect 7/7 success rate in completing a complex Amazon shopping flow, outperforming a larger cloud model that only succeeded once. The local model also used fewer tokens and incurred zero incremental cost, demonstrating that architectural design can trump raw computational power. Q2: How did the local model achieve such high reliability? A2: The system used a three-part architecture: it pruned the DOM to reduce complexity, split reasoning from acting between two specialized models, and implemented a verification loop with per-step assertions. This ensured the agent could only proceed after proving each action was successful, eliminating guesswork. Q3: What are the implications for AI agent development? A3: The results suggest that for reliable automation, developers should focus on constraining the problem space and implementing rigorous verification checks rather than simply using larger models. This approach reduces costs, improves success rates, and makes agent behavior more predictable and trustworthy. Q4: Was there a trade-off in performance? A4: Yes, the local model stack was significantly slower, taking about 405 seconds compared to the cloud model's 60 seconds. However, the local model's perfect success rate and zero cost made it more practical for scenarios where reliability is prioritized over speed.

Continue scrolling for more

الذكاء الاصطناعي يحول البحث والبراهين الرياضية
Technology

الذكاء الاصطناعي يحول البحث والبراهين الرياضية

لقد انتقل الذكاء الاصطناعي من وعد متقطع إلى واقع ملموس في الرياضيات، حيث تستخدم نماذج التعلم الآلي الآن لدعم استنباط براهين أصلية. يجبر هذا التطور على إعادة تقييم طرق البحث والتدريس في هذا التخصص.

Just now
4 min
332
Read Article
متجر جوجل يمدد مبيعات Pixel 9a مع شائعات إطلاق Pixel 10a
Technology

متجر جوجل يمدد مبيعات Pixel 9a مع شائعات إطلاق Pixel 10a

أطلق متجر جوجل مبيعات ممتدة لـ Pixel 9a تنتهي في 15 فبراير، في توقيت استراتيجي يسبق شائعات إطلاق Pixel 10a.

3h
5 min
12
Read Article
هاشيد تكشف عن مارو: أول بلاك تشين من المستوى 1 في كوريا الجنوبية
Technology

هاشيد تكشف عن مارو: أول بلاك تشين من المستوى 1 في كوريا الجنوبية

كشفت هاشيد عن مارو، أول بلاك تشين من المستوى 1 في كوريا الجنوبية مصمم خصيصاً للاقتصاد المستقبلي للعملات المستقرة، حيث يجمع بين انفتاح البلوك تشين العام ومتطلبات الامتثال للتطبيقات المالية المنظمة.

4h
5 min
12
Read Article
لابتوب Lenovo Legion Pro 7 مع شاشة RTX 5090 يعود إلى سعر 3300 دولار
Technology

لابتوب Lenovo Legion Pro 7 مع شاشة RTX 5090 يعود إلى سعر 3300 دولار

يعود لابتوب Lenovo Legion Pro 7 مع شاشة RTX 5090 إلى سعره الأدنى هذا العام بقيمة 3300 دولارًا، مقدمًا أداءً فائقًا للعابين ومبدعي المحتوى.

4h
5 min
6
Read Article
برنامج 'ذا ماسكيد سينغر' يكشف هوية عامل الصيانة وخنفساء الليل
Entertainment

برنامج 'ذا ماسكيد سينغر' يكشف هوية عامل الصيانة وخنفساء الليل

كشفت الحلقة الأخيرة من برنامج 'ذا ماسكيد سينغر' هوية عامل الصيانة وخنفساء الليل، حيث كُشف أن المغني تون لو والممثلة تاراجي بي هينسون كانا وراء الأزياء.

4h
4 min
12
Read Article
ترامب يعلن عن صفقة "معقدة" لمنظمة حلف الناتو بشأن جرينلاند
Politics

ترامب يعلن عن صفقة "معقدة" لمنظمة حلف الناتو بشأن جرينلاند

أعلن الرئيس ترامب عن إطار عمل "معقد" لصفقة تتعلق بجرينلاند تتضمن حلف الناتو، لكن التفاصيل المحددة لا تزال غير واضحة.

4h
5 min
14
Read Article
المليونيرات: جائزة اليانصيب تصل إلى 18.5 مليون ريال بعد عدم وجود فائزين
Economics

المليونيرات: جائزة اليانصيب تصل إلى 18.5 مليون ريال بعد عدم وجود فائزين

ترددت جائزة اليانصيب +Milionária إلى 18.5 مليون ريال بعد عدم وجود فائزين في السحب الأخير. اكتشف الأرقام الفائزة وتفصيل الجوائز.

4h
5 min
16
Read Article
جاكت سوبر سيت يصعد إلى 1.2 مليون ريال بعد عدم وجود فائز بالجائزة الكبرى
Lifestyle

جاكت سوبر سيت يصعد إلى 1.2 مليون ريال بعد عدم وجود فائز بالجائزة الكبرى

جاكت سوبر سيت يتراكم إلى 1.2 مليون ريال بعد أن لم يتطابق أي لاعب مع الأرقام السبعة في السحب الأخير. اكتشف أرقام الفوز وتفصيل الجائزة.

4h
5 min
15
Read Article
الش揭开 يكشف عن مشروع قانون هيكلة سوق التشفير
Politics

الش揭开 يكشف عن مشروع قانون هيكلة سوق التشفير

كشفت لجنة الزراعة في مجلس الش揭开 الأمريكي عن نص محدث لمشروع قانون هيكلة سوق التشفير، مما يمثل تطوراً مهماً في تنظيم الأصول الرقمية. يأتي هذا الإصدار قبل جلسة استماع مقرر لها الأسبوع المقبل.

4h
5 min
15
Read Article
الروبوتات البشرية تبني الجرافات كل 6 دقائق
Technology

الروبوتات البشرية تبني الجرافات كل 6 دقائق

عملاق المعدات الثقيلة الصيني زومليون يستخدم الروبوتات البشرية على أرضية مصانعه لإنتاج الجرافات، حيث تنتج آلة جديدة كل 6 دقائق باستمرار منذ سنوات.

4h
5 min
14
Read Article
🎉

You're all caught up!

Check back later for more stories

العودة للرئيسية