حقائق رئيسية
- قاعدة بيانات PostgreSQL الخاصة بـ OpenAI تدعم الآن أكثر من 800 مليون مستخدم نشط شهري لـ ChatGPT، وتتعامل مع بيترابايت من البيانات.
- كان البنية الأولية لقاعدة البيانات عبارة عن نسخة PostgreSQL واحدة، وأصبحت غير كافية مع نمو أعداد المستخدمين بشكل كبير.
- تم تنفيذ تجميع الاتصالات باستخدام PgBouncer لإدارة طوفان الاتصالات المتزامنة من ملايين المستخدمين.
- النشر متعدد المناطق مع نسخ القراءة يضمن وصولًا منخفض زمن الوصول لقاعدة المستخدمين العالمية وتوفر عالي.
- يتعامل النظام مع مليارات التفاعلات يوميًا، مما يتطلب استراتيجيات متطورة لتحسين الكتابة وإدارة الاتصالات.
ملخص سريع
كشفت OpenAI عن الهندسة المعقدة وراء توسيع بنية تحتية قاعدة بيانات PostgreSQL لدعم النمو المتفجر لـ ChatGPT. مع قاعدة مستخدمين تتجاوز 800 مليون مستخدم نشط شهريًا
الرحلة من إعداد قاعدة بيانات بسيط إلى نظام موزع عالميًا وعالي المرونة تضمنت التعامل مع إدارة الاتصالات، واتساق البيانات، وأداء العقد. يكشف هذا التحليل العميق كيف حولت OpenAI نسخة قاعدة بيانات واحدة إلى قوة قادر على التعامل مع مليارات التفاعلات يوميًا.
تحدي التوسع
اعتمدت البنية الأولية للخلفية التقنية لـ ChatGPT على إعداد PostgreSQL مباشر، سرعان ما أصبح غير كافٍ مع ارتفاع أعداد المستخدمين بشكل كبير. ظهر العائق الرئيسي في إدارة الاتصالات، حيث تجاوز الآلاف من المستخدمين المتزامنين حدود اتصال قاعدة البيانات، مما أدى إلى زمن استجابة طويل وعدم استقرار.
مع نمو النظام، حدد الفريق عدة نقاط ألم حرجة تحتاج إلى انتباه فوري:
- عواصف الاتصالات من ملايين الطلبات المتزامنة للمستخدمين
- أعباء العمل الثقيلة في الكتابة من سجلات المحادثات وبيانات المستخدمين
- ضمان قراءات منخفضة زمن الوصول للمستخدمين حول العالم
- الحفاظ على اتساق البيانات عبر المناطق
الحجم الهائل من البيانات التي تولدها 800 مليون مستخدم تطلب إعادة تفكير جوهري في كيفية تخزين البيانات والوصول إليها ونسخها. لم تعد قواعد البيانات التقليدية ذات العقدة الواحدة ممكنة لهذا الحجم.
"كان التحول إلى بنية نسخ القراءة ضروريًا للحفاظ على الأداء مع نمو قاعدة المستخدمين بشكل كبير."
— فريق هندسة OpenAI
تطور البنية
شمل حل OpenAI نهجًا متعدد الطبقات لبنية قاعدة البيانات. قام الفريق بتنفيذ تجميع الاتصالات باستخدام PgBouncer لإدارة طوفان الاتصالات الواردة بكفاءة، مما قلل العبء على خادم قاعدة البيانات الرئيسي.
لتوسيع نطاق القراءة، نشروا شبكة من نسخ القراءة عبر عدة مناطق. سمح هذا بتوزيع استعلامات القراءة بعيدًا عن عقدة الكتابة الرئيسية، مماaméliora بشكل كبير زمن الاستجابة للمستخدمين حول العالم.
كان التحول إلى بنية نسخ القراءة ضروريًا للحفاظ على الأداء مع نمو قاعدة المستخدمين بشكل كبير.
بالإضافة إلى ذلك، قام الفريق بتحسين أداء الكتابة عن طريق تجميع العمليات وضبط إعدادات قاعدة البيانات بدقة. كما قدموا تعدد اتصالات للتعامل مع التزامن العالي دون استنفاد موارد قاعدة البيانات.
المرونة العالمية
مع قاعدة مستخدمين عالمية، أصبح التوفر العالي أمرًا غير قابل للتفاوض. نفذت OpenAI استراتيجية نشر متعددة المناطق، مما يضمن أنه إذا واجهت منطقة واحدة انقطاعًا، يمكن إعادة توجيه حركة المرور إلى نسخ نشطة مع الحد الأدنى من الاضطراب.
يحتوي النظام الآن على:
- آليات تبديل تلقائي لعقد قاعدة البيانات الرئيسية
- نسخ قراءة مكررة جغرافيًا للوصول منخفض زمن الوصول
- مراقبة مستمرة وتنبيهات لصحة قاعدة البيانات
- بروتوكولات نسخ احتياطي واستعادة لسيناريوهات الكوارث
هذه الإجراءات تضمن أن ChatGPT يبقى متاحًا حتى خلال فشل البنية التحتية، وهو متطلب حاسم لخدمة يستخدمها الملايين يوميًا.
التقنيات الرئيسية
المجموعة التقنية التي تشغل هذا الحجم الهائل هي مزيج من الأدوات مفتوحة المصدر والهندسة المخصصة. تبقى PostgreSQL قاعدة البيانات الأساسية، لكنها معززة بعدة تقنيات داعمة:
- PgBouncer لتجميع وإدارة الاتصالات
- نسخ القراءة لتوزيع عبء القراءة
- برمجيات وسيطة مخصصة لتوجيه الاستعلامات الذكي
- أنظمة المراقبة لرؤى الأداء في الوقت الحقيقي
طورت OpenAI أيضًا أدوات ملكية لمعالجة تحديات محددة، مثل إدارة عواصف الاتصالات وتحسين أعباء العمل الثقيلة في الكتابة. يسمح هذا النهج المختلط لهم بالاستفادة من استقرار البرمجيات مفتوحة المصدر مع معالجة متطلبات التوسع الفريدة.
نظرة إلى الأمام
تطوير PostgreSQL لدعم 800 مليون مستخدم ChatGPT يمثل معلمًا هامًا في هندسة قواعد البيانات. توفر الحلول التي نفذتها OpenAI نموذجًا أوليًا للمنظمات الأخرى التي تواجه تحديات توسع مماثلة.
مع استمرار نمو أعداد المستخدمين، ستحتاج البنية إلى تحسينات إضافية. قد تركز الجهود المستقبلية على التقسيم، واستراتيجيات التخزين المؤقت المتقدمة، وحتى نشر أكثر دقة متعدد المناطق. رحلة تطوير PostgreSQL لا تزال بعيدة عن النهاية، لكن النظام الحالي يقف شاهدًا على ما يمكن تحقيقه مع التخطيط الدقيق والهندسة المبتكرة.
أسئلة شائعة
ما هو التحدي الرئيسي الذي واجهته OpenAI مع PostgreSQL؟
كان التحدي الرئيسي هو إدارة عبء الاتصالات من أكثر من 800 مليون مستخدم شهريًا، مما تجاوز إعداد قاعدة البيانات الأولي ذات العقدة الواحدة. أدى هذا إلى مشاكل زمن الاستجابة وطلب إعادة هيكلة كاملة للبنية.
كيف طورت OpenAI PostgreSQL لـ ChatGPT؟
نفذت OpenAI تجميع الاتصالات مع PgBouncer، ونشرت نسخ القراءة عبر عدة مناطق، وحسنت أداء الكتابة. كما بنوا بنية متعددة المناطق للتوفر العالي والمرونة.
لماذا يُعد هذا الجهد في التوسع مهمًا؟
يُظهر كيف يمكن لقاعدة بيانات علاقة تقليدية مثل PostgreSQL أن تتطور لخدمة واحدة من أكبر الخدمات الذكية الاصطناعية في العالم. توفر الحلول نموذجًا أوليًا للشركات الأخرى التي تواجه تحديات نمو هائلة مماثلة.










