Mettre PostgreSQL à l'échelle pour alimenter 800 millions d'utilisateurs de ChatGPT

📋

Points clés

La base de données PostgreSQL d'OpenAI gère désormais plus de 800 millions d'utilisateurs mensuels actifs de ChatGPT, traitant des pétaoctets de données.
L'architecture initiale de la base de données était une instance PostgreSQL unique, qui est devenue insuffisante à mesure que le nombre d'utilisateurs augmentait de manière exponentielle.
Un pool de connexions utilisant PgBouncer a été mis en œuvre pour gérer le flot de connexions concurrentes provenant de millions d'utilisateurs.
Un déploiement multi-région avec des réplicas de lecture garantit un accès à faible latence pour une base d'utilisateurs mondiale et une haute disponibilité.
Le système gère des milliards d'interactions quotidiennes, nécessitant des stratégies sophistiquées d'optimisation des écritures et de gestion des connexions.

Résumé rapide

OpenAI a dévoilé l'ingénierie complexe derrière la mise à l'échelle de son infrastructure de base de données PostgreSQL pour soutenir la croissance explosive de ChatGPT. Avec une base d'utilisateurs dépassant les 800 millions d'utilisateurs mensuels actifs, l'entreprise a été confrontée à des défis de base de données sans précédent qui ont nécessité une refonte complète de l'architecture.

Le parcours d'une configuration de base de données simple à un système mondial distribué et hautement résilient a impliqué de résoudre la gestion des connexions, la cohérence des données et les goulots d'étranglement de performance. Cette analyse approfondie révèle comment OpenAI a transformé une instance unique de base de données en une puissance capable de gérer des milliards d'interactions quotidiennes.

Le défi de la mise à l'échelle

L'architecture initiale pour l'arrière-plan de ChatGPT reposait sur une configuration PostgreSQL simple, qui est rapidement devenue insuffisante à mesure que le nombre d'utilisateurs explosait. Le principal goulot d'étranglement est apparu dans la gestion des connexions, où des milliers d'utilisateurs simultanés ont submergé les limites de connexion de la base de données, entraînant une latence et une instabilité.

À mesure que le système grandissait, l'équipe a identifié plusieurs points critiques qui nécessitaient une attention immédiate :

Des tempêtes de connexions provenant de millions de requêtes d'utilisateurs simultanées
Des charges de travail d'écriture intensives provenant de l'historique des chats et des données des utilisateurs
La garantie de lectures à faible latence pour les utilisateurs mondiaux
Le maintien de la cohérence des données entre les régions

Le volume massif de données généré par les 800 millions d'utilisateurs a nécessité une réflexion fondamentale sur la manière dont les données étaient stockées, accessibles et répliquées. Les bases de données à nœud unique traditionnelles n'étaient plus viables à cette échelle.

« Le passage à une architecture de réplicas de lecture était essentiel pour maintenir les performances à mesure que notre base d'utilisateurs croissait de manière exponentielle. »
— Équipe d'ingénierie d'OpenAI

Évolution de l'architecture

La solution d'OpenAI a impliqué une approche à plusieurs niveaux de l'architecture de la base de données. L'équipe a mis en œuvre un pool de connexions utilisant PgBouncer pour gérer efficacement le flot de connexions entrantes, réduisant la surcharge sur le serveur de base de données principal.

Pour l'évolutivité en lecture, ils ont déployé un réseau de réplicas de lecture sur plusieurs régions. Cela a permis au système de distribuer les requêtes de lecture loin du nœud d'écriture principal, améliorant considérablement les temps de réponse pour les utilisateurs du monde entier.

Le passage à une architecture de réplicas de lecture était essentiel pour maintenir les performances à mesure que notre base d'utilisateurs croissait de manière exponentielle.

De plus, l'équipe a optimisé les performances d'écriture en regroupant les opérations et en affinant les configurations de la base de données. Ils ont également introduit une multuplexage de connexions pour gérer la haute concurrence sans épuiser les ressources de la base de données.

Résilience mondiale

Avec une base d'utilisateurs mondiale, une haute disponibilité est devenue non négociable. OpenAI a mis en œuvre une stratégie de déploiement multi-région, garantissant que si une région connaissait une panne, le trafic pouvait être redirigé vers des réplicas sains avec une perturbation minimale.

Le système présente désormais :

Des mécanismes de basculement automatique pour les nœuds de base de données principaux
Des réplicas de lecture géo-répliqués pour un accès à faible latence
Une surveillance et des alertes continues pour la santé de la base de données
Des protocoles de sauvegarde et de récupération pour les scénarios de sinistre

Ces mesures garantissent que ChatGPT reste accessible même pendant les pannes d'infrastructure, une exigence critique pour un service utilisé par des centaines de millions de personnes chaque jour.

Technologies clés

La pile technologique alimentant cette échelle massive est un mélange d'outils open-source et d'ingénierie personnalisée. PostgreSQL reste la base de données principale, mais elle est complétée par plusieurs technologies de support :

PgBouncer pour le pool et la gestion des connexions
Réplicas de lecture pour distribuer la charge de lecture
Middleware personnalisé pour le routage intelligent des requêtes
Systèmes de surveillance pour des aperçus de performance en temps réel

OpenAI a également développé des outils propriétaires pour relever des défis spécifiques, tels que la gestion des tempêtes de connexions et l'optimisation des charges de travail d'écriture intensives. Cette approche hybride leur permet de tirer parti de la stabilité des logiciels open-source tout en répondant aux exigences de mise à l'échelle uniques.

Perspectives d'avenir

Mettre PostgreSQL à l'échelle pour soutenir les 800 millions d'utilisateurs de ChatGPT représente une étape importante dans l'ingénierie des bases de données. Les solutions mises en œuvre par OpenAI fournissent un plan directeur pour d'autres organisations confrontées à des défis de mise à l'échelle similaires.

À mesure que le nombre d'utilisateurs continue de croître, l'architecture devra être encore affinée. Les efforts futurs pourraient se concentrer sur le sharding, des stratégies de cache avancées et des déploiements régionaux encore plus granulaires. Le parcours de mise à l'échelle de PostgreSQL est loin d'être terminé, mais le système actuel témoigne de ce qui est possible avec une planification minutieuse et une ingénierie innovante.

Questions fréquemment posées

Quel était le principal défi qu'OpenAI a rencontré avec PostgreSQL ?

Le principal défi était de gérer la charge de connexion de plus de 800 millions d'utilisateurs mensuels, ce qui a submergé la configuration initiale de la base de données à nœud unique. Cela a entraîné des problèmes de latence et a nécessité une refonte complète de l'architecture.

Comment OpenAI a-t-il mis PostgreSQL à l'échelle pour ChatGPT ?

OpenAI a mis en œuvre un pool de connexions avec PgBouncer, déployé des réplicas de lecture sur plusieurs régions et optimisé les performances d'écriture. Ils ont également construit une architecture multi-région pour une haute disponibilité et une résilience.

Pourquoi cet effort de mise à l'échelle est-il significatif ?

Il démontre comment une base de données relationnelle traditionnelle comme PostgreSQL peut être mise à l'échelle pour soutenir l'un des plus grands services d'IA au monde. Les solutions fournissent un plan directeur pour d'autres entreprises confrontées à des défis de croissance massive similaires.