M
MercyNews
Home
Back
Escalando o PostgreSQL para atender 800 milhões de usuários do ChatGPT
Tecnologia

Escalando o PostgreSQL para atender 800 milhões de usuários do ChatGPT

Hacker News1d ago
3 min de leitura
📋

Fatos Principais

  • O banco de dados PostgreSQL da OpenAI agora suporta mais de 800 milhões de usuários mensais ativos do ChatGPT, gerenciando petabytes de dados.
  • A arquitetura inicial do banco de dados era uma única instância do PostgreSQL, que se tornou insuficiente à medida que o número de usuários crescia exponencialmente.
  • O agrupamento de conexões usando PgBouncer foi implementado para gerenciar a avalanche de conexões simultâneas de milhões de usuários.
  • Uma implantação multi-regional com réplicas de leitura garante acesso com baixa latência para uma base de usuários global e alta disponibilidade.
  • O sistema lida com bilhões de interações diárias, exigindo estratégias sofisticadas de otimização de escrita e gerenciamento de conexões.

Resumo Rápido

A OpenAI revelou a complexa engenharia por trás do escalamento de sua infraestrutura de banco de dados PostgreSQL para suportar o crescimento explosivo do ChatGPT. Com uma base de usuários superior a 800 milhões de usuários mensais ativos, a empresa enfrentou desafios de banco de dados sem precedentes que exigiram uma reestruturação arquitetônica completa.

A jornada de uma configuração simples de banco de dados para um sistema globalmente distribuído e altamente resiliente envolveu enfrentar o gerenciamento de conexões, a consistência dos dados e os gargalos de desempenho. Esta análise detalhada revela como a OpenAI transformou uma única instância de banco de dados em uma potência capaz de lidar com bilhões de interações diárias.

O Desafio do Escalamento

A arquitetura inicial para o backend do ChatGPT dependia de uma configuração direta do PostgreSQL, que rapidamente se tornou insuficiente à medida que o número de usuários disparava. O principal gargalo surgiu no gerenciamento de conexões, onde milhares de usuários simultâneos sobrecarregaram os limites de conexão do banco de dados, levando a latência e instabilidade.

À medida que o sistema cresceu, a equipe identificou vários pontos críticos que precisavam de atenção imediata:

  • Tempestades de conexões de milhões de solicitações simultâneas de usuários
  • Cargas de trabalho pesadas em escrita de histórico de bate-papo e dados de usuário
  • Garantir leituras de baixa latência para usuários globais
  • Mantendo a consistência dos dados entre regiões

O volume massivo de dados gerado por 800 milhões de usuários exigiu uma rethink fundamental de como os dados eram armazenados, acessados e replicados. Bancos de dados de nó único tradicionais não eram mais viáveis para essa escala.

"A mudança para uma arquitetura de réplica de leitura foi essencial para manter o desempenho à medida que nossa base de usuários crescia exponencialmente."

— Equipe de Engenharia da OpenAI

Evolução Arquitetônica

A solução da OpenAI envolveu uma abordagem em múltiplas camadas para a arquitetura do banco de dados. A equipe implementou o agrupamento de conexões usando PgBouncer para gerenciar a avalanche de conexões de entrada de forma eficiente, reduzindo a sobrecarga no servidor do banco de dados principal.

Para escalabilidade de leitura, eles implantaram uma rede de réplicas de leitura

em múltiplas regiões. Isso permitiu que o sistema distribuísse as consultas de leitura longe do nó principal de escrita, melhorando significativamente os tempos de resposta para usuários em todo o mundo.

A mudança para uma arquitetura de réplica de leitura foi essencial para manter o desempenho à medida que nossa base de usuários crescia exponencialmente.

Além disso, a equipe otimizou o desempenho de escrita agrupando operações e ajustando finamente as configurações do banco de dados. Eles também introduziram a multiplexação de conexões para lidar com a alta concorrência sem esgotar os recursos do banco de dados.

Resiliência Global

Com uma base de usuários global, a alta disponibilidade tornou-se essencial. A OpenAI implementou uma estratégia de implantação multi-regional, garantindo que, se uma região experimentasse uma falha, o tráfego pudesse ser redirecionado para réplicas saudáveis com interrupção mínima.

O sistema agora possui:

  • Mecanismos de failover automático para nós principais do banco de dados
  • Réplicas de leitura georreplicadas para acesso com baixa latência
  • Monitoramento contínuo e alertas para a saúde do banco de dados
  • Protocolos de backup e recuperação para cenários de desastre

Essas medidas garantem que o ChatGPT permaneça acessível mesmo durante falhas na infraestrutura, um requisito crítico para um serviço usado por centenas de milhões diariamente.

Tecnologias Principais

A pilha que alimenta essa escala massiva é uma mistura de ferramentas de código aberto e engenharia personalizada. O PostgreSQL permanece o banco de dados principal, mas é complementado por várias tecnologias de suporte:

  • PgBouncer para agrupamento e gerenciamento de conexões
  • Réplicas de leitura para distribuir a carga de leitura
  • Middleware personalizado para roteamento inteligente de consultas
  • Sistemas de monitoramento para insights de desempenho em tempo real

A OpenAI também desenvolveu ferramentas proprietárias para lidar com desafios específicos, como gerenciar tempestades de conexões e otimizar cargas de trabalho pesadas em escrita. Essa abordagem híbrida permite que eles aproveitem a estabilidade do software de código aberto enquanto atendem a requisitos de escalamento únicos.

Olhando para o Futuro

Escalar o PostgreSQL para suportar 800 milhões de usuários do ChatGPT representa um marco significativo na engenharia de bancos de dados. As soluções implementadas pela OpenAI fornecem um roteiro para outras organizações enfrentando desafios de escalamento semelhantes.

À medida que o número de usuários continua a crescer, a arquitetura precisará de refinamentos futuros. Os esforços futuros podem focar em sharding, estratégias avançadas de cache e implantações regionais ainda mais granulares. A jornada de escalamento do PostgreSQL está longe de terminar, mas o sistema atual é um testemunho do que é possível com planejamento cuidadoso e engenharia inovadora.

Perguntas Frequentes

Qual foi o principal desafio enfrentado pela OpenAI com o PostgreSQL?

O desafio principal foi gerenciar a carga de conexões de mais de 800 milhões de usuários mensais, que sobrecarregou a configuração inicial de banco de dados de nó único. Isso levou a problemas de latência e exigiu uma reestruturação arquitetônica completa.

Como a OpenAI escalou o PostgreSQL para o ChatGPT?

A OpenAI implementou agrupamento de conexões com PgBouncer, implantou réplicas de leitura em múltiplas regiões e otimizou o desempenho de escrita. Eles também construíram uma arquitetura multi-regional para alta disponibilidade e resiliência.

Por que esse esforço de escalamento é significativo?

Demonstra como um banco de dados relacional tradicional como o PostgreSQL pode ser escalado para suportar um dos maiores serviços de IA do mundo. As soluções fornecem um roteiro para outras empresas enfrentando desafios semelhantes de crescimento massivo.

Continue scrolling for more

IA transforma a pesquisa e as provas matemáticas
Technology

IA transforma a pesquisa e as provas matemáticas

A inteligência artificial está se tornando uma realidade na matemática. Modelos de aprendizado de máquina agora geram teoremas originais, forçando uma reavaliação da pesquisa e do ensino.

Just now
4 min
352
Read Article
CEO da Nvidia, Jensen Huang, deve visitar China enquanto vendas de chips de IA estagnam
Technology

CEO da Nvidia, Jensen Huang, deve visitar China enquanto vendas de chips de IA estagnam

O CEO da Nvidia, Jensen Huang, deve visitar a China antes do Ano Novo Lunar para discutir a estagnação nas vendas de chips de IA em um mercado estratégico.

1d
5 min
1
Read Article
Inovador cria luz que reage a ondas de rádio
Technology

Inovador cria luz que reage a ondas de rádio

Um novo projeto DIY cria uma luminária que reage a ondas de rádio ambientes, transformando sinais invisíveis em luz visível. O dispositivo oferece uma visualização tangível do espectro eletromagnético ao nosso redor.

1d
5 min
1
Read Article
Gboard introduz atalho inteligente para apóstrofe
Technology

Gboard introduz atalho inteligente para apóstrofe

O Gboard para Android está recebendo um novo atalho 'auto-switch após apóstrofes', uma melhoria de qualidade de vida que agiliza a digitação ao retornar automaticamente ao conjunto principal de caracteres após um apóstrofe.

1d
5 min
1
Read Article
TikTok Finaliza Divisão Histórica do Aplicativo nos EUA
Politics

TikTok Finaliza Divisão Histórica do Aplicativo nos EUA

O TikTok finalizou um acordo histórico para separar suas operações americanas da rede global, resolvendo um impasse de alto risco que ameaçava uma proibição completa nos EUA.

1d
5 min
1
Read Article
EUA completam retirada da OMS: o que isso significa
Politics

EUA completam retirada da OMS: o que isso significa

Os EUA completaram oficialmente sua retirada da OMS, marcando uma mudança significativa na política de saúde global. A decisão afeta vigilância internacional e financiamento.

1d
5 min
1
Read Article
Negócio de API da OpenAI ultrapassa US$ 1 bilhão em receita mensal
Technology

Negócio de API da OpenAI ultrapassa US$ 1 bilhão em receita mensal

O negócio de API da OpenAI ultrapassou US$ 1 bilhão em receita mensal, anunciou o CEO Sam Altman. A receita vem exclusivamente da API que permite a desenvolvedores incorporar modelos da empresa em seus produtos.

1d
5 min
9
Read Article
Revolut Abandona Fusão Bancária nos EUA e Busca Licença Independente
Economics

Revolut Abandona Fusão Bancária nos EUA e Busca Licença Independente

A fintech britânica Revolut abandonou o plano de adquirir um banco nos EUA e agora busca uma licença bancária independente diretamente dos reguladores americanos.

1d
5 min
8
Read Article
Lançamento do Satélite de Internet 'Dawn' da Rússia é Adiado
Technology

Lançamento do Satélite de Internet 'Dawn' da Rússia é Adiado

O lançamento da primeira constelação de satélites de internet 'Dawn' da Rússia foi adiado para 2026 devido a atrasos na produção. O projeto, financiado com 100 bilhões de rublos, enfrenta questionamentos sobre sua viabilidade comercial.

1d
5 min
7
Read Article
Salman Rushdie: O Mestre do Excesso Literário
Culture

Salman Rushdie: O Mestre do Excesso Literário

De Bombaim ao reconhecimento global, a obra de Salman Rushdie navega pela colisão de culturas, o poder da imaginação e a batalha duradoura entre ironia e literalismo.

1d
5 min
7
Read Article
🎉

You're all caught up!

Check back later for more stories

Voltar ao inicio