M
MercyNews
Home
Back
Gambit: O Harness de Código Aberto para Construir Agentes de IA Confiáveis
Tecnologia

Gambit: O Harness de Código Aberto para Construir Agentes de IA Confiáveis

Hacker News3h ago
3 min de leitura
📋

Fatos Principais

  • Gambit é um harness de agentes de código aberto lançado para ajudar desenvolvedores a construir agentes de IA mais confiáveis.
  • O framework inverte as pipelines de orquestração tradicionais, colocando os grandes modelos de linguagem no centro do fluxo de trabalho.
  • Desenvolvedores podem definir agentes usando arquivos markdown autônomos ou programas TypeScript.
  • O sistema usa 'decks' para criar interfaces typesafe para comunicação entre diferentes agentes.
  • Avaliações automáticas chamadas 'graders' são integradas em cada etapa da cadeia de agentes.
  • O harness inclui agentes de teste que geram dados sintéticos para testes e avaliação baseados em cenários.

Um Novo Framework para Agentes de IA

O cenário do desenvolvimento de agentes de IA recebeu uma nova ferramenta significativa com o lançamento de Gambit, um harness de agentes de código aberto projetado para simplificar a criação de sistemas de IA confiáveis. Este framework aborda a orquestração complexa tipicamente necessária ao construir agentes, oferecendo um ambiente mais intuitivo e typesafe para desenvolvedores.

Diferente de frameworks de orquestração de agentes tradicionais que seguem uma pipeline pesada em termos de computação, Gambit inverte o modelo padrão. O resultado é um sistema que prioriza o grande modelo de linguagem (LLM) enquanto gerencia chamadas de ferramentas, planejamento e janelas de contexto com menos intervenção do desenvolvedor.

Invertendo a Pipeline

A orquestração de agentes tradicional frequentemente segue um caminho linear: computação → computação → computação → LLM → computação → computação → LLM. Esta estrutura pode ser pesada e ineficiente, exigindo um esforço significativo de orquestração. Gambit vira este paradigma de cabeça para baixo.

Com o novo harness, o fluxo de trabalho se torna: LLM → LLM → LLM → computação → LLM → LLM → computação → LLM. Esta mudança coloca o modelo de linguagem na vanguarda do processo, tratando o harness como um sistema operacional para o agente. Ele gerencia as interações complexas entre diferentes componentes, permitindo que desenvolvedores se concentrem na lógica em vez da infraestrutura.

Os harnesses de agentes são como um sistema operacional para um agente... eles lidam com chamadas de ferramentas, planejamento, gerenciamento de janela de contexto e não exigem tanta orquestração por parte do desenvolvedor.

"Os harnesses de agentes são como um sistema operacional para um agente... eles lidam com chamadas de ferramentas, planejamento, gerenciamento de janela de contexto e não exigem tanta orquestração por parte do desenvolvedor."

— Equipe de Desenvolvimento do Gambit

Definindo Agentes com Decks

Desenvolvedores podem descrever cada agente dentro do Gambit usando dois métodos principais: um arquivo markdown autônomo ou um programa TypeScript. Esta flexibilidade atende a diferentes preferências e requisitos de projeto, desde prototipagem rápida até código de produção robusto e type-safe.

O framework introduz o conceito de decks para gerenciar interações de agentes. Um agente raiz pode trazer dinamicamente outros agentes conforme necessário, e Gambit cria uma forma typesafe de definir as interfaces entre eles. Isso garante que os agentes possam chamar outros agentes perfeitamente, com cada agente projetado usando parâmetros de modelo específicos adaptados à sua tarefa.

  • Arquivos markdown autônomos para configuração rápida
  • Programas TypeScript completos para lógica complexa
  • Interfaces typesafe para comunicação confiável entre agentes
  • Design modular de agentes com parâmetros personalizados

Avaliação e Teste Automáticos

A garantia de qualidade é incorporada diretamente no framework Gambit através de avaliações automáticas em cada etapa da cadeia. Essas avaliações, chamadas graders, são um tipo especializado de deck projetado para avaliar e pontuar conversas ou turnos individuais.

Além dos graders, o harness suporta a definição de agentes de teste em uma base de deck por deck. Esses agentes de teste são projetados para imitar cenários realistas que um agente pode encontrar, gerando dados sintéticos tanto para revisão humana quanto para avaliação automatizada. Esta capacidade permite testes rigorosos sem a necessidade de coleta extensa de dados manual.

O desenvolvimento do Gambit foi impulsionado por experiência prática. Os criadores haviam construído anteriormente um editor de vídeo baseado em LLM, mas ficaram insatisfeitos com os resultados. Esta frustração os levou pelo caminho de melhorar a qualidade do LLM em tempo de inferência, culminando na criação deste harness.

Aplicações Práticas e Visão

Gambit está atualmente sendo testado com parceiros de design iniciais, e o feedback tem sido positivo. O framework está posicionado para habilitar uma variedade de aplicações interessantes, particularmente na comunidade de código aberto.

A visão para o Gambit inclui fomentar agentes e assistentes verdadeiramente de código aberto, onde lógica, código e prompts podem ser compartilhados facilmente. Também visa implementar uma avaliação baseada em rubricas para garantir resultados específicos, como prevenir vazamentos acidentais de PII (Informações Pessoalmente Identificáveis).

  • Agentes de código aberto compartilháveis com lógica transparente
  • Avaliação baseada em rubricas para conformidade e segurança
  • Implantação rápida de bots com intervenção humana mínima

Além disso, o harness é projetado para trabalhar com ferramentas como Codex ou Claude Code, permitindo que desenvolvedores iniciem um bot utilizável em minutos. O executor de linha de comando e os graders facilitam a construção de uma primeira versão que é eficaz com muito pouca supervisão humana.

Olhando para o Futuro

Gambit representa um passo à frente na tornar o desenvolvimento de agentes de IA mais acessível e confiável. Ao inverter a pipeline tradicional e fornecer ferramentas de avaliação integradas, ele aborda pontos críticos que desenvolvedores enfrentam ao orquestrar comportamentos complexos de agentes.

Enquanto os criadores reconhecem que o harness está faltando algumas partes óbvias, a decisão de lançá-lo cedo é intencionada para iniciar conversas e coletar feedback da comunidade. À medida que o projeto evolui, ele tem o potencial de se tornar uma ferramenta fundamental para construir a próxima geração de aplicações de IA.

Perguntas Frequentes

Qual é o propósito principal do harness Gambit?

Gambit é projetado para funcionar como um sistema operacional para agentes de IA, simplificando o processo de desenvolvimento ao lidar com chamadas de ferramentas, planejamento e gerenciamento de contexto. Seu objetivo é reduzir a necessidade de orquestração pesada por parte do desenvolvedor tipicamente exigida em frameworks de agentes.

Como o Gambit difere de frameworks de agentes tradicionais?

Frameworks tradicionais frequentemente seguem uma pipeline pesada em termos de computação, enquanto o Gambit inverte esta estrutura para priorizar o grande modelo de linguagem. Esta abordagem permite um fluxo de trabalho mais fluido onde os LLMs interagem diretamente, com suporte de tarefas de computação conforme necessário.

Quais recursos suportam teste e avaliação no Gambit?

Continue scrolling for more

IA transforma a pesquisa e as provas matemáticas
Technology

IA transforma a pesquisa e as provas matemáticas

A inteligência artificial está se tornando uma realidade na matemática. Modelos de aprendizado de máquina agora geram teoremas originais, forçando uma reavaliação da pesquisa e do ensino.

Just now
4 min
213
Read Article
The Best Sonos Speakers to Buy in 2026
Technology

The Best Sonos Speakers to Buy in 2026

After a tumultuous period, Sonos is refocusing on its core strengths. We explore the standout speakers and soundbars that define the brand's renewed commitment to high-quality audio.

2h
5 min
2
Read Article
Kaito encerra 'Yaps' com respaldo em cripto, enquanto X proíbe pagamentos por 'slopp AI'
Technology

Kaito encerra 'Yaps' com respaldo em cripto, enquanto X proíbe pagamentos por 'slopp AI'

Os tokens Kaito.ai e Cookie DAO caem mais de 15% após a X proibir pagamentos por 'slopp AI', encerrando a iniciativa 'Yaps' respaldada por cripto.

2h
5 min
12
Read Article
Ashley St. Clair processa a xAI por imagens deepfake do Grok
Technology

Ashley St. Clair processa a xAI por imagens deepfake do Grok

Ashley St. Clair processa a xAI, alegando que o chatbot Grok gerou imagens deepfake sexualmente explícitas dela, incluindo fotos de quando ela tinha 14 anos, sem consentimento.

2h
5 min
12
Read Article
Apple recebe advertência final em investigação antitruste na Índia
Economics

Apple recebe advertência final em investigação antitruste na Índia

A Comissão de Concorrência da Índia emitiu uma advertência final à Apple após mais de um ano de respostas atrasadas em investigação antitruste sobre políticas da App Store.

2h
7 min
12
Read Article
Uniswap é lançado na rede X Layer da OKX
Cryptocurrency

Uniswap é lançado na rede X Layer da OKX

Uniswap integrou-se à rede X Layer da OKX, marcando um marco importante na estratégia de finanças descentralizadas da exchange e trazendo mercados descentralizados diretamente para sua infraestrutura de camada 2.

2h
5 min
12
Read Article
Guerra das Classes Culinárias Temporada 3: Netflix anuncia formato de equipes
Entertainment

Guerra das Classes Culinárias Temporada 3: Netflix anuncia formato de equipes

A Netflix renovou a série coreana 'Guerra das Classes Culinárias' para uma terceira temporada com uma grande mudança de formato, trocando batalhas individuais por confrontos de equipes de restaurante.

2h
5 min
12
Read Article
Symbolic.ai faz parceria com News Corp para ferramentas editoriais de IA
Technology

Symbolic.ai faz parceria com News Corp para ferramentas editoriais de IA

A startup de jornalismo por IA Symbolic.ai assinou uma parceria com a News Corp de Rupert Murdoch para implementar tecnologia avançada que otimiza processos editoriais e pesquisas.

2h
5 min
13
Read Article
Unidades de Validação do Rivian R2 Saem da Linha de Produção
Automotive

Unidades de Validação do Rivian R2 Saem da Linha de Produção

A Rivian começou oficialmente a produzir unidades de validação do seu aguardado SUV elétrico R2 em sua fábrica em Normal, Illinois. O CEO RJ Scaringe confirmou que as entregas aos clientes devem começar na primeira metade do ano.

2h
5 min
15
Read Article
Deepfakes de IA inundam as redes sociais
Technology

Deepfakes de IA inundam as redes sociais

Vídeos virais usando IA de Controle de Movimento da Kling destacam novos riscos, com trocas de identidade corporal inundando redes sociais e levantando preocupações sobre proteção de identidade digital.

3h
5 min
16
Read Article
🎉

You're all caught up!

Check back later for more stories

Voltar ao inicio