M
MercyNews
Home
Back
Modelos Locais de LLM Superam Modelos de Nuvem em Teste de Compras na Amazon
Tecnologia

Modelos Locais de LLM Superam Modelos de Nuvem em Teste de Compras na Amazon

Hacker News15h ago
3 min de leitura
📋

Fatos Principais

  • Um LLM local com ~3 bilhões de parâmetros completou com sucesso um fluxo completo de compras na Amazon com uma taxa de sucesso de 7/7 usando apenas dados estruturados da página.
  • A pilha do modelo local operou com custo incremental zero e não exigiu capacidades de visão, contrastando com chamadas de API de nuvem caras.
  • O sistema reduziu a complexidade de entrada eliminando aproximadamente 95% dos nós do DOM, criando um instantâneo semântico compacto para o modelo.
  • O modelo local usou 11.114 tokens em comparação com os 19.956 tokens do modelo de nuvem, demonstrando maior eficiência no uso de tokens.
  • A camada de verificação implementou asserções no estilo Jest após cada ação, garantindo que o agente só pudesse prosseguir após provar mudanças de estado.
  • O experimento concluiu que restringir o espaço de estado e tornar o sucesso explícito através da verificação é mais eficaz do que simplesmente escalar o tamanho do modelo.

O Paradoxo da Confiabilidade

A busca por IA mais poderosa frequentemente leva a modelos de nuvem maiores e mais caros. No entanto, um experimento recente desafia essa sabedoria convencional ao demonstrar que modelos menores e locais podem alcançar confiabilidade superior em tarefas complexas de automação da web.

Pesquisadores testaram um cenário de automação comum: completar um fluxo completo de compras na Amazon. O objetivo era navegar da busca até o checkout, uma sequência envolvendo múltiplos passos e elementos dinâmicos de página. Os resultados revelaram uma contradição surpreendente em relação à abordagem predominante da indústria.

O estudo comparou um modelo de nuvem de alta capacidade contra um modelo local compacto, medindo taxas de sucesso, uso de tokens e custo. Os achados sugerem que a inovação arquitetural pode superar o poder computacional bruto na construção de agentes de IA confiáveis.

O Desafio da Amazon

O experimento se concentrou em uma tarefa padronizada: busca → primeiro produto → adicionar ao carrinho → checkout. Este fluxo testa a capacidade de uma IA de interpretar páginas da web dinâmicas, tomar decisões e executar ações precisas sem entrada visual.

Dois sistemas principais foram comparados. A referência de nuvem usou um grande modelo com capacidade de visão (GLM‑4.6). A pilha de autonomia local dependeu de uma combinação de um planejador de raciocínio (DeepSeek R1) e um modelo executor menor (Qwen ~3B), ambos executando em hardware local.

As métricas de desempenho revelaram diferenças marcantes:

  • Modelo de Nuvem: Conseguiu 1 sucesso em 1 execução, usando 19.956 tokens a um custo de API não especificado.
  • Modelo Local: Conseguiu 7 sucessos em 7 execuções, usando 11.114 tokens com custo incremental zero.

Enquanto a pilha local foi significativamente mais lenta (405.740ms vs. 60.000ms), sua taxa de sucesso perfeita e eficiência de custo destacaram um trade-off crítico entre velocidade e confiabilidade.

"A confiabilidade em agentes vem da verificação (asserções em instantâneos estruturados), não apenas do escalamento do tamanho do modelo."

— Achados do Estudo

Inovação Arquitetural

O sucesso do modelo local não foi acidental; resultou de um plano de controle redesenhado. O sistema empregou três estratégias principais para restringir o problema e garantir resultados determinísticos.

Primeiro, ele eliminou nós do DOM para reduzir a complexidade. Em vez de alimentar toda a página ou capturas de tela, o sistema gerou um "instantâneo semântico" compacto contendo apenas funções, texto e geometria, eliminando aproximadamente 95% dos nós.

Segundo, separou o raciocínio da ação. Um modelo planejador determinou a intenção e os resultados esperados, enquanto um modelo executor separado selecionou ações concretas do DOM como CLICAR ou DIGITAR. Essa separação de responsabilidades melhorou a precisão.

Terceiro, cada passo foi controlado por verificação no estilo Jest

. Após cada ação, o sistema afirmava mudanças de estado—como atualizações de URL ou visibilidade de elementos. Se uma asserção falhasse, o passo falharia e acionaria tentativas limitadas, garantindo que o agente nunca prosseguisse com uma suposição falsa.

De Inteligente para Funcional

Os logs revelaram como essa camada de verificação transformou o comportamento do agente. Em um caso, o sistema usou uma substituição determinística para forçar a intenção do "primeiro resultado", garantindo que o link do produto correto fosse clicado.

Outro exemplo envolveu lidar com uma gaveta dinâmica. O sistema verificou a aparência da gaveta e forçou o ramo correto, registrando um resultado claro "PASS | add_to_cart_verified_after_drawer".

Esses não eram pós-análises; eram portões em linha. O sistema ou provou que fez progresso ou parou para se recuperar. Essa abordagem vai além da adivinhação probabilística para uma execução demonstrável.

A confiabilidade em agentes vem da verificação (asserções em instantâneos estruturados), não apenas do escalamento do tamanho do modelo.

A lição é clara: a ação de maior alavancagem para agentes de navegador confiáveis não é um modelo maior. É restringir o espaço de estado e tornar o sucesso explícito com asserções por passo.

O Imperativo da Verificação

Este estudo de caso demonstra que a verificação é a pedra angular da automação de IA confiável. Ao implementar uma camada rigorosa de asserções, um modelo local modesto alcançou uma taxa de sucesso perfeita onde um modelo de nuvem mais poderoso falhou.

As implicações vão além do comércio eletrônico. Qualquer domínio que exija ações precisas e repetíveis—como entrada de dados, processamento de formulários ou administração de sistemas—pode se beneficiar dessa mudança arquitetural. O foco muda do tamanho do modelo para o design do sistema.

À medida que os agentes de IA se tornam mais integrados ao fluxo de trabalho diário, a demanda por confiabilidade em vez de poder bruto só crescerá. Este experimento fornece um plano para construir agentes que funcionam, não apenas aqueles que parecem inteligentes.

Perguntas Frequentes

Qual foi a principal descoberta do teste de automação de compras na Amazon?

O estudo descobriu que um modelo de linguagem local menor (~3 bilhões de parâmetros) alcançou uma taxa de sucesso perfeita de 7/7 na conclusão de um fluxo complexo de compras na Amazon, superando um modelo de nuvem maior que só teve sucesso uma vez. O modelo local também usou menos tokens e não teve custo incremental, demonstrando que o design arquitetural pode superar o poder computacional bruto.

Como o modelo local alcançou uma confiabilidade tão alta?

O sistema usou uma arquitetura de três partes: eliminou nós do DOM para reduzir a complexidade, separou o raciocínio da ação entre dois modelos especializados e implementou um loop de verificação com asserções por passo. Isso garantiu que o agente só pudesse prosseguir após provar que cada ação foi bem-sucedida, eliminando a adivinhação.

Quais são as implicações para o desenvolvimento de agentes de IA?

Key Facts: 1. Um LLM local com ~3 bilhões de parâmetros completou com sucesso um fluxo completo de compras na Amazon com uma taxa de sucesso de 7/7 usando apenas dados estruturados da página. 2. A pilha do modelo local operou com custo incremental zero e não exigiu capacidades de visão, contrastando com chamadas de API de nuvem caras. 3. O sistema reduziu a complexidade de entrada eliminando aproximadamente 95% dos nós do DOM, criando um instantâneo semântico compacto para o modelo. 4. O modelo local usou 11.114 tokens em comparação com os 19.956 tokens do modelo de nuvem, demonstrando maior eficiência no uso de tokens. 5. A camada de verificação implementou asserções no estilo Jest após cada ação, garantindo que o agente só pudesse prosseguir após provar mudanças de estado. 6. O experimento concluiu que restringir o espaço de estado e tornar o sucesso explícito através da verificação é mais eficaz do que simplesmente escalar o tamanho do modelo. FAQ: Q1: Qual foi a principal descoberta do teste de automação de compras na Amazon? A1: O estudo descobriu que um modelo de linguagem local menor (~3 bilhões de parâmetros) alcançou uma taxa de sucesso perfeita de 7/7 na conclusão de um fluxo complexo de compras na Amazon, superando um modelo de nuvem maior que só teve sucesso uma vez. O modelo local também usou menos tokens e não teve custo incremental, demonstrando que o design arquitetural pode superar o poder computacional bruto. Q2: Como o modelo local alcançou uma confiabilidade tão alta? A2: O sistema usou uma arquitetura de três partes: eliminou nós do DOM para reduzir a complexidade, separou o raciocínio da ação entre dois modelos especializados e implementou um loop de verificação com asserções por passo. Isso garantiu que o agente só pudesse prosseguir após provar que cada ação foi bem-sucedida, eliminando a adivinhação. Q3: Quais são as implicações para o desenvolvimento de agentes de IA? A3: Os resultados sugerem que para automação confiável, os desenvolvedores devem focar em restringir o espaço do problema e implementar verificações rigorosas em vez de simplesmente usar modelos maiores. Essa abordagem reduz custos, melhora taxas de sucesso e torna o comportamento do agente mais previsível e confiável. Q4: Houve um trade-off no desempenho? A4: Sim, a pilha do modelo local foi significativamente mais lenta, levando cerca de 405 segundos em comparação com os 60 segundos do modelo de nuvem. No entanto, a taxa de sucesso perfeita do modelo local e o custo zero o tornaram mais prático para cenários onde a confiabilidade é priorizada em relação à velocidade. === TRANSLATION REQUIREMENTS === 1. Target Language: Portuguese (Brazilian) 2. Maintain professional news tone 3. Keep HTML tags intact 4. Adapt cultural references appropriately 5. Keep names and proper nouns in original form === OUTPUT JSON SCHEMA === { "title": "Translated title", "content": "Translated full HTML content", "excerpt": "Translated excerpt (150-200 chars)", "tldr": "Translated TL;DR (150-200 words)", "keyFacts": ["Translated fact 1", "Translated fact 2", ...], "faq": [ {"question": "Translated question", "answer": "Translated answer"} ], "wordCount": 0 } Translate now:

Continue scrolling for more

IA transforma a pesquisa e as provas matemáticas
Technology

IA transforma a pesquisa e as provas matemáticas

A inteligência artificial está se tornando uma realidade na matemática. Modelos de aprendizado de máquina agora geram teoremas originais, forçando uma reavaliação da pesquisa e do ensino.

Just now
4 min
332
Read Article
Google Store amplia promoção do Pixel 9a em meio a rumores de lançamento do 10a
Technology

Google Store amplia promoção do Pixel 9a em meio a rumores de lançamento do 10a

A Google Store está ampliando a promoção do Pixel 9a até 15 de fevereiro, movimento estratégico antecedendo os rumores de lançamento do Pixel 10a.

3h
5 min
12
Read Article
Hashed apresenta o Maroo: Nova blockchain Layer 1 da Coreia do Sul
Technology

Hashed apresenta o Maroo: Nova blockchain Layer 1 da Coreia do Sul

Hashed apresentou a blockchain Maroo, um novo conceito Layer 1 projetado para a economia de stablecoins da Coreia do Sul, combinando abertura pública com conformidade regulamentar.

4h
5 min
12
Read Article
Lenovo Legion Pro 7 com RTX 5090 cai para US$ 3.300
Technology

Lenovo Legion Pro 7 com RTX 5090 cai para US$ 3.300

Um notebook gaming de ponta retorna ao seu menor preço do ano, oferecendo desempenho de topo para entusiastas e criadores.

4h
5 min
6
Read Article
‘The Masked Singer’ revela identidades do Mestre de Obras e do Escaravelho
Entertainment

‘The Masked Singer’ revela identidades do Mestre de Obras e do Escaravelho

O programa ‘The Masked Singer’ da Fox revelou as identidades de duas celebridades no episódio ‘Noite Sem Pistas’: Tone Loc como o Mestre de Obras e Taraji P. Henson como o Escaravelho.

4h
4 min
12
Read Article
Trump anuncia 'complexo' acordo da OTAN sobre a Groenlândia
Politics

Trump anuncia 'complexo' acordo da OTAN sobre a Groenlândia

O presidente dos EUA, Donald Trump, anunciou uma estrutura para um acordo 'complexo' sobre a Groenlândia envolvendo a OTAN, mas os detalhes específicos permanecem desconhecidos.

4h
5 min
14
Read Article
Milionária: R$ 18,5 Milhões de Prêmio Acumulado Após Sem Vencedores
Economics

Milionária: R$ 18,5 Milhões de Prêmio Acumulado Após Sem Vencedores

O prêmio principal da +Milionária acumulou para R$ 18,5 milhões após nenhum jogador acertar todos os números no último sorteio. Descubra os números sorteados e o detalhamento dos prêmios.

4h
5 min
16
Read Article
Mega-Sena acumula R$ 1,2 milhão após não haver ganhador da faixa principal
Lifestyle

Mega-Sena acumula R$ 1,2 milhão após não haver ganhador da faixa principal

O prêmio da Super Sete acumulou R$ 1,2 milhão após nenhum apostador acertar os sete números. Descubra os números sorteados e o detalhamento dos prêmios.

4h
5 min
15
Read Article
Senado revela projeto de lei sobre estrutura do mercado de criptomoedas
Politics

Senado revela projeto de lei sobre estrutura do mercado de criptomoedas

O Comitê de Agricultura do Senado dos EUA divulgou o texto atualizado do projeto de lei sobre estrutura do mercado de criptomoedas, marcando um passo significativo na regulação de ativos digitais. A audiência agendada para a próxima semana discutirá as diferenças ainda não resolvidas.

4h
5 min
15
Read Article
Robôs humanoides constroem escavadeiras a cada 6 minutos
Technology

Robôs humanoides constroem escavadeiras a cada 6 minutos

O gigante chinês de equipamentos pesados Zoomlion usa robôs humanoides em sua fábrica, produzindo uma nova escavadeira a cada 6 minutos há anos. Essa automação avançada impulsiona sua 'terceira curva de crescimento' e representa um marco na manufatura industrial.

4h
5 min
14
Read Article
🎉

You're all caught up!

Check back later for more stories

Voltar ao inicio