M
MercyNews
Home
Back
Los LLM locales superan a los modelos en la nube en prueba de compras en Amazon
Tecnologia

Los LLM locales superan a los modelos en la nube en prueba de compras en Amazon

Hacker News15h ago
3 min de lectura
📋

Hechos Clave

  • Un LLM local de ~3B de parámetros completó con éxito un flujo completo de compras en Amazon con una tasa de éxito de 7/7 usando solo datos estructurales de la página.
  • La pila del modelo local operó con costo incremental cero y no requirió capacidades visuales, en contraste con las costosas llamadas a la API en la nube.
  • El sistema redujo la complejidad de entrada podando aproximadamente el 95% de los nodos DOM, creando una instantánea semántica compacta para el modelo.
  • El modelo local usó 11,114 tokens en comparación con los 19,956 tokens del modelo en la nube, demostrando una mayor eficiencia en el uso de tokens.
  • La capa de verificación implementó aserciones estilo Jest después de cada acción, asegurando que el agente solo pudiera proceder después de probar los cambios de estado.
  • El experimento concluyó que restringir el espacio de estado y hacer explícito el éxito mediante la verificación es más efectivo que simplemente escalar el tamaño del modelo.

La Paradoja de la Fiabilidad

La búsqueda de una IA más potente a menudo conduce a modelos en la nube más grandes y costosos. Sin embargo, un experimento reciente desafía esta sabiduría convencional al demostrar que modelos locales más pequeños pueden lograr una fiabilidad superior en tareas complejas de automatización web.

Los investigadores probaron un escenario de automatización común: completar un flujo completo de compras en Amazon. El objetivo era navegar desde la búsqueda hasta el pago, una secuencia que involucra múltiples pasos y elementos dinámicos de la página. Los resultados revelaron una contradicción sorprendente con el enfoque predominante de la industria.

El estudio comparó un modelo en la nube de alta capacidad con un modelo local compacto, midiendo tasas de éxito, uso de tokens y costo. Los hallazgos sugieren que la innovación arquitectónica puede superar el poder computacional bruto al construir agentes de IA confiables.

El Desafío de Amazon

El experimento se centró en una tarea estandarizada: buscar → primer producto → agregar al carrito → pagar. Este flujo prueba la capacidad de una IA para interpretar páginas web dinámicas, tomar decisiones y ejecutar acciones precisas sin entrada visual.

Se compararon dos sistemas principales. La línea base en la nube usó un modelo grande con capacidades visuales (GLM‑4.6). La pila de autonomía local dependió de una combinación de un planificador de razonamiento (DeepSeek R1) y un modelo ejecutor más pequeño (Qwen ~3B), ambos ejecutándose en hardware local.

Las métricas de rendimiento revelaron diferencias marcadas:

  • Modelo en la nube: Logró 1 éxito en 1 ejecución, usando 19,956 tokens a un costo de API no especificado.
  • Modelo local: Logró 7 éxitos en 7 ejecuciones, usando 11,114 tokens con costo incremental cero.

Aunque la pila local fue significativamente más lenta (405,740 ms vs. 60,000 ms), su tasa de éxito perfecta y su eficiencia de costos destacaron un intercambio crítico entre velocidad y fiabilidad.

"La fiabilidad en los agentes proviene de la verificación (aserciones en instantáneas estructuradas), no solo de escalar el tamaño del modelo."

— Hallazgos del Estudio

Innovación Arquitectónica

El éxito del modelo local no fue accidental; fue el resultado de un plano de control rediseñado. El sistema empleó tres estrategias clave para restringir el problema y garantizar resultados deterministas.

Primero, podó el DOM para reducir la complejidad. En lugar de alimentar la página completa o capturas de pantalla, el sistema generó una "instantánea semántica" compacta que contenía solo roles, texto y geometría, podando aproximadamente el 95% de los nodos.

Segundo, separó el razonamiento de la acción. Un modelo planificador determinó la intención y los resultados esperados, mientras que un modelo ejecutor separado seleccionó acciones DOM concretas como CLICK o TYPE. Esta separación de responsabilidades mejoró la precisión.

Tercero, cada paso fue controlado por una verificación estilo Jest. Después de cada acción, el sistema afirmó cambios de estado, como actualizaciones de URL o visibilidad de elementos. Si una aserción fallaba, el paso fallaba y se activaban reintentos limitados, asegurando que el agente nunca procediera sobre una suposición falsa.

De Inteligente a Funcional

Los registros revelaron cómo esta capa de verificación transformó el comportamiento del agente. En un caso, el sistema usó una anulación determinista para hacer cumplir la intención del "primer resultado", asegurando que se hiciera clic en el enlace del producto correcto.

Otro ejemplo involucró el manejo de un cajón dinámico. El sistema verificó la aparición del cajón y forzó la rama correcta, registrando un resultado claro de "PASS | add_to_cart_verified_after_drawer".

Estos no fueron análisis post-hoc; fueron puertas en línea. El sistema o probó que hizo progreso o se detuvo para recuperarse. Este enfoque va más allá de la conjetura probabilística hacia una ejecución demostrable.

La fiabilidad en los agentes proviene de la verificación (aserciones en instantáneas estructuradas), no solo de escalar el tamaño del modelo.

La conclusión es clara: la acción de mayor apalancamiento para agentes de navegador confiables no es un modelo más grande. Es restringir el espacio de estado y hacer explícito el éxito con aserciones por paso.

El Imperativo de la Verificación

Este caso de estudio demuestra que la verificación es la piedra angular de la automatización de IA confiable. Al implementar una capa de aserción rigurosa, un modelo local modesto logró una tasa de éxito perfecta donde un modelo en la nube más poderoso falló.

Las implicaciones se extienden más allá del comercio electrónico. Cualquier dominio que requiera acciones precisas y repetibles, como entrada de datos, procesamiento de formularios o administración de sistemas, puede beneficiarse de este cambio arquitectónico. El enfoque se mueve del tamaño del modelo al diseño del sistema.

A medida que los agentes de IA se integran más en los flujos de trabajo diarios, la demanda de dependabilidad sobre poder bruto solo crecerá. Este experimento proporciona un plano para construir agentes que funcionan, no solo los que parecen inteligentes.

Preguntas Frecuentes

¿Cuál fue el hallazgo principal de la prueba de automatización de compras en Amazon?

El estudio encontró que un modelo de lenguaje local más pequeño (~3B de parámetros) logró una tasa de éxito perfecta de 7/7 al completar un flujo de compras complejo en Amazon, superando a un modelo en la nube más grande que solo tuvo éxito una vez. El modelo local también usó menos tokens y no incurrió en costo incremental, demostrando que el diseño arquitectónico puede superar el poder computacional bruto.

¿Cómo logró el modelo local una fiabilidad tan alta?

El sistema usó una arquitectura de tres partes: podó el DOM para reducir la complejidad, separó el razonamiento de la acción entre dos modelos especializados e implementó un bucle de verificación con aserciones por paso. Esto aseguró que el agente solo pudiera proceder después de probar que cada acción fue exitosa, eliminando la conjetura.

¿Cuáles son las implicaciones para el desarrollo de agentes de IA?

Key Facts: 1. Un LLM local de ~3B de parámetros completó con éxito un flujo completo de compras en Amazon con una tasa de éxito de 7/7 usando solo datos estructurales de la página. 2. La pila del modelo local operó con costo incremental cero y no requirió capacidades visuales, en contraste con las costosas llamadas a la API en la nube. 3. El sistema redujo la complejidad de entrada podando aproximadamente el 95% de los nodos DOM, creando una instantánea semántica compacta para el modelo. 4. El modelo local usó 11,114 tokens en comparación con los 19,956 tokens del modelo en la nube, demostrando una mayor eficiencia en el uso de tokens. 5. La capa de verificación implementó aserciones estilo Jest después de cada acción, asegurando que el agente solo pudiera proceder después de probar los cambios de estado. 6. El experimento concluyó que restringir el espacio de estado y hacer explícito el éxito mediante la verificación es más efectivo que simplemente escalar el tamaño del modelo. FAQ: Q1: ¿Cuál fue el hallazgo principal de la prueba de automatización de compras en Amazon? A1: El estudio encontró que un modelo de lenguaje local más pequeño (~3B de parámetros) logró una tasa de éxito perfecta de 7/7 al completar un flujo de compras complejo en Amazon, superando a un modelo en la nube más grande que solo tuvo éxito una vez. El modelo local también usó menos tokens y no incurrió en costo incremental, demostrando que el diseño arquitectónico puede superar el poder computacional bruto. Q2: ¿Cómo logró el modelo local una fiabilidad tan alta? A2: El sistema usó una arquitectura de tres partes: podó el DOM para reducir la complejidad, separó el razonamiento de la acción entre dos modelos especializados e implementó un bucle de verificación con aserciones por paso. Esto aseguró que el agente solo pudiera proceder después de probar que cada acción fue exitosa, eliminando la conjetura. Q3: ¿Cuáles son las implicaciones para el desarrollo de agentes de IA? A3: Los resultados sugieren que para la automatización confiable, los desarrolladores deberían centrarse en restringir el espacio del problema e implementar verificaciones de verificación rigurosas en lugar de simplemente usar modelos más grandes. Este enfoque reduce los costos, mejora las tasas de éxito y hace que el comportamiento del agente sea más predecible y confiable. Q4: ¿Hubo un intercambio en el rendimiento? A4: Sí, la pila del modelo local fue significativamente más lenta, tomando aproximadamente 405 segundos en comparación con los 60 segundos del modelo en la nube. Sin embargo, la tasa de éxito perfecta del modelo local y el costo cero lo hicieron más práctico para escenarios donde la fiabilidad se prioriza sobre la velocidad.

Continue scrolling for more

La IA transforma la investigación y las demostraciones matemáticas
Technology

La IA transforma la investigación y las demostraciones matemáticas

La inteligencia artificial está pasando de ser una promesa a una realidad en las matemáticas. Los modelos de aprendizaje automático generan teoremas originales, forzando una reevaluación de la investigación y la enseñanza.

Just now
4 min
332
Read Article
Google Store extiende la oferta del Pixel 9a ante rumores del lanzamiento del 10a
Technology

Google Store extiende la oferta del Pixel 9a ante rumores del lanzamiento del 10a

La Google Store extiende la oferta del Pixel 9a hasta el 15 de febrero, una estrategia previa al rumor del lanzamiento del Pixel 10a. Los compradores tienen una ventana más larga para decidir.

3h
5 min
12
Read Article
Hashed presenta Maroo: La nueva blockchain de Capa 1 de Corea del Sur
Technology

Hashed presenta Maroo: La nueva blockchain de Capa 1 de Corea del Sur

Hashed presenta Maroo, una nueva blockchain de Capa 1 para Corea del Sur, diseñada para la economía de stablecoins con características de cumplimiento únicas.

4h
5 min
12
Read Article
Lenovo Legion Pro 7 con RTX 5090 baja a $3,300
Technology

Lenovo Legion Pro 7 con RTX 5090 baja a $3,300

Un portátil insignia de juegos regresa a su precio más bajo del año, ofreciendo un rendimiento de primer nivel tanto para entusiastas como para creadores.

4h
5 min
6
Read Article
‘The Masked Singer’ revela identidades de Manitas y Escarabajo
Entertainment

‘The Masked Singer’ revela identidades de Manitas y Escarabajo

El episodio más reciente de ‘The Masked Singer’ envió a casa a dos celebridades, Tone Loc y Taraji P. Henson, revelando las estrellas detrás de los disfraces de Manitas y Escarabajo.

4h
4 min
12
Read Article
Trump anuncia 'complejo' acuerdo de la OTAN sobre Groenlandia
Politics

Trump anuncia 'complejo' acuerdo de la OTAN sobre Groenlandia

El presidente de EE. UU., Donald Trump, anunció un marco "complejo" para un acuerdo sobre Groenlandia que involucra a la OTAN. Los detalles específicos siguen siendo poco claros.

4h
5 min
14
Read Article
Lotería Milionária: Bote de R$18.5 Millones Después de No Haber Ganadores
Economics

Lotería Milionária: Bote de R$18.5 Millones Después de No Haber Ganadores

El bote de la lotería +Milionária se acumuló a R$18.5 millones después de que ningún jugador coincidiera con todos los números en el último sorteo. Descubre los números ganadores y el desglose de premios.

4h
5 min
16
Read Article
El Super Sete acumula R$1.2 millones tras no haber ganador del premio mayor
Lifestyle

El Super Sete acumula R$1.2 millones tras no haber ganador del premio mayor

El premio mayor del Super Sete acumuló R$1.2 millones tras no haber ganador del sorteo 801. Un apostador acertó seis números y recibirá R$21,830.09.

4h
5 min
15
Read Article
Senado presenta proyecto de ley sobre estructura del mercado de criptomonedas
Politics

Senado presenta proyecto de ley sobre estructura del mercado de criptomonedas

El Comité de Agricultura del Senado de EE. UU. publicó el texto actualizado del proyecto de ley sobre la estructura del mercado de criptomonedas, marcando un desarrollo clave en la regulación de activos digitales. La audiencia programada para la próxima semana abordará las diferencias persistentes.

4h
5 min
15
Read Article
Robots humanoidos construyen excavadoras cada 6 minutos
Technology

Robots humanoidos construyen excavadoras cada 6 minutos

El gigante chino Zoomlion ya usa robots humanoidos en sus fábricas, produciendo una nueva excavadora cada seis minutos durante años, marcando un hito en la automatización industrial.

4h
5 min
14
Read Article
🎉

You're all caught up!

Check back later for more stories

Volver al inicio