M
MercyNews
Home
Back
Новый инструмент визуализирует следы работы браузерных агентов для разработчиков
Технологии

Новый инструмент визуализирует следы работы браузерных агентов для разработчиков

Hacker News7h ago
3 мин чтения
📋

Ключевые факты

  • Джастин, разработчик поисковой системы Phind, создает новый инструмент для анализа следов работы браузерных агентов.
  • Инструмент решает проблему отладки сложных LLM-агентов, где обратная связь от пользователей часто составляет менее 1% от общего числа взаимодействий.
  • Публичная демонстрация инструмента визуализации в настоящее время доступна, использует следы, сгенерированные GPT-5.
  • Среди будущих функций рассматривается возможность живого запроса прошлых сбоев и использование моделей предпочтений для улучшения сигналов данных.
  • Разработчик активно ищет обратную связь и сотрудничество с командами, генерирующими более 10 000 следов в день.

Новый взгляд на AI-агентов

Быстрая эволюция LLM-агентов создала новую границу в отладке программного обеспечения. Поскольку эти агенты выполняют все более сложные задачи, понимание того, где и почему они терпят неудачу, стало значительным препятствием для разработчиков. Традиционные методы сбора обратной связи от пользователей часто не срабатывают, оставляя инженеров разбираться в горах данных с небольшим руководством.

Чтобы восполнить этот пробел, Джастин, разработчик популярной поисковой системы Phind, представил новый инструмент визуализации. Эта инициатива призвана пролить свет на непрозрачную внутреннюю работу браузерных агентов, предлагая структурированный способ анализа их поведения и выявления ошибок.

Прецедент Phind

Путь Джастин в отладку агентов начался с проблем, с которыми столкнулись при создании Phind. Платформа обрабатывала высокий объем ежедневных поисковых запросов, но испытывала трудности с получением действенной обратной связи от своей пользовательской базы. Менее 1% пользователей предоставили явную обратную связь о плохих результатах поиска, создавая «слепое пятно» в процессе разработки.

Этот недостаток прямого ввода заставил команду полагаться на два неэффективных метода: вручную копаться в поисковых логах или вносить широкие системные улучшения и надеяться на лучшее. Этот опыт подчеркнул критическую потребность в лучших диагностических инструментах, урок, который напрямую информирует текущий проект.

  • Высокий объем ежедневного поиска в Phind
  • Менее 1% пользователей оставляют обратную связь
  • Полагание на ручной анализ логов
  • Сложность в целевом улучшении систем

"Я собрал демо, используя следы работы браузерных агентов (gpt-5)."

— Джастин, разработчик

Масштабирование сложности

Если отладка стандартных поисковых запросов была сложной, управление браузерными агентами представляет еще большую проблему. Эти агенты работают со значительно более длинными и сложными следами, чем простые поисковые запросы. Объем данных, генерируемых одной сессией агента, делает ручной просмотр трудоемким и часто непрактичным для команд разработчиков.

Признавая, что эта проблема только усиливается с масштабом, Джастин создает инструмент, специально разработанный для анализа выходных данных LLM. Цель — помочь разработчикам LLM-приложений и агентов точно понять, где и почему что-то ломается, превращая сырые данные в действенные инсайты.

Демонстрация Trails

Для демонстрации концепции была развернута живая демонстрация, использующая следы работы браузерных агентов, сгенерированные GPT-5. Инструмент, размещенный на Vercel, предоставляет визуальный интерфейс для изучения сложного поведения этих агентов. Хотя проект описывается как находящийся на ранней стадии, он представляет собой осязаемый шаг к решению проблемы видимости в разработке AI-агентов.

"Я собрал демо, используя следы работы браузерных агентов (gpt-5)."

Текущий фокус — на сборе обратной связи от сообщества разработчиков для улучшения возможностей инструмента и пользовательского опыта.

Будущая дорожная карта

Видение инструмента простирается далеко за пределы текущей демонстрации. Ожидается, что будущие итерации включат такие функции, как живой запрос прошлых сбоев для текущих работающих агентов, что позволит проводить устранение неполадок в реальном времени. Кроме того, изучается интеграция моделей предпочтений для расширения данных со скудными сигналами, что еще больше повысит диагностическую точность инструмента.

Джастин активно ищет обратную связь по текущей демонстрации и заинтересован в связи с командами, создающими агентов, которые генерируют 10 000+ следов в день. Такое сотрудничество предоставит необходимый масштаб для стресс-тестирования инструмента и ускорит его разработку.

Взгляд в будущее

Введение этого инструмента визуализации знаменует собой многообещающее развитие в экосистеме AI-агентов. Решая фундаментальную проблему анализа следов, он потенциально может значительно ускорить отладку и улучшение сложных LLM-приложений.

По мере того как проект эволюционирует из демонстрации в более надежную платформу, он может стать важным инструментом для разработчиков, сталкивающихся со сложностями автономных агентов. Обратная связь сообщества будет иметь решающее значение в формировании его окончательного вида.

Часто задаваемые вопросы

Что предназначен делать новый инструмент?

Инструмент предназначен для анализа следов работы браузерных агентов, помогая разработчикам понять, где и почему их LLM-приложения ломаются. Он визуализирует сложное поведение агентов, чтобы сделать отладку более эффективной.

Кто стоит за этой разработкой?

Инструмент разрабатывается Джастином, создателем поисковой системы Phind. Его предыдущий опыт подчеркнул трудности отладки систем со скудной обратной связью от пользователей.

Инструмент доступен для использования сейчас?

Да, демо-версия в настоящее время доступна для публичной обратной связи. Она использует следы работы браузерных агентов, сгенерированные GPT-5, чтобы продемонстрировать свои возможности визуализации.

Каковы будущие планы для инструмента?

Будущие планы включают добавление возможностей живого запроса для устранения неполадок в реальном времени и интеграцию моделей предпочтений для лучшего анализа данных со скудными сигналами. Разработчик также ищет сотрудничество с командами, работающими с высокими объемами агентов.

Continue scrolling for more

ИИ преобразует математические исследования и доказательства
Technology

ИИ преобразует математические исследования и доказательства

Искусственный интеллект перешел из статуса непостоянного обещания в реальность, преобразуя математические исследования. Модели машинного обучения теперь генерируют оригинальные теоремы.

Just now
4 min
367
Read Article
US unveils national defence strategy to counter China in Indo-Pacific
Politics

US unveils national defence strategy to counter China in Indo-Pacific

New plan prioritises security in the region and a renewed focus on the western hemisphere

34m
3 min
0
Read Article
Crime

Caroline Ellison Former Alameda CEO Released from Prison After 440 Days

Article URL: https://www.sec.gov/enforcement-litigation/litigation-releases/lr-26450 Comments URL: https://news.ycombinator.com/item?id=46740644 Points: 11 # Comments: 0

42m
3 min
0
Read Article
Иран угрожает «полной войной» на фоне развертывания американского флота
Politics

Иран угрожает «полной войной» на фоне развертывания американского флота

Американский флот движется в Персидский залив, а Иран угрожает «самыми жесткими мерами» в ответ на любую агрессию, что обостряет региональную напряженность.

2h
5 min
4
Read Article
Стратегия Google в школах: формирование лояльности к бренду на всю жизнь
Technology

Стратегия Google в школах: формирование лояльности к бренду на всю жизнь

Внутренние документы Google из иска по защите прав детей раскрывают стратегию по вовлечению школьников в свою экосистему для формирования лояльности к бренду на всю жизнь.

2h
5 min
3
Read Article
Лидеры Великобритании осудили заявления Трампа о НАТО в Афганистане
Politics

Лидеры Великобритании осудили заявления Трампа о НАТО в Афганистане

Лидеры Великобритании осудили заявления Дональда Трампа о роли НАТО в Афганистане, назвав их исторически неточными. Принц Гарри и премьер-министр подчеркнули жертвы союзников.

2h
7 min
1
Read Article
Масштабный снегопад проверяет устойчивость цепочек поставок США
Economics

Масштабный снегопад проверяет устойчивость цепочек поставок США

Масштабный зимний шторм охватывает США, проверяя устойчивость логистических сетей. Эксперты считают, что ситуация управляема при эффективной работе защитных мер.

2h
5 min
3
Read Article
Фильтры Clearly Filtered: скидки 10-19%
Lifestyle

Фильтры Clearly Filtered: скидки 10-19%

Текущая акция предлагает значительную экономию на системах фильтрации воды Clearly Filtered. В статье рассмотрены доступные скидки и результаты недавнего тестирования производительности.

2h
3 min
3
Read Article
Ноутбуки Nvidia на Arm бросают вызов Intel Inside
Technology

Ноутбуки Nvidia на Arm бросают вызов Intel Inside

Утечка информации показала, что Lenovo разработала шесть ноутбуков на базе будущих процессоров Nvidia N1 и N1X, что знаменует собой крупный сдвиг на рынке Windows-ноутбуков.

2h
5 min
3
Read Article
Федеральный суд приказал разблокировать 5 миллиардов долларов для зарядных станций электромобилей
Politics

Федеральный суд приказал разблокировать 5 миллиардов долларов для зарядных станций электромобилей

Федеральный суд приказал разблокировать 5 миллиардов долларов для зарядных станций электромобилей, положив конец годовому юридическому спору.

2h
5 min
4
Read Article
🎉

You're all caught up!

Check back later for more stories

На главную