Новый инструмент визуализирует следы работы браузерных агентов для разработчиков

📋

Ключевые факты

Джастин, разработчик поисковой системы Phind, создает новый инструмент для анализа следов работы браузерных агентов.
Инструмент решает проблему отладки сложных LLM-агентов, где обратная связь от пользователей часто составляет менее 1% от общего числа взаимодействий.
Публичная демонстрация инструмента визуализации в настоящее время доступна, использует следы, сгенерированные GPT-5.
Среди будущих функций рассматривается возможность живого запроса прошлых сбоев и использование моделей предпочтений для улучшения сигналов данных.
Разработчик активно ищет обратную связь и сотрудничество с командами, генерирующими более 10 000 следов в день.

Новый взгляд на AI-агентов

Быстрая эволюция LLM-агентов создала новую границу в отладке программного обеспечения. Поскольку эти агенты выполняют все более сложные задачи, понимание того, где и почему они терпят неудачу, стало значительным препятствием для разработчиков. Традиционные методы сбора обратной связи от пользователей часто не срабатывают, оставляя инженеров разбираться в горах данных с небольшим руководством.

Чтобы восполнить этот пробел, Джастин, разработчик популярной поисковой системы Phind, представил новый инструмент визуализации. Эта инициатива призвана пролить свет на непрозрачную внутреннюю работу браузерных агентов, предлагая структурированный способ анализа их поведения и выявления ошибок.

Прецедент Phind

Путь Джастин в отладку агентов начался с проблем, с которыми столкнулись при создании Phind. Платформа обрабатывала высокий объем ежедневных поисковых запросов, но испытывала трудности с получением действенной обратной связи от своей пользовательской базы. Менее 1% пользователей предоставили явную обратную связь о плохих результатах поиска, создавая «слепое пятно» в процессе разработки.

Этот недостаток прямого ввода заставил команду полагаться на два неэффективных метода: вручную копаться в поисковых логах или вносить широкие системные улучшения и надеяться на лучшее. Этот опыт подчеркнул критическую потребность в лучших диагностических инструментах, урок, который напрямую информирует текущий проект.

Высокий объем ежедневного поиска в Phind
Менее 1% пользователей оставляют обратную связь
Полагание на ручной анализ логов
Сложность в целевом улучшении систем

"Я собрал демо, используя следы работы браузерных агентов (gpt-5)."
— Джастин, разработчик

Масштабирование сложности

Если отладка стандартных поисковых запросов была сложной, управление браузерными агентами представляет еще большую проблему. Эти агенты работают со значительно более длинными и сложными следами, чем простые поисковые запросы. Объем данных, генерируемых одной сессией агента, делает ручной просмотр трудоемким и часто непрактичным для команд разработчиков.

Признавая, что эта проблема только усиливается с масштабом, Джастин создает инструмент, специально разработанный для анализа выходных данных LLM. Цель — помочь разработчикам LLM-приложений и агентов точно понять, где и почему что-то ломается, превращая сырые данные в действенные инсайты.

Демонстрация Trails

Для демонстрации концепции была развернута живая демонстрация, использующая следы работы браузерных агентов, сгенерированные GPT-5. Инструмент, размещенный на Vercel, предоставляет визуальный интерфейс для изучения сложного поведения этих агентов. Хотя проект описывается как находящийся на ранней стадии, он представляет собой осязаемый шаг к решению проблемы видимости в разработке AI-агентов.

"Я собрал демо, используя следы работы браузерных агентов (gpt-5)."

Текущий фокус — на сборе обратной связи от сообщества разработчиков для улучшения возможностей инструмента и пользовательского опыта.

Будущая дорожная карта

Видение инструмента простирается далеко за пределы текущей демонстрации. Ожидается, что будущие итерации включат такие функции, как живой запрос прошлых сбоев для текущих работающих агентов, что позволит проводить устранение неполадок в реальном времени. Кроме того, изучается интеграция моделей предпочтений для расширения данных со скудными сигналами, что еще больше повысит диагностическую точность инструмента.

Джастин активно ищет обратную связь по текущей демонстрации и заинтересован в связи с командами, создающими агентов, которые генерируют 10 000+ следов в день. Такое сотрудничество предоставит необходимый масштаб для стресс-тестирования инструмента и ускорит его разработку.

Взгляд в будущее

Введение этого инструмента визуализации знаменует собой многообещающее развитие в экосистеме AI-агентов. Решая фундаментальную проблему анализа следов, он потенциально может значительно ускорить отладку и улучшение сложных LLM-приложений.

По мере того как проект эволюционирует из демонстрации в более надежную платформу, он может стать важным инструментом для разработчиков, сталкивающихся со сложностями автономных агентов. Обратная связь сообщества будет иметь решающее значение в формировании его окончательного вида.

Часто задаваемые вопросы

Что предназначен делать новый инструмент?

Инструмент предназначен для анализа следов работы браузерных агентов, помогая разработчикам понять, где и почему их LLM-приложения ломаются. Он визуализирует сложное поведение агентов, чтобы сделать отладку более эффективной.

Кто стоит за этой разработкой?

Инструмент разрабатывается Джастином, создателем поисковой системы Phind. Его предыдущий опыт подчеркнул трудности отладки систем со скудной обратной связью от пользователей.

Инструмент доступен для использования сейчас?

Да, демо-версия в настоящее время доступна для публичной обратной связи. Она использует следы работы браузерных агентов, сгенерированные GPT-5, чтобы продемонстрировать свои возможности визуализации.

Каковы будущие планы для инструмента?

Будущие планы включают добавление возможностей живого запроса для устранения неполадок в реальном времени и интеграцию моделей предпочтений для лучшего анализа данных со скудными сигналами. Разработчик также ищет сотрудничество с командами, работающими с высокими объемами агентов.