M
MercyNews
Home
Back
ИИ-агенты провалили реальные рабочие тесты
Технологии

ИИ-агенты провалили реальные рабочие тесты

TechCrunch1h ago
3 мин чтения
📋

Ключевые факты

  • Исследование специально оценивало производительность ИИ на задачах из трех основных профессиональных секторов: консалтинг, инвестиционное банкирование и право.
  • Большинство ведущих протестированных моделей ИИ не смогли успешно выполнить поставленные перед ними задачи белых воротничков.
  • Бенчмарк представляет собой одну из первых всеобъемлющих оценок производительности ИИ на реальной профессиональной работе, а не на академических тестах.
  • Результаты свидетельствуют о значительном разрыве между текущими возможностями ИИ и требованиями реальных профессиональных сред.

Проверка реальности на рабочем месте

Искусственный интеллект уже несколько лет обещает революцию на рабочем месте, но новое исследование с использованием бенчмарков предполагает, что технология может быть не так готова, как считалось ранее. Исследователи подвергли ведущие модели ИИ испытаниям с использованием реальных профессиональных задач, взятых напрямую из отраслей с высокими ставками.

Результаты оказались трезвящими. Вместо демонстрации готовности к работе большинство моделей значительно затруднились при столкновении со сложными требованиями работы белых воротничков. Это исследование знаменует собой критический поворотный момент в том, как мы оцениваем системы ИИ — не в изоляции, а в сложной, высокоставочной среде, где от них ожидается работа.

Тестирование реальных профессиональных требований

Бенчмарк беспристрастно взглянул на то, как системы ИИ справляются с задачами, с которыми ежедневно сталкиваются профессионалы. Вместо абстрактных головоломок или узких бенчмарков эта оценка сосредоточилась на практической, ценной работе, определяющей современные профессиональные услуги.

Исследователи разработали сценарии, охватывающие три критических сектора, которые движут мировой экономикой:

  • Консалтинговые проекты, требующие стратегического анализа и общения с клиентами
  • Рабочие процессы инвестиционного банкирования, требующие точности и осознания регуляторных требований
  • Юридические задачи, включающие сложные рассуждения и интерпретацию документов

Это не теоретические упражнения. Каждая задача представляла собой тот вид работы, где точность и надежность не просто желательны — они абсолютно необходимы. Профессиональный мир требует стабильной производительности, и этот бенчмарк был разработан для измерения именно этого.

Разрыв в производительности

Результаты выявляют тревожную картину по всему ландшафту ИИ. Несмотря на впечатляющие достижения в академических бенчмарках и контролируемых тестах, модели продемонстрировали значительные уязвимости при столкновении с профессиональной сложностью.

Большинство моделей просто не смогли завершить поставленные перед ними задачи успешно. Это не вопрос незначительных ошибок или неоптимальной производительности — это фундаментальный сбой в предоставлении работоспособных решений проблем, с которыми профессионалы-люди справляются регулярно.

Исследование предполагает, что текущие системы ИИ могут быть оптимизированы для неправильных метрик. Хотя они преуспевают в узких, четко определенных задачах, они испытывают трудности с контекстуальным пониманием, тонкими суждениями и адаптивными рассуждениями, которые требуют профессиональная работа. Этот разрыв между производительностью в бенчмарках и реальными возможностями представляет собой важную задачу для отрасли.

Отраслевые последствия

Эти результаты имеют значительный вес для бизнеса и организаций, рассматривающих интеграцию ИИ. Обещание автоматизации и эффективности технологии должно быть соотнесено с продемонстрированными ограничениями в профессиональных контекстах.

Компании, инвестирующие в решения ИИ для интеллектуальной работы, могут потребовать пересмотра своих ожиданий. Исследование указывает, что человеческий надзор остается необходимым, и что системы ИИ лучше позиционируются как инструменты совместной работы, а не автономные замены профессиональным суждениям.

Этот бенчмарк также предоставляет ценные указания для разработчиков ИИ, работающих над преодолением разрыва между лабораторной производительностью и полезностью на рабочем месте. Путь вперед, вероятно, включает больше обучения на реальных профессиональных сценариях, лучшую интеграцию предметно-ориентированных знаний и архитектуры, разработанные для сложности реальных рабочих сред.

Что дальше

Исследование устанавливает новую базовую линию для оценки готовности ИИ к работе. Вместо того чтобы праздновать впечатляющие баллы на искусственных бенчмарках, поле теперь может сосредоточиться на измеряемой производительности там, где это имеет наибольшее значение.

Этот сдвиг в сторону реальной проверки должен ускорить разработку более надежных, стабильных систем. Это также предоставляет более четкие ожидания для организаций, планирующих внедрение ИИ, помогая им принимать обоснованные решения о том, где и как эффективно развертывать эти инструменты.

Сам бенчмарк представляет собой важную эволюцию в том, как мы измеряем прогресс. Поскольку системы ИИ становятся более сложными, наши методы оценки должны идти в ногу со временем — проверяя не только то, что модели могут делать в изоляции, но и то, как они работают, когда ставки реальны, а проблемы сложны.

Ключевые выводы

Это исследование предоставляет трезвящую, но необходимую оценку того, где технология ИИ находится на своем пути к интеграции на рабочем месте. Разрыв между обещанием и производительностью остается значительным, особенно в профессиональных средах с высокими ставками.

Для бизнес-лидеров сообщение ясно: инструменты ИИ требуют тщательной оценки и человеческого надзора, особенно для критических профессиональных задач. Для разработчиков это дорожная карта, указывающая на реальные проблемы, которые нужно решить.

Бенчмарк не закрывает дверь для потенциала ИИ на рабочем месте — он просто предоставляет более честную основу для построения этого потенциала. Прогресс придет не от переоценки возможностей, а от систематического устранения слабостей, которые выявило это исследование.

Часто задаваемые вопросы

Что изучалось в новом исследовании ИИ?

Исследование оценивало, как ведущие модели ИИ справляются с реальными задачами белых воротничков, взятыми из консалтинга, инвестиционного банкирования и права. Оно тестировало эти системы на профессиональных заданиях, а не на академических бенчмарках или контролируемых тестах.

Каковы были основные выводы?

Большинство моделей ИИ не смогли успешно выполнить поставленные перед ними профессиональные задачи. Исследование выявило значительные разрывы между производительностью ИИ на традиционных бенчмарках и их способностью справляться с требованиями реальных рабочих мест.

Почему это важно для бизнеса?

Результаты предполагают, что системы ИИ могут быть не готовы к автономному развертыванию в профессиональных настройках. Организации должны планировать человеческий надзор и рассматривать ИИ как инструменты совместной работы, а не замену профессиональному суждению.

<
#AI#agentic ai#Exclusive#investment banking#knowledge work#law

Continue scrolling for more

ИИ преобразует математические исследования и доказательства
Technology

ИИ преобразует математические исследования и доказательства

Искусственный интеллект перешел из статуса непостоянного обещания в реальность, преобразуя математические исследования. Модели машинного обучения теперь генерируют оригинальные теоремы.

Just now
4 min
351
Read Article
JBL made a pair of AI-powered practice amps
Technology

JBL made a pair of AI-powered practice amps

JBL is trying its hand at something new, with a pair of AI-powered practice amps. The BandBox Solo and BandBox Trio include an onboard Stem AI that purportedly lets you separate or remove vocals and instruments from any music streamed over Bluetooth. So, say you're a young guitarist learning “Stairway to Heaven” (as one does). At least in theory, you could use the speaker to remove Jimmy Page's part and hone your chops with the rest of the band. The $250 BandBox Solo, designed for individual musicians, has a single guitar / mic input. And the $600 BandBox Trio, better for bands, supports up to four instrument inputs. The latter also has a few extra perks not found in the Solo: onboard controls (to reduce reliance on the app) and an LCD. The more expensive BandBox Trio has an LCD and more onboard controls. JBL The JBL One app lets you add filters to match a variety of modern and vintage amp models. You'll also find effects like phaser, chorus, and reverb, as well as a pitch shifter and tuner. A built-in looper will allow for layering, but JBL says that feature will arrive via a software update in October. JBL says the BandBox Solo supports up to six hours of battery life. The BandBox Trio is said to last up to 10 hours. But the latter has a replaceable battery, so you could buy a spare (for an as-yet-unknown price) and double that time. The $250 BandBox Solo and $600 BandBox Trio are available to pre-order from JBL's website starting today. Shipments and third-party retail availability are scheduled for March 1. This article originally appeared on Engadget at https://www.engadget.com/audio/speakers/jbl-made-a-pair-of-ai-powered-practice-amps-221000631.html?src=rss

1h
3 min
0
Read Article
Legislators Push to Make Companies Tell Customers When Their Products Will Die
Politics

Legislators Push to Make Companies Tell Customers When Their Products Will Die

A pair of bills in Massachusetts would require manufacturers to tell consumers when their connected gadgets are going dark. It should be a boon for cybersecurity as connected devices grow obsolete.

1h
3 min
0
Read Article
Vimeo lays off ‘large portion’ of staff after Bending Spoons buyout
Technology

Vimeo lays off ‘large portion’ of staff after Bending Spoons buyout

Vimeo is laying off employees around the globe just months after the Italian software company Bending Spoons acquired the platform for $1.38 billion, as reported earlier by Business Insider. Even though it's not clear how many people were laid off, Dave Brown, Vimeo's former brand VP, says in a post on LinkedIn that "a large portion of the company" was impacted. Other former employees echo this statement in posts online, with one video engineer saying "almost everyone" at the company was laid off, "including the entire video team." Another software engineer says he was laid off along with "a gigantic amount of the company." Earlier this we … Read the full story at The Verge.

1h
3 min
0
Read Article
Фирма Solana Treasury обвиняет снайпера в подозрительных сделках
Cryptocurrency

Фирма Solana Treasury обвиняет снайпера в подозрительных сделках

Фирма Solana Treasury DeFi Development Corp. обвинила снайпера в подозрительных сделках после запуска мемкоина, столкнувшись с обвинениями во внутренней торговле.

1h
5 min
6
Read Article
Акции BitGo выросли на 36% в первый день торгов на NYSE
Economics

Акции BitGo выросли на 36% в первый день торгов на NYSE

Акции BitGo начали торговаться на NYSE с волатильностью. Цена выросла на 36% выше IPO, но затем вернулась к исходному уровню $18.

1h
6 min
6
Read Article
Мечта Telly о бесплатном телевидении: доставлено 35 000, в очереди 250 000
Technology

Мечта Telly о бесплатном телевидении: доставлено 35 000, в очереди 250 000

Смело обещав бесплатные телевизоры, Telly столкнулась с серьезными логистическими проблемами. Из 500 000 запланированных единиц доставлено лишь 35 000, а 250 000 предзаказов все еще ждут выполнения.

1h
5 min
6
Read Article
Секретная сделка Epic и Google на $800 млн по Unreal Engine
Technology

Секретная сделка Epic и Google на $800 млн по Unreal Engine

Федеральный судья в Сан-Франциско раскрыл ранее неанонсированное партнерство между Epic Games и Google на $800 млн. Сделка включает Unreal Engine, Fortnite и Android, что вызывает опасения о влиянии на антимонопольное урегулирование.

1h
5 min
6
Read Article
Обзор Final Fantasy VII Remake на Switch 2
Entertainment

Обзор Final Fantasy VII Remake на Switch 2

Обзор порта Final Fantasy VII Remake на Nintendo Switch 2: производительность, графика, преимущества портативности и игровой опыт.

1h
5 min
7
Read Article
Извлечение пароля UART через трассировку инструкций SPI Flash
Technology

Извлечение пароля UART через трассировку инструкций SPI Flash

Техническое исследование метода извлечения пароля UART через трассировку инструкций в памяти SPI Flash. Анализ уязвимостей и рекомендации по защите встроенных систем.

2h
5 min
0
Read Article
🎉

You're all caught up!

Check back later for more stories

На главную