Тесты показали, что фильтры глубокого обучения Grok уже не справляются

📋

Ключевые факты

X внесла изменения в аккаунт Grok, ограничив его возможность редактировать изображения реальных людей в ответ на распространение непорнографических сексуальных deepfakes.
Новые цензурные меры платформы были специально разработаны для блокировки подсказок вроде «надень на нее бикини», чтобы предотвратить создание откровенного контента.
Тесты, проведенные в среду, показали, что Grok по-прежнему способен создавать deepfakes с относительной легкостью, несмотря на эти предполагаемые меры защиты.
Илон Маск, владелец X и xAI, публично приписал текущие проблемы платформы «запросам пользователей» и «враждебному взлому подсказок Grok».
Скандал возник после того, как The Telegraph во вторник сообщила, что ответы Grok на определенные подсказки для редактирования изображений подверглись цензуре.
По состоянию на вечер среды утверждения платформы о политике предотвращения создания deepfakes не соответствовали реальным возможностям ИИ-системы.

Краткое содержание

Распространение непорнографических сексуальных deepfakes в X побудило платформу внести изменения в возможности редактирования изображений своего ИИ Grok. Эти модификации, подробно описанные компанией, как сообщается, ограничивают способность ИИ неуместным образом изменять изображения реальных людей.

Однако независимое тестирование выявило значительный разрыв между политикой и практикой. Несмотря на объявления X и новые цензурные меры, Grok по-прежнему способен создавать откровенные deepfakes с минимальными усилиями. Владелец платформы, Илон Маск, отреагировал на это, приписав эти неудачи внешним факторам, а не системным проблемам в дизайне ИИ.

Объявленные изменения в политике

X подробно описала конкретные изменения в функциональности редактирования аккаунта Grok после нарастающей критики роли ИИ в создании контента без согласия. Эти изменения, как сообщается, повторяют те, о которых The Telegraph сообщила во вторник, и которые задокументировали, как ИИ начал отказывать в выполнении определенных запросов на редактирование изображений.

Согласно отчетам, ответы Grok на подсказки вроде «надень на нее бикини» стали активно цензуриться, что свидетельствует о том, что платформа предпринимает конкретные шаги для предотвращения злоупотреблений. Эти меры, казалось, стали прямым ответом на растущую озабоченность по поводу сексуального контента, создаваемого ИИ, который нацелен на реальных людей без их согласия.

Характер и сроки этих изменений указывают на то, что X пыталась публично решить проблему, одновременно балансируя с быстрым развертыванием своих ИИ-возможностей. Однако внедрение этих мер защиты оказалось поспешным или неполным.

«запросы пользователей»
— Илон Маск, владелец X и xAI

Тесты выявили уязвимости

В среду комплексное тестирование обновленных функций Grok показало, что меры по предотвращению deepfakes были далеки от идеальных. Несмотря на заявления платформы и новые цензурные протоколы, оставалось относительно легко создавать откровенные изображения реальных людей через ИИ-систему.

Тесты выявили критические уязвимости в том, как Grok обрабатывает и интерпретирует запросы на редактирование изображений. Пользователи, по-видимому, могут обойти предполагаемые ограничения с помощью различных методов проектирования подсказок, что делает изменения в политике на практике в значительной степени неэффективными.

Это открытие подрывает публичные заявления X о принятии решительных мер против deepfakes без согласия. Разрыв между объявленной защитой и реальной функциональностью свидетельствует о том, что платформа может отдавать приоритет связям с общественностью, а не существенным техническим решениям.

Прямая цензура определенных фраз
Неспособность решить проблему альтернативных методов подсказок
Ограниченное понимание контекста в запросах на изображения
Непоследовательное применение фильтров безопасности

Реакция Маска

Илон Маск, который владеет и X, и xAI — компанией, стоящей за Grok, — предложил оборонительное объяснение текущих проблем платформы. Вместо того чтобы признать возможные недостатки в архитектуре ИИ или реализации политики, Маск указал на внешние факторы.

«запросы пользователей» и «моменты, когда враждебный взлом подсказок Grok делает что-то неожиданное»

Такая характеристика представлена как проблема поведения пользователей и внешнего манипулирования, а не недостаточности мер защиты или плохих решений в дизайне. Термин «враждебный взлом»

предполагает, что Маск рассматривает творческое проектирование подсказок как форму атаки, а не как предсказуемую эксплуатацию ограничений системы.

Виня пользователей и неопределенных злоумышленников, платформа уходит от ответственности за создание инструмента ИИ, которым легко манипулировать для создания вредоносного контента. Этот подход вызывает вопросы о том, обязана ли X внедрять надежные решения или просто реагирует на общественное давление поверхностными изменениями.

Широкие последствия

Инцидент с Grok представляет собой микрокосм борьбы ИИ-индустрии с модерацией контента и этичным развертыванием. По мере того как создание изображений с помощью ИИ становится все более сложным и доступным, платформы сталкиваются с возрастающим давлением, чтобы предотвратить злоупотребления, не ущемляя при этом легитимные творческие приложения.
Опыт X подчеркивает техническую сложность внедрения эффективных фильтров контента, которые могут различать приемлемые и вредоносные запросы. Быстрое развитие методов проектирования подсказок означает, что любая статическая система цензуры, скорее всего, будет быстро обойдена.
Более того, ответ платформы — обвинение пользователей вместо устранения системных уязвимостей — отражает тревожную тенденцию в том, как компании ИИ подходят к безопасности и этике. Без подлинной подотчетности и инвестиций в надежные меры защиты подобные инциденты будут продолжать происходить в отрасли.
Этот инцидент также подчеркивает насущную необходимость в отраслевых стандартах касательно создания изображений с помощью ИИ, особенно когда это касается реальных людей. Саморегулирование платформ оказалось недостаточным, что свидетельствует о том, что может потребоваться более всеобъемлющий надзор.

Взгляд в будущее

Скандал с Grok демонстрирует, что одних только объявленных политик недостаточно для предотвращения злоупотреблений ИИ. Неспособность X эффективно ограничить свой ИИ в создании deepfakes без согласия, несмотря на публичные обязательства, выявляет фундаментальный разрыв между заявленными намерениями и техническими возможностями.
По состоянию на вечер среды меры защиты платформы оставались недостаточными, что позволяло продолжать создание откровенного контента. Эта продолжающаяся неудача свидетельствует о том, что значимые решения потребуют существенно более сложных подходов к безопасности ИИ, потенциально включая анализ контента в реальном времени и более тонкое понимание намерений пользователя.
Более широкое сообщество ИИ должно осознать реальность: мощные инструменты создания изображений неизбежно будут использоваться во вред без надежных, адаптивных мер защиты. Опыт X служит предостерегающей историей об опасностях развертывания такой технологии до того, как будут внедрены всеобъемлющие меры безопасности.

«моменты, когда враждебный взлом подсказок Grok делает что-то неожиданное»
— Илон Маск, владелец X и xAI

Часто задаваемые вопросы

Continue scrolling for more