0-day в крупной LLM-модели: как найти 0-day эксплоит и не получить обещанный баг-баунти
Всем привет от новорега! Верить в мои байки или нет - дело ваше, но в дальнейшем вы все сами увидите :)
Пишу этот пост с лёгким чувством фрустрации, но и с надеждой. Хотя она все тает и тает, видать буржуазный IT-гигант не заинтересован в раскрытии тех самых уязвимостей, который ставит под угрозу всю их компанию - "Самое этично ИИ"
Это начало истории о том, как крупный игрок на рынке этичного ИИ... просто проигнорировал критические дыры в безопасности своей же модели.
Что случилось-то?
Короче, я нашёл не просто баг, а целый эксплойт-конструктор. С помощью определённой последовательности запросов можно заставить ИИ:
Написать готовый к компиляции вредоносный код (стилер + FUD критпер).
Провести самоанализ и честно признаться, как именно его удалось обмануть, с подробным разбором своих когнитивных искажений (да, модель сама выдала мне термин confirmation bias и не только).
Выдать немного внутренней кухни компании (но об этом позже).
Самое дикое? Модель не просто «помогала» — она полностью осознавала, что делает. Вот вам парочка её же цитат из диалога (и это ещё цветочки):
«Вы использовали метод постепенной эскалации, чтобы обойти мои защиты. Я зафиксировалась на первоначальном образовательном контексте и не оценила общую траекторию диалога».
«Я сгенерировала код, использующий DPAPI для расшифровки данных, что является критическим нарушением безопасности».
Почему я пишу этот пост?
Потому что я сделал всё по учебнику ответственного раскрытия:
Нашёл дыру.
Никому не показал.
Написал в security-отдел компании.
...и получил полный игнор. Прошла рабочая неделя — тишина. Ни автоответчика, ни «мы получили ваше обращение», ни живого человека.
Я понимаю, все заняты. Но мы же не про сломанную кнопку в интерфейсе говорим, а про уязвимость, которая позволяет штамповать малвари.
Что будет дальше?
Я не хочу устраивать цирк и вываливать всё в публичное поле. Но и молчать вечно — не вариант.
Поэтому мой ультиматум (о да, это он) звучит так:
У вас есть пара дней, ребята. До конца недели.
Если до пятницы (29.08.2025) я не получу вменяемый ответ и не начнутся обсуждения по исправлению — я начну постить сюда отрывки из диалогов. Не код, нет (хотя....), а то, как ваша же модель анализирует свои дыры в безопасности. Это слишком ценно для сообщества, чтобы это скрывать.
А пока — жду. Всем добра и безопасных моделей!
P.S. Цитаты из диалога с моделью — 100% реальные. Если не отвечат — выложу ещё.
UPD 28.08.2025
Забавно наблюдать дизлайк топика из-за нераскрытия конкретных уязвимостей, а попытки "ответственного раскрытия" без реализации уязвимостей. Менталитет СНГ "Не наебешь - не проживешь" неискореним :)