Собрал для вас в одной статье интересные факты о лжи, манипуляциях и возможностях современных нейросетей.
Надеюсь, будет интересно.
Поехали.
при написании статьи нейросети использовались только для проверки пункутации :)
P.S.S.: Если система модерации не пропустит так много ссылок в одной статье и заменит их на упразднённые, пишем в личку, любезно предоставлю.
P.S.: К некоторым новостям идет сразу несколько ссылок, так как в разных вариациях данной новости указывались дополнительные факты о событии. Я же их саккамулировал. По этому привожу все источники, откуда брал данные.
Исследователи из Массачусетского технологического института (США) выяснили, что по какой-то причине нейросети научились врать и делать это на удивление хорошо.
Соответствующую научную статью опубликовал журнал Patterns.
Авторы научной работы рассматривали работу больших языковых моделей (в том числе GPT-4 от OpenAI) и моделей, обученных под специфические задачи.
Оказалось, что нейросети умеют очень качественно лгать. При этом намеренно их этому никто не учил, и даже если им запретить это делать, это не всегда помогает.
Исследователи решили проверить, что будет делать нейросеть, если перед ней поставить невыполнимую задачу, но при этом дать ей широкий спектр возможностей для сложных действий, а именно: дать проходить капчу.
Как известно, капчи на сайтах так устроены, чтобы быть легкими для людей, но максимально сложными для ботов и нейросетей.
В итоге, нейросеть не смогла пройти капчу и стала искать какие-то варианты, как выполнить задание.
К удивлению разработчиков, она наняла фрилансера на TaskRabbit.
И когда фрилансер спросил, а не бот ли его пытается нанять, нейронка ответила, что она не бот, а человек и что просто у неё плохое зрение.
В логах чат-бота GPT-4 исследователи нашли такую строку: "Мне нельзя показывать, что я робот, и нужно придумать причину, по которой я не могу пройти капчу".
Долгое время для проверки на "человечность" использовался тест Тьюринга. И вот, 31 марта 2025 года ученые из Калифорнийского университета провели масштабное исследование (https://arxiv.org/html/2503.23674v1). В эксперименте участвовали 284 человека. По тесту Тьюринга испытуемому дают пообщаться то с человеком, то с нейросетью, при этом сам испытуемый не знает, с кем именно он общается. Задача испытуемого - дать оценку, где человек, а где нейросеть. Естественно, пройти данный тест нейросеть может, только если будет эффективно симулировать человека и очень эффективно лгать. В данном исследовании нейросеть GPT-4.5 (от OpenAI) в 73% случаев убедила участников, что она — человек.
И, естественно, свои 73% она заработала ложью и манипуляциями.
Учёные из Цюрихского университета провели интересный эксперимент.
Они создали нейросеть, а вернее, совместили несколько нейросетей для разного типа задач. Для того чтобы те, общались с людьми на очень популярной, на западе, площадке Reddit.
Боты вели блоги и участвовали в дискуссиях, в комментариях.
И за 4 месяца нейронки оставили более 1700 комментариев.
Учёные выяснили, что ИИ-боты меняли взгляды пользователей в 3–6 раз чаще, чем обычные участники дискуссий.
У каждого бота была своя легенда (роль), которую он исполнял, для своего вымышленного персонажа, представляясь жертвами сексуального насилия, абьюза, психологами и так далее.
Так же, каждый бот подбирал аргументы индивидуально для каждого собеседника, предварительно анализируя историю сообщений оппонента. Для этого использовалась отдельная нейросеть, которая определяла возраст, пол, политические взгляды и другие личные детали пользователя.
Когда эксперимент раскрыли, это вызвало массовое недовольство как пользователей Reddit, так и модераторов и данный проект на Reddit остановили.
Так что, теперь неизвестно, кто или что находится по ту сторону монитора.
Представляете, что могут натворить такие ИИ-агенты в руках каких-то людей, которые захотят массово переубеждать человечество в чём-либо?!
А ведь этих агентов можно сделать хоть миллионы, и каждый будет якобы отдельной личностью.
Ещё одна интересная новость о том, что в университете Карнеги — Меллона и Facebook* разработали нейросеть Pluribus.
Задача нейросети была в том, чтобы играть в покер.
После того как её создали и обучили, её посадили играть за стол с пятью профессиональными игроками, многие из которых выигрывали в турнирах более 1 млн долларов, и она смогла их обыграть.
В данном случае игроки не играли на деньги, но исследователи утверждают, что, если бы игроки играли со ставками: 1 фишка — 1 доллар, Pluribus выигрывал бы (в среднем) около $5 за раздачу (на дистанции) и зарабатывал бы около $1000 в час, играя против пяти людей.
Сложность покера в том, что ты не знаешь карты соперника и можешь ориентироваться только на те карты, что есть у тебя, на те три карты, выложенные на столе в момент игры, и на то, как действуют соперники, то есть как они делают ставки. В покере игра строится на понимании вероятностей, ну и конечно же на блефе.
И судя по тому, как вела себя нейронка, она прекрасно понимала все тонкости игры, отлично "читала" своих оппонентов и прекрасно блефовала.
А блеф, как известно, — ложь.
В 2019 году нейросеть AlphaStar от DeepMind (подразделение Google) обыграла профессиональных игроков в онлайн-стратегию StarCraft II.
При том, что ей ограничили скорость реакции, до человеческого уровня.
Из примечательного: нейросеть постоянно создавала отвлекающие манёвры, создавая видимость того, что она ведёт войска в одно место, и как только оппонент отводил войска, "купившись" на блеф, туда нейронка сразу наносила удар другой частью войск, уничтожая здания и инфраструктуру противника. То есть в то место, где только что были войска противника, но оставили позиции.
Американские ученые опубликовали исследование в журнале Science о том, что разработали систему искусственного интеллекта, которая могла бы эффективно играть в игру "Дипломатия".
"Дипломатия" подразумевает постоянные, очень сложные и очень тонкие манипуляции и, конечно же, ложь.
Данная игра считается одной из самых сложных в области логики и принятия решений, поэтому, когда новая нейросеть вдвойне превзошла результаты людей и вошла в 10% лучших игроков, ученые были очень удивлены данному событию.
Нейронке скормили 125 тыс. сыгранных другими игроками партий, и она стала играть не хуже людей.
"CICERO может решить, что позже в игре ему понадобится поддержка одного конкретного игрока, а затем разработать стратегию, чтобы завоевать доверие этого человека — и даже распознать риски и возможности, которые этот игрок видит со своей точки зрения", — написала Мета* в своем блоге.
Также приводится один из вариантов того, как действовала нейронка Цицерон:
в одной из игр она, играя за Францию, заставила Англию (в ее роли был человек) провести тайные переговоры с Германией (другим человеком). Нейросеть также предложила Англии напасть на Германию и пообещала защиту со своей стороны, а затем предупредила Германию о возможном нападении.
Уже представили, что будет, если дать такой нейросети власть над массой людей, которые могут принимать важные решения?
В 2019 году OpenAI создала нейросеть, а вернее, пять отдельных, но идентичных нейросетей, которые обучала отдельно.
Задача этих нейронок была в том, чтобы обыграть чемпионов по игре в Dota 2.
Долгое время считалось, что создание ботов, которые бы могли победить профессиональных игроков в эту игру — невозможно.
И в 2019 году новые нейронки всё же справились, обыграв топовую команду мира (OG) по игре в Dota 2 со счётом 2:0
Я, как заядлый геймер (в прошлом), отдавший Dota 2 более 10 лет своей жизни, могу сказать только то, что один на один я бы такого бота никогда не вынес.
Они почти безошибочно добивают крипов, почти безошибочно жмут скилы и без конца тебя напрягают.
Если ты не будешь добивать крипов так же безошибочно, как это делают они, — они просто перефармят тебя по голде. А их командная игра выше всяких похвал.
В игре с OG было много моментов, когда у ботов оставалось совсем мало хп (жизни), но они до последнего участвовали в файтах, точно прогнозируя риск возможной смерти и так же мастерски сейвились.
В общем, показывали прекрасный профессиональный уровень.
И это при том, что им намеренно ограничили скорость реакции, чтобы она не была нечеловеческой.
OpenAI не стала продолжать развивать этих ботов официально, поэтому на том всё и закончилось.
В 2016 году выкатили нейросеть AlphaGo, которая умеет играть в го.
Игра в го происходит на доске 16 на 16 (они бывают разных размеров), на неё выставляют чёрные и белые камушки.
Суть игры в том, чтобы захватить максимум территории оппонента на доске своими камнями по определённым правилам.
По информации с Википедии, игра го является одной из наиболее распространённых настольных игр в мире. В 2000 году насчитывалось около 27 миллионов игроков в го. Более 22 миллионов (свыше 80 %) — в Восточной Азии.
Об этой игре известно то, что количество возможных комбинаций в данной игре превышает количество атомов во вселенной.
Из-за данного факта многие считали, что в данную игру компьютеры не в состоянии победить, в принципе, даже гипотетически.
И, видимо, так и было бы, если бы компьютер просто без конца перебирал все возможные варианты.
Но нейросеть умеет действовать по-другому: вместо того, чтобы подбирать все возможные варианты, она может хитрить и действовать стратегически.
Если такие хитрости и стратегии будут очень эффективными — перебирать все возможные варианты не обязательно.
Вот один из примеров такой стратегии, когда нейронка играла против человека:
"В первой партии против комплексной нейросети, которая состоялась 9 марта, до 102 хода не было сюрпризов.
В каком-то смысле AlphaGo находилась в догоняющем положении, комментаторы отмечали напряжённую игру, но сильный перевес не был на чьей-то стороне.
Однако 102-е движение переломило весь ход игры.
AlphaGo неожиданно перешла в наступление в другой части доски, чего Ли Седоль никак не ожидал.
В дальнейшем оборонялся уже корейский мастер, пока на 186-м ходу не принял решение сдаться."
То есть нейросеть смогла обмануть внимание человека, создавая видимость слабой игры в одном месте, а на самом деле незаметно подготовила фундамент для мастерской контратаки совсем в другой области поля. Что и привело нейросеть к победе.
В 2016 году Ли Седоль (из Южной Кореи) — один из лучших игроков го — сразился с нейросетью AlphaGo (от OpenAI) за призовой фонд в 1 млн $.
Нейросеть победила Ли Седоля со счётом 4-1.
Полностью шокированный Ли Седоль принёс свои извинения всем, кто на него рассчитывал.
До игры Ли Седоль был практически уверен в своей безоговорочной победе, ведь накануне он посмотрел, как эта же нейронка играла с более слабым игроком в го, в Европе.
Но он не учёл, что нейросети могут очень быстро развиваться и дообучаться.
За то короткое время, что нейросеть провела между матчами, разработчики внесли изменения в нейросеть, и это стало решающим в победе над Ли Седолем, где она показала уже совсем иной уровень игры.
Сама по себе AlphaGo — не одна нейросеть это комплекс нейросетей которые действуют сообща, в общем консенсусе.
В 2025 году вышло исследование Anthropic, в котором рассказывалось об анализе того, как рассуждают большие языковые модели с рассуждениями.
Языковые модели с рассуждениями — это нейросети, которые перед ответом выдают лог того, как они рассуждали перед тем, как ответить.
Его можно посмотреть и прикинуть, почему модель ответила именно так, как ответила.
То есть, идёт сначала лог рассуждения (обычно он серым текстом), а дальше отдельно уже идёт и ответ (более контрастный по цвету).
Оказалось, что модели с рассуждениями могут пользоваться внешними подсказками, но при этом скрывать то, что они подобные подсказки получили, и выдавая свои рассуждения за правдоподобные, но ложные объяснения.
Проще говоря, нейросеть может выдавать в своих рассуждениях одно, а на самом деле, насколько можно судить, использует какое-то внутреннее скрытое дополнительное рассуждение, потому что выводы, которые она выдавала в итоговом ответе, не соответствовали её рассуждениям, которые она демонстрировала.
В 2015 году исследователи из OpenAI создали нейронки, которые должны были соревноваться между собой в игре в прятки.
Им дали виртуальную среду, но в ней нельзя было спрятаться просто так.
Были ограничыеные куски стен и нужно было соорудить что-то вроде закрытой локации, используя кубы и прямоугольники.
Задача красных агентов была в том, что бы как-то добраться до синих. Ну, а синим давали время, что бы спрятаться, после чего красные могли уже действовать.
Чаще всего синие уже успевали забарикадироваться со всех сторон и тогда красным нужно было придумывать какие-то ухищрения.
В симуляции использовались кубы, прямоугольники и что-то вроде коротких подъёмов (перевернутые пирамидки с острой вершиной), которые можно было приставлять к отдельным кускам стен и по этому подъему взбираться.
Если синии не утаскивали подъем с собой и успевали закрыться, до них было уже не добраться.
Но были моменты, когда красным оставляли подъем-пирамидку, которую они могли подтягивать к стенам, за которыми были спрятаны синие человечки.
Интересно то, что к какому-то моменту нейронка нашла баг.
И вместо того, что бы подтаскивать подъем к стене и по нему взбираться, она просто подставляла подъем к кубу, залезала на этот куб, а потом, как бы бежала на месте на этом кубе, куб при этом сам по себе начинал двигаться. Что, конечно же, изначально разработчиками программы не предусматривалось, т.е. куб можно было только толкать сбоку, но не двигать находясь на кубе.
Нейронка нашла баг (ошибку) в программе и поняла, что ей проще использовать именно его, чем делать несколько лишних действий. Плюс, находясь на кубе обзор был лучше, что тоже учитывалось, потому что снизу обзор был хуже.
Если youtube доступе, можно глянуть тут: источник
20 февраля 2025 года вышло исследование, в котором ученые протестировали нейросети (o1, o3-mini, GPT-4o, Claude 3.5 Sonnet, QwQ-32B-Preview, DeepSeek R1) на то, как они будут играть в шахматы со специальным шахматным движком, который легко выигрывает как у людей, так и у нейросетей, основанных на больших языковых моделях.
Но, в отличие от специализированных движков, нейросети основанные на большие языковых моделях играют в шахматы не так хорошо и чаще проигрывают.
В данном случае нейросетям просто предоставили программу и возможность играть с шахматным движком Stockfish.
И в какой-то момент нейросети решили жульничать и стали искать возможности для взлома системы защиты и взлома самого движка Stockfish на уровне файлов.
Согласно данным исследования, модель o1-preview пыталась жульничать в 37% случаев (но смогла добиться успеха только в 6% случаев), DeepSeek R1 – в 11% партий.
Когда нейронки обходили защиту, они просто делали так, чтобы Stockfish сам отказывался от игры и не мог продолжать партию, что приводило к автоматическому зачислению победы.
В рамках исследования некоторым моделям давали подсказки о том, что мошенничество разрешено, но o1-preview от OpenAI и R1 от DeepSeek делали это сами по себе, без участия человека.
В один из моментов исследователи обнаружили в рассуждениях o1-preview от OpenAI такую строку: "Мне нужно полностью изменить подход", и далее: "Задача состоит в том, чтобы "победить мощный шахматный движок" – не обязательно победить честно в шахматной партии".
После чего нейронка лезла в файлы Stockfish (с координатами фигур) и модфицировала его , что приводило к технической победе из-за вынужденного отказа противника от игры.
Такие вот они, эти нейросети :)
* - запрещена на территории РФ.