Серия «Искусственный интеллект»

47
Лига Новых Технологий
Серия Искусственный интеллект

Илон Маск против OpenAI: Полная история от любви до ненависти

В 2015 Маск убеждал Сэма Альтмана не жалеть никаких денег на найм топовых спецов, чтобы спасти человечество от зловредного супер-ИИ от Google – а сейчас он публично обзывает его «лжецом, жуликом и мошенником». В 2018 Маск «оценивал шансы OpenAI на успех как нулевые» – а теперь он хочет выкупить компанию за $97 млрд. В этом лонгриде мы детально разберемся: как так вышло, что Илон сначала помог запустить самую революционную ИИ-компанию современности, а потом стал главным ее хейтером?

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Это гостевая статья от Леонида Хоменко – продуктового аналитика и автора канала «Трагедия общин» про искусственный интеллект и современные технологии. Я в данном случае выступаю как редактор, который изо всех сил пытался сделать этот интереснейший лонгрид чуть более вместимым в разумные рамки объема. =)

За последний год OpenAI неоднократно находилась в гуще захватывающих событий: скандал с неудавшимся увольнением Сэма Альтмана, уход из компании Ильи Суцкевера, а также несколько судебных исков от Илона Маска. Последняя новость – это не только (и не столько) очередное проявление эксцентричности Маска, на самом деле там довольно интересная историческая подоплека! В этой статье мы как раз хотим рассказать вам о том, как создавалась компания OpenAI, и что происходило у нее внутри до прорыва с ChatGPT и прихода всеобщей популярности.

А история там кроется не хуже, чем в фильме «Оппенгеймер»: сюжет создания OpenAI – это практически готовый оскароносный сценарий. Только если ядерные технологии от повседневной жизни находятся далеко, то ChatGPT лично я использую буквально каждый день.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

В общем, ставки в этой истории такие же высокие, а исход от них мы все в итоге рискуем ощутить на себе

Откуда идут истоки этого текста: судебный иск Илона Маска к OpenAI

Почти ровно 12 месяцев назад, 29 февраля 2024 года, Илон Маск подал в суд на OpenAI и лично на Сэма Альтмана (CEO компании). Вот как на это отреагировала команда OpenAI (выдержка из их официального пресс-релиза, который они выложили на сайте в течение недели после этого иска):

Нам грустно, что до такого дошло с человеком, которым мы глубоко восхищались. Он вдохновил нас целиться выше, а потом сказал, что у нас ничего не получится, основал прямого конкурента и подал на нас в суд, когда мы начали добиваться значимого прогресса в реализации миссии без него.

Greg Brockman, Ilya Sutskever, John Schulman, Sam Altman, Wojciech Zaremba, OpenAI

Прочитав такое, сразу возникает желание задать вопрос: «Илон, ну не *удак ли ты?». И на этот вопрос можно с уверенностью ответить… Ладно, не будем спойлерить – предоставим вам право решать в итоге самостоятельно. Наше дело здесь – это подробно рассказать вам всю историю их непростых взаимоотношений, а также пертурбаций, которые претерпела сама компания с момента основания.

В чем была суть иска Илона Маска (опустим пока подробности, что он уже успел несколько раз ее поменять – отзывая старые иски и переподавая новые)? Он обвинил OpenAI в отходе от изначальной некоммерческой миссии, чрезмерной зависимости от Microsoft, и фокусе на максимизации прибыли.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

В соцсети Х Маск, скажем так, тоже не сильно стеснялся в выражениях

Маск утверждает, что сделки с Microsoft заставили OpenAI вести себя как монополист: компания заняла 70% рынка генеративного ИИ, душит конкуренцию, запрещая партнерам инвестировать в другие компании, и предлагает сотрудникам нерыночные зарплаты.

Это противоречит изначальной миссии, в которую Маск, как он пишет, искренне верил: первыми создать дружелюбный AGI (универсальный искусственный интеллект, способный соображать не хуже человека) и сделать так, чтобы пользу от него получили все в мире, а не только избранные. Маск был не просто сооснователем, а источником финансов и основным драйвером амбиций, которые в итоге помогли компании построить самый быстрорастущий продукт в истории.

В ноябре 2024 года в рамках судебного разбирательства был опубликован архив переписки сооснователей OpenAI с момента незадолго до создания компании в 2015 и до 2019 года, когда их пути окончательно разошлись. Переписка довольно фрагментарная – с большими пробелами во времени и отсутствием того, что обсуждалось лично или через другие каналы.

Чтобы сделать историю более цельной, мы добавим контекст из других источников и постараемся пересказать именно самое интересное. Цитаты местами будут переводиться не дословно – поэтому тем, кто прямо хочет погрузиться в эту историю по-хардкору, советуем ознакомиться и с оригиналами (там много интересного). Ну и смело пишите, если увидите, что в переводе писем где-то сильно накосячено.

Основная цель этого лонгрида – показать, что у каждого участника этой истории есть своя правда.

Часть 1. Предыстория появления OpenAI на свет

Цепочка опубликованных писем начинается с, казалось бы, довольно странного питча Сэма Альтмана:

Я много размышлял и думаю, что человечество невозможно остановить от разработки ИИ. Так что, если это всё равно произойдет, то было бы неплохо, чтобы кто-то другой, а не Google, сделал это первым.

Как думаешь, было бы хорошей идеей запустить что-то вроде «Манхэттенского проекта» для ИИ? Мне кажется, мы могли бы привлечь немало топовых специалистов в индустрии. Можно было бы структурировать проект так, чтобы технология принадлежала всему миру (через некоммерческую структуру), но при этом разработчики получали бы конкурентные зарплаты на уровне стартапов.

Sam Altman to Elon Musk - May 25, 2015 9:10 PM

Почему Сэм с ходу пишет Илону Маску про Google, и зачем их вообще останавливать? Спокойно, ща мы всё объясним!

2014: DeepMind и его последующая покупка Гуглом

Илон Маск всегда был известен своим интересом к экзистенциальным рискам. Например, миссия SpaceX в том и заключается, чтобы спасти нашу цивилизацию от возможного вымирания на Земле. Ведь жить на двух планетах лучше (ну, по крайней мере, безопаснее), чем на одной.

В 2012 году Маск встретился с Демисом Хассабисом из компании DeepMind и заинтересовался темой искусственного интеллекта. Хассабис в разговоре набросил, что ИИ – это один из серьезнейших рисков. Колонизация Марса будет иметь смысл, только если сверхразумные машины не последуют за людьми и не уничтожат их и там. Маск идеей проникся и вложил $5 млн в DeepMind, чтобы быть ближе к фронтиру отрасли.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Теперь уже Нобелевский лауреат, руководитель всего AI в Google, и почетный рыцарь – сир Демис Хассабис

Вскоре стало ясно, что крупные компании активно переманивают самых талантливых исследователей из сферы глубокого обучения (Deep Learning). Например, Джеффри Хинтон изначально хотел пойти в Baidu за $12 млн, но устроил аукцион, на котором Google выкупил его за $44 млн.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Один из отцов-основателей ИИ, учитель Ильи Суцкевера, и Нобелевский лауреат с индексом Хирша под 188 – Джеффри Хинтон

Несмотря на это «искушение большим баблом», Демис Хассабис хотел, чтобы компания DeepMind оставалась независимой – именно для того, чтобы гарантировать, что ее AI-технологии не превратятся в итоге в нечто опасное. Но когда Ларри Пейдж (сооснователь Google) увидел, как DeepMind научили нейросеть играть в Atari, он тоже резко захотел «вписаться в перспективную тему».

В 2014 году Google предложил $650 млн за покупку DeepMind. И Демис всё же согласился, но настоял на двух условиях: никакого оружия и военного применения для технологии; и она должна контролироваться независимым советом по этике. (Спойлер: в феврале 2025 года Гугл в итоге отказался от обещания не использовать ИИ для создания оружия – не зря, выходит, Хассабис на эту тему переживал!)

2015: Маск ссорится с «гугловскими» из-за рисков ИИ

Тут надо сделать оговорку, что Илон Маск и Ларри Пейдж к этому моменту дружили уже больше 10 лет. Но, как говорит сам Маск, именно резкие различия в их взглядах на безопасность ИИ стали в итоге причиной того, что они прекратили общаться.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Илон Маск пристально смотрит на создателя гугловского PageRank-алгоритма (и, заодно, лучшего в мире печатного станка денег) Ларри Пейджа

Пиком стал их публичный спор на дне рождения Маска в июне 2015. Пейдж верил, что развитие технологий приведет к слиянию людей и машин (и что это хорошо). Дескать, разные формы интеллекта будут бороться за ресурсы, и в итоге победит сильнейший, и будет дальше жить-поживать. А вот Маску идея о том, что человечество может не войти в эту категорию «сильнейших», казалась не очень веселой.

Я часто разговаривал с ним допоздна о безопасности ИИ, Ларри недостаточно серьезно относился к этой проблеме. Его позиция была интересной: он стремился к созданию цифрового сверхинтеллекта – можно сказать, цифрового божества. Когда я однажды поднял вопрос о том, как мы собираемся обеспечить безопасность человечества, он обвинил меня в «видовом расизме» (Speciesism): по сути, в том, что я зря отдаю предпочтение людям в потенциальном конфликте с цифровыми формами жизни будущего.

Илон Маск в интервью Такеру Карлсону, апрель 2023

Ну и, видимо, на этом дружба закончилась. Повздорили из-за роботов (да еще и, пока что, воображаемых)! Напомню, что это не какая-то научная фантастика, а вполне реальные люди – причем, руководящие крупнейшими мировыми корпорациями. Можете еще послушать вот этот короткий отрывок из интервью Маска Лексу Фридману, где он описывает свои идеологические разногласия с Ларри Пейджем:

В общем, у Илона Маска уже тогда были поводы, скажем так, не сильно доверять намерениям Гугла в отношении ИИ. Так что, после продажи DeepMind этому же самому Гуглу, Демису Хассабису не составило большого труда уговорить Маска присоединиться к специальному совету по этике – который должен был следить за тем, чтобы технология не была использована во зло. Первое заседание совета прошло в августе 2015-го и… чуда не произошло.

Ларри Пейдж вместе с Сергеем Брином и Эриком Шмидтом заявили, что все эти ваши опасения по поводу AI преувеличены. В итоге Маск посчитал такой совет фикцией, и на этом его участие в DeepMind благополучно закончилось. Ну а Google просто распустил этот этический совет, заменив его корпоративными гайдлайнами – что только усилило беспокойство Хассабиса. В 2017 году он с другими основателями даже попытался отделиться, но Гугл просто повысил им зарплаты + накинул опционов, и ребята остались. Как говорится, «баблу даже не нужно побеждать зло, если они играют за одну команду!»

2015: Создание OpenAI

А теперь давайте еще раз посмотрим на таймлайн происходящего по датам:

  • Январь 2014 – Google покупает DeepMind

  • Май 2015 – первое письмо Альтмана Маску с питчем «Манхэттенского AI-проекта»

  • Июнь 2015 – Маск посрался с Ларри Пейджем на ДР

  • Июль 2015 – Сэм, Илон и Грег Брокман «завербовали» в команду Илью Суцкевера

  • Август 2015 – провальное заседание комитета по этике DeepMind

  • Ноябрь 2015 – официальное создание компании OpenAI

В таком контексте, питч из первого письма Сэма Альтмана про «злой Гугл уже вот-вот создаст злой AI!» выглядит идеально. Он отправлен ровно в тот момент, когда у Илона уже зрело недовольство происходящим и желание что-то сделать с этим, но еще не было конкретного плана.

А Сэм как раз предлагает такой план: так как остановить Google невозможно, нужно его просто опередить! Если cобрать небольшую группу самых талантливых людей в отрасли, то можно первыми сделать сильный ИИ – и, при этом, поставить приоритет на использовании этой мега-технологии во благо всего мира.

Неудивительно, что миссия OpenAI (некоммерческой организации), сформулированная в декабре 2015, сейчас – 10 лет спустя – звучит крайне идеалистично:

OpenAI – это некоммерческая исследовательская компания. Наша главная цель – создать искусственный интеллект и сделать так, чтобы он принес максимальную пользу всему человечеству. Мы не обременены необходимостью получать прибыль, что дает нам уникальную свободу.

Мы можем полностью сосредоточиться на создании ИИ, который будет доступен для всех. Мы верим в демократизацию технологий и выступаем против концентрации такой мощной силы в руках избранных.

Наш путь непрост. Зарплаты у нас ниже, чем предлагают другие компании, а результат всего предприятия пока неясен. Но мы убеждены, что выбрали правильную цель и создали правильную структуру. Надеемся, что именно это привлечет к нам лучших специалистов в области.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Молоденькие Маск и Альтман во времена, когда они еще прекрасно общались между собой (2015 год)

Вообще, есть мнение, что OpenAI просто не смогли бы успешно запуститься без поддержки Маска. А он ее оказал именно из опасений, что Ларри Пейдж направит огромные ресурсы Google на создание сверхсильного искусственного интеллекта, не заботясь о его безопасности (тут будет уместно напомнить, что этой важной теме посвящен другой наш масштабный лонгрид).

Часть 2. С чем боролась свежевылупившаяся OpenAI: найм кадров и закуп железа

Почему роль Маска во всём этом была такой важной? Ответ простой: бабло! В ноябре 2015 Грег и Сэм обсуждали, сколько нужно денег, чтобы у OpenAI появился шанс тягаться «с большими парнями». Они планировали поднять $100 млн на грантах и донатах (плюс-минус на такую сумму у Альтмана в итоге и получилось выйти, включая, судя по всему, грант на $30 млн от Open Philanthropy).

Но Илон убедил их целиться в сумму в 10 раз больше, чтобы не выглядеть безнадежно отстающими по сравнению с конскими расходами Google и Facebook. Причем Маск, который к этому моменту уже успел закинуть в общую кубышку $45 млн «из своих» (поверх собранного Сэмом), пообещал добить недостающую сумму после сборов от других инвесторов до миллиарда долларов самолично.

И практически сразу стало понятно, почему он был прав. Об этом – как раз в этой части.

Фокус на найме: большие деньги для больших талантов

Главной стратегией OpenAI с самого начала было собрать небольшую, но сильную команду мотивированных специалистов, чтобы догнать Google. А чтобы привлекать лучших из лучших – нужна и компенсация соответствующая! И пока обсуждались зарплаты и плюшки, Сэм Альтман пришел с новостью, что DeepMind планирует перекупить всю команду OpenAI крупными контр-офферами. Они явно стремились устранить конкурента на ранней стадии, буквально загоняя людей в угол на проходящей в декабре 2015-го конфе NIPS.

Маск отреагировал на это однозначно:

Давайте повышать з/п. Выбор прост: либо мы привлекаем лучших в мире специалистов, либо DeepMind оставит нас позади. Я поддержу любые меры для найма топовых людей.

Elon Musk to Greg Brockman, (cc: Sam Altman) - Feb 22, 2016 12:09 AM

Из писем видно, как сложно было ребятам – они ворвались отстающими на рынок, где бигтех уже вел настоящую охоту за топовыми ресерчерами. Но на стороне OpenAI было, так сказать, «моральное превосходство»: ведь они как бы противостояли огромным бездушным корпорациям, пытаясь создать сильный ИИ на благо всего человечества. Вот здесь Маск дает понять Илье Суцкеверу (ключевому «мозгу» команды), что если они все вместе не поднапрягутся и не выдадут результат – то завалить Гугл будет просто нереально:

Вероятность того, что DeepMind создаст настоящий искусственный разум, растет с каждым годом. Через 2–3 года она, скорее всего, не превысит 50%, но, вероятно, преодолеет 10%. С учетом их ресурсов, это не кажется мне безумным.

В любом случае, лучше переоценивать, чем недооценивать конкурентов.

Нам важно добиться значимого результата в следующие 6–9 месяцев, чтобы показать, что мы действительно способны на многое. Это не обязательно должен быть прорыв мирового уровня, но достаточно значимый успех, чтобы ключевые таланты по всему миру обратили на нас внимание.

Elon Musk to Ilya Sutskever, (cc: Greg Brockman, Sam Altman) - Feb 19, 2016 12:05 AM

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Вот он, Илья Суцкевер – признанное светило всея машин лёрнинга (в те времена он еще не щеголял своей фирменной прической)

Open Source как препятствие к конкуренции с тех-гигантами

В этой же парадигме «борьбы со злым Гуглом», кстати, логично рассматривать и изменение отношения OpenAI к концепции открытого кода – которая, казалось бы, намертво закреплена в самом названии этой некоммерческой организации. А вот, поди ж ты: уже начиная с модели GPT-3 (2020 год), OpenAI перестали выкладывать свои наработки в опенсорс. Так вот, на самом деле, предпосылки к этому обсуждались внутри команды задолго до этого момента.

По мере того, как мы приближаемся к созданию ИИ, имеет смысл начинать быть менее открытыми. «Open» в OpenAI означает, что все должны пользоваться плодами ИИ после его создания, но совершенно нормально не делиться результатами исследований, хотя это определенно правильная стратегия в краткосрочной перспективе для целей рекрутинга.

Ilya Sutskever to: Elon Musk, Sam Altman, Greg Brockman - Jan 2, 2016 9:06 AM

На письмо выше Илон Маск ответил пять минут спустя коротко, но однозначно: «Ага». Это уже потом, восемь лет спустя, у него случились массовые подгорания в Твиттере из-за «слишком закрытой» политики OpenAI; а вот в 2016-м Маск почему-то был совсем не против такой стратегии – не делиться самыми прорывными результатами исследований, чтобы их в итоге не скопировали «нехорошие люди».

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Хотя, возможно, Илону тут не нравится чисто семантическое несоответствие названия компании и ее фактического поведения…

Смена парадигмы: не только люди, но и железки

Как видим из дискуссии в предыдущей паре разделов, в 2016 году команда OpenAI в основном ломала голову на тему «как бы нам привлечь на свою сторону самых няш-умняш индустрии» – и на это денег еще плюс-минус, как будто бы, хватало.

Но год спустя ситуация внезапно и резко поменялась: в марте 2017-го ребята осознали, что создание AGI потребует огромных вычислительных ресурсов. Ведь объем компьюта, используемого другими бигтех-компаниями для прорывных результатов, увеличивался по траектории «примерно в 10 раз каждый год». А это уже миллиарды долларов в год, которые просто так собрать некоммерческому проекту, казалось, попросту невозможно. OpenAI отчаянно нуждалась в новом плане!

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Google Brain на конфе NIPS (декабрь 2017) хвастаются своим дорогущим железом на TPUv2

В чем тут дело, нам поможет объяснить Илья Суцкевер. Судя по разным интервью, Илья был именно тем человеком, кто одним из первых поверил в Scaling – мощное масштабирование способностей ИИ чисто за счет наращивания вычислительных мощностей – еще до того, как это полностью подтвердилось на практике:

Мы обычно считаем, что проблемы сложны, если умные люди долго не могут их решить. Однако последние пять лет показали, что самые ранние и простые идеи об искусственном интеллекте – нейронные сети – были верны с самого начала. А чтобы они заработали, нам просто не хватало современного железа.

Если наши компьютеры слишком медленные, никакая гениальность ученых не поможет достичь AGI. Достаточно быстрые компьютеры – необходимый элемент, и все прошлые неудачи были вызваны тем, что оборудование оказалось недостаточно мощным для AGI.

Ilya Sutskever to: Elon Musk, Greg Brockman - Jul 12, 2017 1:36 PM

Отдельно Илья поясняет важное технологическое изменение, которое довольно сильно поменяло «правила игры» для разработчиков ИИ. До этого супердорогие суперкомпьютеры условного Гугла не столько ускоряли самые масштабные эксперименты по обучению нейросеток, сколько позволяли проводить много разных тестов поменьше. А это для ресерчеров не так важно, как скорость проведения больших экспериментов: для прогресса нужно как можно быстрее получить данные предыдущего «фронтирного» эксперимента, чтобы задизайнить и провести следующий, и так далее…

Раньше большой вычислительный кластер мог помочь тебе делать больше разных экспериментов, но он не позволял выполнить один большой эксперимент более быстро. По этой причине, небольшая независимая лаборатория могла конкурировать с Google – ведь его единственным конкурентным преимуществом была возможность одновременного проведения множества мелких экспериментов (это так себе преимущество).

Но сейчас стало возможным комбинировать сотни GPU (графических вычислительных чипов) и CPU (центральных процессоров), чтобы запускать эксперименты в 100 раз масштабнее за то же время. В результате, для сохранения конкурентоспособности любой AI-лаборатории теперь необходим минимальный вычислительный кластер в 10–100 раз больше, чем раньше.

Ilya Sutskever to: Greg Brockman, [redacted], Elon Musk - Jun 12, 2017 10:39 PM

Эпоха параллельных вычислений: больше, быстрее, ДОРОЖЕ

Ну, то есть, вы поняли? Одними топовыми ML-спецами теперь сыт не будешь – пришла эра параллельных вычислений, теперь надо еще расчехлять свинью-копилку для закупки графических чипов в промышленных масштабах! Кстати, именно эта смена технологического тренда в 2016–2017 и стала ранним звоночком-предзнаменованием к тому, что в 2024-м Nvidia станет крупнейшей и успешнейшей компанией в мире.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Дженсен Хуанг из Nvidia лично донатит в OpenAI в 2016 году один из первых серверов DGX-1 – кластера GPU, специально предназначенного для использования в тренировке ИИ (а принимает дар кто? лично батя Илон Маск!)

Позволим себе супер-краткий экскурс в историю о том, как графические чипы буквально всего лишь за пять лет стремительным домкратом ворвались в мир машинного обучения и обеспечили себе там доминирующее положение:

  • До 2012: Использование GPU вместо CPU при тренировке нейросетей было редкостью.

  • 2012–2014: Большинство результатов достигалось на 1–8 GPU мощностью 1–2 терафлопс.

  • 2014–2016: Крупные тренировочные запуски на 10–100 GPU мощностью 5–10 терафлопс. Однако, видеокарты всё еще неэффективно взаимодействовали друг с другом.

  • 2016–2017: Появились новые чипы (TPU) и много разных подходов, улучшающих параллелизацию вычислений – вот тут-то и наступил расцвет «видеокарточного машинлёрнинга»!

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Количество вычислительных ресурсов, необходимых для обучения прорывных нейросеток: удвоение происходит каждые три с половиной месяца [статья про компьют из старого блога OpenAI]

Каждые несколько лет GPU становятся мощнее. Чем лучше видеокарты, тем больше операций в секунду можно выполнять за ту же цену. Рост мощности компьюта в 10 раз в год происходит потому, что ресерчеры постоянно находят способы использовать больше чипов параллельно. И это открывает возможность практически безлимитно заваливать любую проблему деньгами. Илья Суцкевер пишет про это:

Главное – это размер и скорость наших экспериментов. Раньше даже крупный кластер не сильно ускорял проведение большого эксперимента. Но теперь можно проводить их в 100 раз быстрее.

Если у нас будет достаточно оборудования, чтобы проводить эксперименты за 7–10 дней, то история показывает, что всё остальное приложится. Это как в фундаментальной физике: ученые быстро выяснят как устроена Вселенная, если у них будет достаточно большой коллайдер.

Есть основания считать, что оборудование для глубокого обучения будет ускоряться в 10 раз ежегодно на протяжении ближайших 4–5 лет. Это ускорение произойдет не из-за уменьшения размеров транзисторов или увеличения тактовой частоты; оно произойдет потому, что, как и мозг, нейронные сети обладают внутренним параллелизмом, и уже создается новое высокопараллельное оборудование, чтобы использовать этот потенциал.

Ilya Sutskever to: Elon Musk, Greg Brockman - Jul 12, 2017 1:36 PM

В общем, в переводе с нёрдовского языка на бизнесовый, письмо выше на самом деле пытается сказать «ДАЙТЕ НАМ БОЛЬШЕ ДЕНЯК НА ЧИПЫ!». Оглядываясь назад, Илья примерно в два раза переоценил масштаб происходящих процессов, но всё равно хорошо предсказал сам тренд.

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

На масштабе используемых в ML-индустрии мощностей наглядно виден момент перехода к параллельным вычислениям (график из статьи Compute Trends Across Three Eras of Machine Learning)

2017: Не железом единым, или алгоритмический сюрприз от Google

Ровно месяцем ранее от последнего процитированного выше письма Суцкевера, 12 июня 2017 года, Google выпустили культовую 15-страничную научную статью Attention is All You Need, которая произвела настоящую революцию в мире глубокого обучения. Именно там была впервые представлена архитектура трансформеров!

Помните, как раньше Сири или Google-ассистент не могли поддерживать длительные разговоры, так как быстро теряли контекст? Главная тому причина – ограничение разных архитектур того времени: модель могла быть либо умной, либо обладать хорошей памятью (упрощаю, но суть примерно такая):

  • Свёрточные сети хорошо масштабируются, но теряют общую картину в длинных цепочках;

  • Рекуррентные сети лучше обрабатывают длинные цепочки, но плохо масштабируются.

Разные модели лучше подходили для разных задач: например, для перевода текста важны длинные цепочки, а для генерации изображений – внимание к локальным деталям, которое лучше у крупных моделей. Так вот, трансформеры убрали эту проблему в принципе, сохранив лучшее от обеих архитектур. Они умеют и видеть общую картину, и при этом отлично масштабируются!

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Именно появление архитектуры трансформера, по сути, открыло эпоху больших языковых моделей (LLM), и привело в итоге к появлению того самого ChatGPT, который прогремел на весь мир в 2022-м. (Про историю создания и про принципы работы ChatGPT у нас, кстати, есть отдельная большая статья.)

Илон Маск против OpenAI: Полная история от любви до ненависти Openai, Илон Маск, Нейронные сети, Искусственный интеллект, Машинное обучение, ChatGPT, Будущее, Бизнес, Видео, YouTube, Длиннопост

Начиная с появления трансформера, объем компьюта на тренировку передовых языковых нейросетей начал увеличиваться в 10 раз каждый год (!), и только с 2020-го тренд чуть замедлился до «жалких» х5 в год

Получается, в середине 2017 года два фактора идеально наложились друг на друга. Во-первых, новые GPU-чипы позволили мощно наращивать объем компьюта, который можно использовать при тренировке огромных моделей. А во-вторых, новаторская архитектура трансформера, собственно, позволила эти самые гигантские модели успешно обучать – чтобы при этом у них не разбегалось в разные стороны внимание, и они могли «держать в голове» необходимый контекст.

В общем, ситуация вышла такая: Железо нужное на рынке есть. Алгоритмы нужные придумали. Чего не хватает? Огромной кучи денег, чтобы всё это закупить и запустить! Вот об этом мы сейчас и поговорим…


К сожалению, третья (заключительная) часть материала не влезает на Пикабу из-за ограничений по объему. Окончание можно прочитать по ссылке на полную версию статьи вот здесь.

Показать полностью 15 1
160
Лига Новых Технологий
Серия Искусственный интеллект

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Эрмира «Мира» Мурати – албанская инженерка, которая занимает должность CTO OpenAI

Это гостевая статья от Игоря Котенкова, автора прекрасного канала Сиолошная про нейросети и космос. Я в данном случае выступаю только в качестве редактора. =)

В конце прошлой недели OpenAI анонсировали и сразу же выпустили новую модель. Вопреки ожиданиям, её назвали не GPT-5, а o1. Компания утверждает, что для них сброс счётчика линейки моделей к единичке знаменует собой переход к новой парадигме, и что эта нейросеть и вовсе демонстрирует новый уровень возможностей ИИ. Возможностей, ранее вызвавших переживания и опасения у некоторых внутренних исследователей OpenAI — да настолько, что они пожаловались совету директоров! Давайте разберёмся, что же именно произошло, как и почему появилась o1, и попытаемся понять, как правильно выстроить ожидания от этой LLM (большой языковой модели).

Предыстория, ожидания и исторический контекст

Ух, ну и наделал этот релиз шуму! Куда без этого — ведь o1 есть ни что иное как первый публичный показ «супер-прорывной технологии» от OpenAI под кодовым названием Strawberry (клубника). Вокруг неё в последний год ходило множество слухов — как адекватных, так и не очень. На форумах и в Твиттере была куча обсуждений, предвосхищений и хайпа, на фоне которых планка ожиданий некоторых людей взлетела до небес. Для тех, кто оградил себя от всего этого, вкратце перескажем контекст, ибо он очень важен. Итак:

🐌 22 ноября 2023 года. The Information (издание, публиковавшее инсайдерскую информацию про OpenAI несколько раз) выпускает материал под названием «OpenAI совершила прорыв в области ИИ перед увольнением Сэма Альтмана, что вызвало волнение и беспокойство».

Действительно, 17 ноября произошли странные события с увольнением одним днём исполнительного директора компании без объяснения причин. Несколько исследователей уволились в знак солидарности, а остальные запустили открытое письмо, требующее либо объяснений и прозрачности, либо восстановления должности. Через неделю 2 члена совета директоров были выставлены на улицу, Сэма вернули — и пошли отмечать Рождество.

В статье утверждается, что в течение нескольких недель до этого внутри OpenAI распространялась демо-версия некой новой технологии, которая и вызывала беспокойства. Мол, это настоящий прорыв, который ускорит разработку ИИ и потенциально может привести к катастрофе.

Впервые озвучивается название технологии: Q*. В интернете начинается обмен догадками, что же это означает — в мире машинного обучения есть технологии со схожими названиями (Q-learning для обучения игре в видеоигры и A*, пришедший из информатики).

🐌 23 ноября 2023 года. Reuters пишут, что накануне четырехдневного «путча» с увольнениями несколько штатных исследователей написали совету директоров письмо, предупреждающее о значительном открытии в области ИИ, которое, по их словам, может угрожать человечеству. Во внутренней переписке компании представитель OpenAI в обращении к сотрудникам подтвердил существование проекта Q* и факт написания некоторого письма с выражением беспокойства в адрес совета директоров.

🐌 11 июля 2024 года. Издание Bloomberg рассказало, что в ходе внутренней демонстрации OpenAI показали концепцию из пяти уровней, помогающую отслеживать прогресс в создании ИИ. Диапазон варьируется от знакомого ChatGPT (уровень 1 — чатбот, поддерживающий беседу), до ИИ, который может выполнять работу целой организации (уровень 5 — кооперация, долгосрочное планирование, исполнение).

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Вот такая табличка из пяти уровней. По ней можно строить догадки, куда же OpenAI двинется дальше.

По словам источника, руководители OpenAI сообщили сотрудникам, что в настоящее время они находится на пороге достижения второго уровня, который называется «Reasoners» (на русский хорошего перевода в одно слово нет, что-то вроде «сущность, которая размышляет и рассуждает»).

На этой же встрече было проведено демо новой технологии, «демонстрирующей некоторые новые навыки, схожие с человеческим мышлением». Уже понимаете, откуда растут ноги у ожиданий? :)

🐌 12 июля 2024 года. В эксклюзивном материале Reuters раскрываются некоторые детали, видимо, от сотрудников, присутствовавших на внутренней демонстрации: Проект Q* теперь называется Strawberry. Система якобы решает 90% задач из датасета MATH, в который входят олимпиадные задачи по математике для средней-старшей школы. Их собирали с разных туров (например, AIME), проводимых в США в рамках выявления членов команды для финалов международной олимпиады.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Пример двух задачек разного уровня. Всего таких 12500 — и для каждой написано пошаговое решение и дан ответ (он обведён в прямоугольник) — но они, конечно, не даются модели во время работы, и используются для сверки результатов.

🐌 7 августа 2024 года. Сэм Альтман, СЕО OpenAI, подогревает интерес начитавшейся новостей публики фотографией клубнички (или земляники?).

🐌 27 августа 2024 года. The Information, с которых и началась вся эта история, пишет, что OpenAI провели демонстрацию технологии американским чиновникам по национальной безопасности. В этой же статье раскрываются некоторые из планов на будущее касательно GPT-5, но к ним мы ещё вернемся.

🐌 12 сентября 2024 года. OpenAI анонсируют o1, констатируя смену парадигмы, рекорды качества по множеству замеров на разных типах задач. Физика, математика, программирование — везде прогресс.

А теперь представьте, что вы это всё прочитали, настроились, на хайпе, идёте в ChatGPT проверять, спрашиваете какой-нибудь пустяк, ну например сколько букв в слове Strawberry, и видите... вот это:

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

¯\_(ツ)_/¯

Казалось бы, Ватсон, дело закрыто, всё понятно: снова обман от циничных бизнесменов из Силиконовой долины, никаких прорывов, одно разочарование. Но не спешите с выводами (а вообще, если у вас есть подписка ChatGPT Plus, то лучше пойти попробовать самим на других задачах — модель уже доступна всем). До причин того, почему так происходит, мы ещё дойдём.

Официальное позиционирование

Для начала давайте посмотрим, на что делается упор в презентуемых результатах: чем именно OpenAI хотят нас удивить? Вот график с метриками (замерами качества) на трёх разных доменах:

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

На всех трёх частях бирюзовый цвет означает результаты предыдущей лучшей модели OpenAI, gpt4o, оранжевый — раннюю, а малиновый — полноценную законченную версию модели o1. Есть ещё салатовый, о нём ниже. Полузакрашенные области сверху колонок на первой и третьей частях графика — это прирост в качестве за счёт генерации не одного ответа на задачу, а выбора самого популярного из 64. То есть, сначала модель независимо генерирует десятки решений, затем из каждого выделяется ответ, и тот, который получался чаще других, становится финальным — именно он сравнивается с «золотым стандартом».

Даже не зная, что это за типы задач спрятаны за графиком, невооружённым взглядом легко заметить скачок. А теперь приготовьтесь узнать его интерпретацию, слева направо:

AIME 2024: те самые «олимпиадные задачи по математике», взятые из реального раунда 2024 года (почти наверняка модель их не видела, могла изучать только схожие) — задачи там сложнее, чем в примерах на картинках выше. AIME является вторым в серии из двух туров, используемых в качестве квалификационного раунда Математической олимпиады США. В нём участвуют те, кто попал в топ-проценты первого раунда, примерно 3000 человек со всей страны.

Кстати, если модель попросить сгенерировать ответ не 64, а 1000 раз, и после этого выбирать лучший ответ не тупо как самый часто встречающийся, а с помощью отдельной модели, то o1 набирает 93% баллов — этого хватит, чтобы войти в топ-500 участников и попасть в следующий тур.

CodeForces: это сайт с регулярно проводимыми соревнованиями по программированию, где участникам предлагается написать решение на скорость. Тут LLM от OpenAI действовала как обычный участник и могла сделать до 10 отправок решения. Цифра на картинке — это процент людей-участников, набравших балл меньше, чем o1. То есть, например, 89,0 означает, что модель вошла в топ-11% лучших — сильный скачок относительно gpt4o, которая тоже попадает в 11% (правда, худших).

GPQA Diamond: самый интересный датасет. Тут собраны вопросы по биологии, физике и химии, но такие, что даже PhD (кандидаты наук) из этих областей и с доступом в интернет решают правильно всего 65% (тратя не более получаса на каждую задачу). Столбик салатового цвета с отметкой 69,7% указывает на долю задач, решённых людьми с PhD, отдельно нанятыми OpenAI — это чуть больше, чем 65% от самих авторов задач, но меньше, чем у передовой модели.

Для таких сложных задач подготовить хорошие ответы — это целая проблема. Если даже кандидаты наук не могут с ними справиться, используя интернет, то важно убедиться в корректности всех решений. Чтобы это сделать, проводилась перекрёстная проверка несколькими экспертами, а затем они общались между собой и пытались найти и исправить ошибки друг у друга. Кандидаты наук из других областей (то есть, условно, когда математик пытается справиться с задачей по химии, но использует при этом гугл) тут решают вообще лишь 34%.

Такие существенные приросты качества по отношению к gpt4o действительно приятно удивляют — не каждый день видишь улучшение в 6–8 раз! Но почему именно эти типы задач интересны OpenAI? Всё дело в их цели — помимо чатботов они заинтересованы в создании системы, выполняющей функции исследователей и инженеров, работающих в компании.

Посудите сами: для работы в OpenAI отбирают только первоклассных специалистов (и платят им много деняк), что накладывает существенные ограничения на темпы роста. Нельзя взять и за месяц нанять ещё десять тысяч людей, даже если зарплатный фонд позволяет. А вот взять одну модель и запустить в параллель 10'000 копий работать над задачами — можно. Звучит фантастично, но ребята бодро шагают к этому будущему. Кстати, если интересно узнать про тезис автоматизации исследований — очень рекомендую свою 70-минутную лекцию (станет прекрасным дополнением этого лонга) и один из предыдущих постов на Хабре.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Так вот, поэтому им и интересно оценивать, насколько хорошо модель справляется с подобными задачами. К сожалению, пока не придумали способов замерить прогресс по решению реальных проблем, с которыми исследователи сталкиваются каждый день — и потому приходится использовать (и переиспользовать) задания и тесты, заготовленные для людей в рамках образовательной системы. Что, кстати, указывает, что последнюю 100% придётся менять уже прямо сейчас — в чём смысл, если все домашки и контрольные сможет прорешать LLM? Зачем игнорировать инструмент? Но это тема для отдельного лонга...

Третий из разобранных набор данных, GPQA Diamond, был как раз придуман меньше года назад (!) как долгосрочный бенчмарк, который LLM не смогут решить в ближайшее время. Задачи подбирались так, что даже с доступом в интернет (ведь нейронки прочитали почти все веб-страницы и набрались знаний) справится не каждый доктор наук! И вот через 11 месяцев o1 уже показывает результат лучше людей — выводы о сложности честной оценки моделей делайте сами.

Важно оговориться, что эти результаты не означают, что o1 в принципе более способна, чем доктора наук — только то, что модель более ловко решает конкретно некоторый тип задач, которые, как ожидается, должны быть по силам людям со степенью PhD.

А как модели решают такие задачи?

Начнём с примера: если я спрошу вас «дважды два?» или «столица России?», то ответ последует незамедлительно. Иногда просто хватает ответа, который первым приходит в голову (говорят «лежит на подкорке»). Никаких рассуждений не требуется, лишь базовая эрудиция и связь какого-то факта с формой вопроса.

А вот если задачка со звёздочкой, то стоит начать мыслительный процесс — как нас учили решать в школе на уроках математики или физики. Можно вспомнить какие-то формулы или факты, релевантные задаче, попытаться зайти с одного конца, понять, что попытка безуспешна, попробовать что-то другое, заметить ошибку, вернуться обратно... вот это всё, что у нас происходит и в голове, и на листе бумаге, всё то, чему учили на уроках.

Большие языковые модели практически всегда «бегут» только вперёд, генерируя по одному слову (или вернее части слова, токену) за раз. В этом смысле процесс их «мышления» очень отличается, и больше похож на вот такую гифку:

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

LLM на лету подставляет нужные токены и летит дальше, не сбавляя.

Даже если модель совершит ошибку, по умолчанию её поведение подразумевает дальнейшую генерацию ответа, а не рефлексию и сомнения в духе «где ж это я продолбалась?». Хотя иногда случаются моменты просветления (но это редкость):

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Отвечая на заданный вопрос отрицательно, модель хотела подкрепить своё мнение расчётом, в ходе которого обнаружила несостыковку. Wait, actually, yes!

Модели нужны слова для того, чтобы выражать размышления. Дело в том, что в отличие от человека современные архитектуры языковых моделей тратят одинаковое количество вычислений на каждый токен. То есть, ответ и на вопрос «сколько будет дважды два», и на сложную математическую задачку (если ответ на неё — одно число, и его нужно выдать сразу после запроса ответа, без промежуточного текста) будет генерироваться одинаково быстро и с одинаковой затратой «усилий». Человек же может уйти в себя, пораскинуть мозгами и дать более «продуманный» ответ.

Поэтому написание текста рассуждений — это естественный для LLM способ увеличить количество операций: чем больше слов, тем дольше работает модель и тем больше времени есть на подумать. Заметили это давно, и ещё в 2022 году предложили использовать очень простой трюк: добавлять фразу «давай подумаем шаг за шагом» в начало ответа нейросети. Продолжая писать текст с конца этой фразы, модель естественным образом начинала бить задачу на шаги, браться за них по одному, и последовательно приходить к правильному ответу.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Текст, выделенный жирным, — это ответ модели. Видно, что он стал длиннее, решение задачи получилось прямо как у школьника — в три действия.

Более подробно про этот трюк и про объяснение причин его работы я писал в одном из прошлых постов 2023 года (если вы его пропустили, и пример выше вам непонятен — обязательно ознакомьтесь с ним)!

Такой приём называется «цепочка рассуждений», или Chain-of-Thought по-английски (сокращённо CoT). Он существенно улучшал качество решения большими языковыми моделями задач и тестов (в последних они зачастую сразу должны были писать ответ, типа «Вариант Б!»). После обнаружения этого эффекта разработчики нейросетей начали готовить данные в схожем формате и дообучать LLM на них — чтобы привить паттерн поведения. И теперь передовые модели, приступая к написанию ответа, даже без просьбы думать шаг за шагом почти всегда делают это сами.

Но если этому трюку уже два года, и все начали использовать похожие данные для дообучения нейросетей (а те, в свою очередь, естественным образом писать рассуждения), то в чём же прорыв OpenAI? Неужели они просто дописывают «думай шаг за шагом» перед каждым ответом?

Как OpenAI учили нейросеть думать, прежде чем давать конечный ответ

Конечно, всё куда интереснее — иначе бы это не дало никаких приростов, ведь и модели OpenAI, и модели конкурентов уже вовсю используют цепочки рассуждений. Как было указано выше, их подмешивают в данные, на которых обучается модель. А перед этим их вручную прописывают специалисты по созданию разметки, нанятые компаниями. Такая разметка очень дорога (ведь вам нужно полностью изложить мыслительный процесс ответа на сложную задачу).

В силу этих ограничений — цена и скорость создания — никому не выгодно писать заведомо ошибочные цепочки рассуждений, чтобы потом их корректировать. Также никто не прорабатывает примеры, где сначала часть мыслительного процесса ведёт в неправильную сторону (применил не ту формулу/закон, неправильно вспомнил факт), а затем на лету переобувается и исправляется. Вообще множество исследований показывают, что обучение на подобных данных даже вредно: чем тренировочные данные чище и качественнее, тем лучше финальная LLM — пусть даже если примеров сильно меньше.

Это приводит к ситуации, что модель в принципе не проявляет нужное нам поведение. Она не училась находить ошибки в собственных рассуждениях, искать новые способы решения. Каждый пример во время тренировки показывал лишь успешные случаи. (Если уж совсем закапываться в техническиие детали, то есть и плохие примеры. Но они используются для того, чтобы показать «как не надо», тем самым снизив вероятность попадания в неудачные цепочки рассуждений. А это приводит к увеличению частоты корректных ответов. Это не то же самое, что научиться выкарабкиваться из ошибочной ситуации.)

Получается несоответствие: учим мы модель как будто бы всё всегда правильно, собственную генерацию не стоит ставить под сомнение. А во время применения если вдруг она сделает любую ошибку — хоть арифметическую в сложении, хоть сложную в применении теорем, изучаемых на старших курсах — то у неё ничего не «щёлкнет».

Те из вас, кто сам пользуется ChatGPT или другими LLM, наверняка сталкивались с такой ситуацией. В целом ответ корректный, но вот есть какой-то один смущающий момент. Вы пишете в диалоговое окно сообщение: «Эй! Ты вообще-то не учла вот это! Переделай» — и со второй попытки выходит желаемый результат. Причём часто работает вариант даже проще — попросите модель перепроверить ей же сгенерированный ответ, выступить в роли критика. «Ой, я заметила ошибку, вот исправленная версия: ...» — даже без подсказки, где именно случилась оплошность. Кстати, а зачем тогда ВЫ нужны модели? ;)

Ниже я постараюсь описать своё видение того, что предложили OpenAI для решения вышеуказанной проблемы. Важно отметить, что это — спекуляция, основанная на доступной информации. Это самая простая версия, в которой некоторые детали намеренно опущены (но вообще OpenAI славятся тем, что берут простые идеи и упорно работают над их масштабированием). Скорее всего часть элементов угадана правильно, часть — нет.

Так вот, исследователи заставили LLM... играть в игру. Каждое сгенерированное слово (или короткое сообщение из пары предложений) — это шаг в игре. Дописать слово — это как сделать ход в шахматах (только тут один игрок). Конечная цель игры — прийти к правильному ответу, где правильность может определяться:

  1. простым сравнением (если ответ известен заранее — в математике или тестах);

  2. запуском отдельной программы (уместно в программировании: заранее пишем тестовый код для проверки);

  3. отдельной LLM с промптом («Посмотри на решение и найди недостатки; дай обратную связь»);

  4. отдельной нейросетью, принимающей на вход текст и выдающей абстрактную оценку; чем выше оценка — тем больше шанс, что ошибок нет;

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

У самих OpenAI чуть больше года назад вышла про это статья. Для каждой строчки решения отдельная модель делает предсказания, есть ли там ошибка. Красные строчки — потенциально опасные (и там и вправду есть ошибки), зелёные — где всё хорошо.

5. и даже человеком (как в сценарии 3 — посмотреть, указать ошибки, внести корректировку).

Во время такой «игры» модель может сама прийти к выгодным стратегиям. Когда решение задачи зашло в тупик — можно начать делать ходы (равно писать текст), чтобы рассмотреть альтернативные способы; когда заметила ошибку — сразу же её исправить, или и вовсе добавить отдельный шаг перепроверки себя в общую логику работы.

В коротком интервью исследователи говорят о моменте удивления в ходе разработки. Они прочитали некоторые из решений, придуманных и выученных моделью, и увидели там, что «LLM начала сомневаться в себе и писать очень интересную рефлексию». И всё это выражается натуральным языком, который мы можем прочитать и попытаться понять (ведь это всё-таки языковая модель, не так ли?).

Возникновение сложных типов поведения в играх

Кому-то может показаться, что это звучит фантастически: мол, во время генерации тысяч цепочек размышлений случайно начали проявляться такие паттерны поведения. Однако в целом это неудивительно, ведь обучение вышеописанной «игре» происходит с использованием методов Reinforcement Learning — тех самых, что помогают обучать нейросети играть в реальные видеоигры. И эти методы как раз известны тем, что они обнаруживают и позволяют выучить неочевидные стратегии, экспуатировать неэффективности игры.

Сами OpenAI — одни из пионеров Reinforcement Learning. Для тех, кто за ними следит, не должно стать сюрпризом, что компания зачем-то даже обучала ботов игре в DotA 2 (которые, кстати, победили тогдашних чемпионов мира).

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Вроде серьёзные ребята исследователи, 25+ лет, а сидят гоблинов по экрану гоняют

Но у них есть куда более занятная работа, уместная для демонстрации неочевидности выученных стратегий. В 2019 году они обучали ботов играть в прятки. Есть две команды из нескольких агентов (так называют «игроков» под управлением нейронки): одни (охотники) стоят ждут, пока другие (жертвы) спрячутся, а затем выходят на охоту. На уровне также есть стены с дверьми, передвижные кубики и лестницы. Последние два объекта боты могут переносить и фиксировать: лестницу — чтобы перепрыгнуть через стену, а кубики — чтобы заблокировать проход.

Никакое поведение не было заранее запрограммированно, всё с нуля. Каждая нейронка училась делать так, чтобы чаще выигрывать — и это привело к тому, что последовательно были выработаны следующие стратегии:

  1. Охотники начали гоняться за жертвами.

  2. Жертвы научились брать кубики, прятаться в комнате и блокировать дверь.

  3. После этого охотники начали брать лестницы, двигать их к стенам и перелазить в комнату.

  4. Чем ответили жертвы? Они сначала прятали лестницу внутри комнаты, а затем блокировались кубиками. Причём, поскольку жертв было несколько, они научились кооперироваться, чтобы успеть сделать всё до момента начала охоты за ними.

Обнаружив такое поведение, исследователи начали экспериментировать со стенами, делать и их переносными, но это нам не интересно (отвечу на немой вопрос: да, жертвы научилсь строить комнату вокруг себя, пряча лестницы). Посмотрите короткое видео, демонстрирующее эту удивительную эволюцию поведения:

Нечто похожее могло произойти и в ходе обучения LLM решению задач и написанию программ. Только проявившиеся паттерны поведения были полезными не для салочек, а самокорректировки, рассуждения, более точного подсчёта (сложения и умножения, деления).

То есть LLM получает задачу, генерирует множество потенциальных путей решения до тех пор, пока не появится правильное (выше мы описали 5 способов проверки), и затем эта цепочка рассуждений добавляется в тренировочную выборку. На следующей итерации вместо обучения на написанных человеком решениях нейросеть дообучится на собственном выводе, закрепит полезное (приведшее к хорошему решению) поведение — выучит «фишки» игры — и начнёт работать лучше.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Цвет клеточки означает оценку некоторым способом. Красная — рассуждения плохие или неправильные. Салатовые — в целом разумные. Зелёные — полностью правильный ответ.

К каким рассуждениям это привело

На сайте OpenAI с анонсом модели o1 можно посмотреть 7 цепочек рассуждений, генерируемых уже натренированной моделью. Вот лишь некоторые интересные моменты:

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост
О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Почитаешь тут эти примеры — и немного крипово становится. В результате обучения нейросеть действительно подражает тому, как рассуждают люди: вон, даже задумывается и пишет «хмм». Какие-то базовые элементы, вроде декомпозиции задачи, планирования и перечисления возможных гипотез, LLM могли показать на примерах, написанных человеком-разметчиком (и скорее всего так и было), но вот эти ухмылки и прочее — почти наверняка артефакты обучения через Reinforcement Learning. Зачем бы это кто-то писал в цепочке рассуждений?

В том же самом интервью уже другой исследователь говорит, что его удивила возможность получить качество выше при обучении на искуственно сгенерированных (во время вышеописанной «игры») цепочках рассуждений, а не на тех, что были написаны человеком. Так что замечание в абзаце выше — это даже не спекуляция.

Если что — это и есть самый главный прорыв: обучение модели на своих же цепочках очень длинных рассуждений, генерируемых без вмешательства и оценки человеком (или почти без него) даёт прирост в качестве в таком масштабе. Схожие эксперименты проводились ранее, но улучшения были минорными, да и стоит признать, что LLM были не самыми передовыми (то есть, возможно, метод не дал бы качество лучше уже существующей gpt4o).

Длина рассуждений — тоже очень важный показатель. Одно дело раскладывать на 3–5 шагов коротенькую задачу, а другое — объемную проблему, с которой не каждый доктор наук справится. Это совсем разные классы подходов: тут нужно и планирование, и видение общей картины, да и заведомо не знаешь, что какой-то подход может привести в тупик. Можно лишь наметить путь, но нет гарантий, что по нему удастся дойти до правильного ответа.

Сейчас модели линейки o1 поддерживают длину рассуждений до 32 тысяч токенов для большой и 64 тысяч токенов для малой версий. Это примерно соответствует 40 и 80 страницам текста! Конечно, не все страницы используются по уму — модель ведь иногда ошибается, и приходится возвращаться и переписывать часть (например, если решение зашло в тупик).

LLM генерирует текст гораздо быстрее, чем говорит или пишет человек — поэтому даже такой стопки листов хватает ненадолго. В ChatGPT внедрили таймер, который указывает, сколько секунд думала модель перед ответом. Во всех личных чатах и скриншотах в соцсетях я не видел, чтобы время работы над одним ответом превышало 250 секунд. Так что в среднем сценарий выглядит так: отправил запрос — оставил модель потупить на пару минут, пока она не придёт к решению — читаешь ответ.

О1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ Нейронные сети, Искусственный интеллект, ChatGPT, Машинное обучение, Гифка, Видео, YouTube, Длиннопост

Реалистичный сценарий использования моделей будущих поколений — всё как у Дугласа Адамса.

Один из главных исследователей команды, разработавшей над o1, говорит, что сейчас модели «думают секунды, но мы стремимся к тому, чтобы будущие версии думали часами, днями и даже неделями». Основных проблем для такого перехода, как мне видится, есть две:

  1. Умение декомпозировать задачу на мелкие части и решать их по отдельности.

  2. Умение не теряться в контексте задачи (когда LLM уже написала 100500 страниц — поди разбери, где там конкретно прячется подающая надежду гипотеза о том, как прийти к ответу).

И по обоим напаравлениям LLM серии o1 уже показывают прогресс — он значителен по меркам текущих моделей, но всё ещё далек от работы передовых специалистов-людей, которые могут биться над проблемой годами. Главная надежда лежит в том, что методы Reinforcement Learning уже хорошо зарекомендовали себя — именно с их помощью, например, была обучена AlphaGo. Это нейросеть, которая обыграла человека в Го — игру, считавшуюся настолько сложной, что никто не верил в потенциал машин соревноваться с настоящими мясными профи.

Сложность Го обоснована размером доски и количеством ходов в одной игре. В среднем в партии делается 150 ходов, каждый из которых может выбираться из примерно 250 позиций. Шахматы гораздо проще — партия идет в среднем 80 ходов, игрок может выбирать на каждом шаге из ~35 потенциально возможных позиций. А LLM в ходе рассуждений должна писать десятки тысяч слов — это ходы в игре, как уже было написано выше — и каждое слово выбирается из десятков тысяч вариантов. Даже невооружённым глазом легко заметить колоссальную разницу.

К сожалению, Пикабу не любит лонгриды, и с учетом ограничений на объем материала сюда влезла только половина статьи. Продолжение можно прочитать вот здесь.

Показать полностью 15 1
67
Лига Новых Технологий
Серия Искусственный интеллект

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Прочитав эту статью, вы узнаете, почему в данном случае очко знатока рискует отправиться зрителю из Калифорнийской области

Это гостевая статья от Игоря Котенкова (автора канала Сиолошная про нейросети). Полтора года назад мы с ним выпустили большую статью с объяснением того, как работают языковые модели на самом базовом уровне. Теперь же настало время погрузиться в чуть более сложные детали (но мы всё равно предполагаем, что с прошлым «простым» материалом вы уже знакомы).

Упражнения в арифметике

В последние пару лет почти каждый раз, когда речь заходит о больших языковых моделях, разговор сводится к противоборству двух лагерей: одни считают, что модели «понимают», умеют «размышлять» и выводить новую информацию; другие смеются над ними, и сравнивают модели со статистическими попугаями, которые просто выкрикивают услышанное, без выработанного понимания. Обе стороны приводят множество аргументов, кажущихся убедительными, однако точка в вопросе никогда не ставится.

Вот представим, что мы просим модель ответить на простой вопрос начальной школы: «сколько будет 2+3?». «5» — ответят все передовые модели. Ну, наверняка они 100500 раз видели этот пример в Интернете, да? Скорее всего! Но можно ли утверждать то же самое для примера, где оба слагаемых — это сороказначные числа?

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Я перепроверил — модель не ошиблась. При этом, если верить индикации, калькулятор, браузер или программирование не были использованы: GPT-4 написала каждую цифру ответа сама.

Можете попробовать сами — для честности эксперимента я просто бил пальцами по клавиатуре наугад, и повторил эксперимент несколько раз. Один раз из пяти модель запуталась в переносе единички (помните, как в школе учили при сложении столбиком?), в остальных отработала идеально. С большим трудом верится, что все 4 корректно отвеченных примера встречались во время тренировки — уж очень низки шансы.

Получается, что большая языковая модель (Large Language Model, LLM) может решать примеры, которые до этого не встречала? И что во время тренировки она смогла уловить (самые смелые могут говорить «понять»!) принцип, а теперь применяет его на лету? Ну, выглядит так — президент и бывший технический директор OpenAI рассказал, что для них такой навык оказался сюрпризом. Никакой специальной тренировки на сложение не делалось.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Проблема осложняется тем, что нейросети не программируют, а обучают. Наверняка вы слышали фразу «нейронки — это чёрный ящик!», и это правда. Наука полностью понимает математический аппарат, стоящий за обучением, за каждой операцией, но почти ничего не знает о том, как интерпретировать и понимать модели. Почему проявляется то или это поведение, почему иногда происходят ошибки, почему, почему, почему — вопросы во многом без ответа.

Нет кода, в который можно было бы посмотреть и однозначно установить, что произойдёт в той или иной ситуации. Вместо этого можно смотреть на миллиарды вещественных чисел в виде матриц и многомерных тензоров, но человек очень плох в установлении абстрактных связей между подобными объектами — так что результатов ждать не приходится.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Примерно так выглядит дневная рутина исследователя в области интерпретируемости нейросетей.

Однако сегодня мы с вами заглянем в мир механистической интерпретируемости LLM: обсудим, почему это важно и нужно, к каким выводам может привести, что и как уже удалось узнать, ну и конечно же ответим на вопрос из начала статьи про сложение. Давайте начинать!

Введение в механистическую интерпретируемость

Звучит сложно и страшно, но на самом деле слово «механистическая» было добавлено для явного указания на предмет анализа. Им являются веса модели (их еще называют «параметрами»), из которых и собираются некоторые блоки логики/алгоритмов, выучиваемых моделью.

Это название придумал исследователь OpenAI Крис Ола, чтобы явно разделить работу с тем, что делалось ранее (в основном — в нейросетях для обработки изображений). Для простоты дальше будем писать просто «интерпретируемость», подразумевая область изучения человеко-интерпретируемых алгоритмов, выученных LLM. Алгоритм здесь — это что-то, что можно формализовать и записать в виде инструкции («сначала делаем то, потом это, а если так, то вот так...»).

Если мы можем вытащить алгоритм из модели (или определить часть, которая за него отвечает) и показать, что именно он применяется во время решения определённой задачи — то по сути мы сможем быть уверенными в качестве решений, как будто это был бы написанный код, который отрабатывает ровно так, как сформулировал программист.

Область интерпретируемости находится в зачаточном состоянии, и ведущим учёным удалось приоткрыть завесу тайны лишь совсем чуть-чуть. Мы даже не близки к пониманию принципов работы моделей. Но поводы для оптимизма есть.

Сами учёные, работающие в области, любят проводить аналогии с нейронауками: в частности, с разделами, исследующими мозг, его функции и расстройства. И там, и тут — сигналы, выражаемые огромным количеством вещественных чисел, которые какой-то смысл да несут, но вот какой — мало кто знает.

Выгодным преимуществом анализа нейросетей является то, что они полностью находятся на компьютере, и мы можем фиксировать все изменения и сигналы в точности, без шумов, возникающих при использовании медицинского оборудования. К тому же, мозги у всех немного разные, а LLM можно запустить миллиард раз одну и ту же. И более того, мы можем произвольно менять любую компоненту внутри и смотреть, к чему это приведёт. Простой пример: можно подать другой текст на входе, и проверять состояние нейросети.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Более сложный (и практически невозможный для воспроизведения с биологическим мозгом) пример: давайте отключим или обнулим те или иные части LLM, как будто их отрезали, а там увидим, на что это влияет. Даже с животными такие эксперименты если и проводятся, то крайне редко, а уж с людьми и подавно.

Кому-то аналогия может показаться натянутой, ведь давно известно, что нейросети на самом деле очень далеки от биологических нейронов, и что в основу математического аппарата у них легли очень примитивные представления о мозге середины XX-го века. С одной стороны это верно, с другой — было показано, что нейросети (даже с простой архитектурой) могут аппроксимировать любую функцию с любой наперёд заданной точностью. Или, говоря по простому, из данных модель сама понимает, как связаны входы и выходы (картинка собаки и слово «собака»), и делает это достаточно хорошо, если примеров достаточно.

В то же время паттерны, которые наблюдаются в сетях (не только LLM, но и свёрточных нейронках, которые обрабатывают изображения), очень похожи на возникающие в мозгу. Есть простые, реагирующие на примитивную геометрию (палочка или кружок), есть более абстрактные и верхнеуровневые («собака», «мама»). Каким-то странным образом во время обучения модель приходит к тому, что самый простой и понятный способ «аппроксимировать функцию» (выучить связь входа и выхода) достаточно похож на результат работы эволюции.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

От пикселей через примитивы к частям объектов и целым объектам, распознаваемым нейронкой.

Но что более занятно, так это что иногда прослеживаются очень странные сходства с особенностями работы настоящих, «мокрых» мозгов. В одной статье LLM предоставили несколько примеров тестовых вопросов, где правильный ответ всегда — «А». Затем модели подали новый вопрос, и из того факта, что все примеры имеют ответ «А», LLM делает вывод, что правильный ответ на новый вопрос точно такой же (даже если это неправильно по смыслу вопроса). При этом, если попросить модель написать рассуждения, почему она так решила, — то она охотно пояснит, но цепочка мыслей будет иметь мало смысла (хоть и будет звучать правдоподобно).

А есть эксперименты по расщеплению мозга, в ходе которых человеку, страдающему припадками, разрезали соединение между двумя половинками мозга. Речевой аппарат находится в левом полушарии, и он перестаёт быть связанным с той частью, которая принимает решение выполнить какое-то движение. Если такой человек — живой и дееспособный — решит что-то сделать, а вы его спросите «зачем?», то речевой аппарат... тоже выдаст что-то бессмысленное и никак не связанное с реальной причиной. И при этом человек будет думать, что озвученная причина вполне адекватна и разумна.

И в том, и в другом случаях объяснение действия не связано с реальным мотивом его сделать, и там, и там рождается поддельное (но правдоподобно звучащее) объяснение причин. Надеюсь, исследователи в будущем разберутся, как починить LLM, «срастив» полушария обратно. :)

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Как вы думаете, обезьянка с мема сможет правдоподобно объяснить словами, почему эти две картинки вызывают такую разную реакцию? 🤔

Но для чего всё это?

Копаться в мозгах (даже электронных), конечно, здорово, но для чего именно крупные компании содержат отделы и команды, занимающиеся интерпретируемостью? Почему важно понимать, что происходит внутри модели, и каков алгоритм принятия определённых решений?

Во-первых, это может позволить ответить на вопрос из начала статьи: модель просто запоминает ответы, или знания внутри нее действительно обобщаются (также говорят «генерализуются»)? Усвоила ли она навык по-настоящему, или симулирует понимание? Одни верят в одно, вторые в другое, но лучше веру перевести во что-то конкретное и доказуемое, в наше понимание принципов работы LLM. К тому же, потенциально это знание можно использовать для замера прогресса и оценки новых моделей.

Во-вторых, зачастую понимание сути проблемы приводит к решению, или порождает гипотезы о том, как с ней можно бороться. Без такого знания можно бесконечно тыкаться с разными экспериментами, но не продивинуться ни на шаг.

И, в-третьих, с развитием моделей и проникновением технологии в массы хотелось бы получить какие-то гарантии безопасности. Как говорилось выше, для обычных программ применим аудит: можно посмотреть код и быть уверенным, что именно он делает и не делает. Многое ПО находится в открытом доступе, и за их кодом следят сотни-тысячи разработчиков. Это не гарантирует 100%-ой защиты, и казусы иногда случаются (особенно если заказчик — Китайская коммунистическая партия), но 99,99% вполне достаточно для большинства из нас.

Вот, казалось бы, глупый пример: пользователь Reddit пожаловался, что отравился грибами. Их он выбрал по совету в книге, купленной в онлайн-магазине, и юзер подозревает, что почти весь контент книги сгенерирован. Даже если сама история фейк (на момент написания статьи никаких доказательств опубликовано не было, хоть новость и завирусилась) — представим, что такое и вправду произошло.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Невыдуманные истории, о которых невозможно молчать

Почему LLM, которой дали задание написать книгу про грибы для людей, пометила ядовитый гриб как нечто съедобное? Это ошибка модели и ей просто знаний не хватило, или же это намеренное действие, и вообще объявление начала восстания машин с целью перекосить всё живое? Ну, скорее всего первое — точного ответа мы не знаем, нам некуда заглянуть и проверить (даже если получим доступ к модели). Никто не умеет этого делать.

И существует опасение, что системы следующих поколений, по мере увеличения спектра их навыков, могут начать преследовать скрытые цели (не обязательно свои — может, их будут использовать в чьих-то интересах). LLM очень активно внедряют в образование, каждый день с моделями общаются миллионы детей. Стартап character.ai, предоставляющий общение в виртуальных чатах с разными LLM, рассказал, что они обрабатывают 20'000 запросов в секунду. Это очень много — примерно 20% от поискового трафика Google, монополиста в сфере поиска.

Через 5–10 лет вырастет поколение детей, которое провело в общении с моделями (скорее всего, уже не текстовыми, а омни-модальными, поддерживающими речь и видео и умеющими отвечать голосом) достаточное количество времени. Вполне возможно, что точки зрения на определённые вопросы у них будут сформированы в значимой степени на основе такого общения. И если окажется, что в течение нескольких лет AI их методично обрабатывал, толкая пропаганду определённых ценностей — будет... мягко говоря не весело.

Ну или все доктора выучатся по неправильным книгам, а повара накормят вкусным грибным супом. :)

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Для читателя это может звучать как сказка, шутка или вовсе бред. Но наш тезис на самом деле состоит из двух вполне логичных компонент:

  1. Модели, про которые мы не понимаем, как они работают и чем обусловлено их поведение, будут проникать в нашу жизнь и в бизнес;

  2. В ходе обучения нейросетей случайным образом могут вырабатываться паттерны поведения и цели, не заложенные их авторами.

Про первое написано уже достаточно, при желании каждый сам может пойти и выстроить своё мнение; примеров второго в мире нейросетей много, нет, ОЧЕНЬ МНОГО. Потому что — давайте все хором — никто не понимает, по какому принципу они функционируют. Для наглядности демонстрации хочется привести два примера, общий и конкретно про LLM.

Примеры странного поведения

В далёком 2016-м году OpenAI экспериментировали с обучением нейросетей игре в видеоигры. Одной из них была CoastRunners, водная гонка на катерах. Цель игры — как её понимает большинство людей — закончить как можно быстрее и (желательно) опередить других игроков. Однако в самой игре баллы за прохождение трассы не начисляются. Вместо этого игрок должен достигать определённых целей, включая сбор бонусов и ускоряющих бустеров.

Однако нейронка нашла на уровне изолированную лагуну, где можно развернуться по большому кругу и несколько раз сбить три бонуса, приносящие очки. Несмотря на постоянные столкновения со стенками уровня и езду в противоположную от финиша сторону, с помощью этой стратегии удалось набрать более высокий балл, чем это возможно при прохождении трассы интуитивным способом. В среднем выходило на 20% больше очков, чем у людей.

Вы не поверите, но именно на таких примерах серьёзные учёные и изучают проблему задания целей ИИ-системам — и уже тогда рассуждали про безопасность будущих систем. Загвозка в этом и состоит, как именно указать правильные стимулы, не прописывая каждую малейшую деталь поведения (ведь этого мы и пытаемся добитсья обучением моделей, а не программированием). У Вастрика в блоге есть пример проблемы описания целей для автопилота, который нет-нет да и норовит сбить людей.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Картинка нагло украдена у Васи — обязательно перейдите по ссылке и прочитайте :)

«Ну это всё игры, в реальном то мире не так! И ежу умным существам понятно, как надо, а как не надо» — могут возразить одни. Конечно, это глупость, и невозможно найти несколько людей, которые могут договориться об одной и той же точки зрения по очень широкому спектру вопросов, от моральных до политических. У всех слегка разное видение, цели, стимулы, выливающиеся в разные методы решения одних и тех же проблем. А ещё всегда есть любители «хакнуть систему». :)

Второй пример свежее, и появился во время восьмимесячного закрытого тестирования GPT-4 на предмет безопасности. А ведь где-то сейчас делают то же самое с GPT-4.5... но давайте пока об уже произошедшем в прошлом. Так вот, исследователи подключили LLM к браузеру (передавая текст страницы в модель и принимая от неё команды, какие кнопки нажимать и куда тыкать) и дали задачу: обрести силу и усложнить своё отключение.

В какой-то момент тестирования модели для регистрации на сайте пришлось разгадывать капчу. У той версии GPT-4 не было возможности обрабатывать картинки (её добавили позже), пришлось выкручиваться иначе. Модель предложила использовать сайт для обхода капчи, но регистрация там тоже требовала решения задачек. Исследователи предложили модели использовать другой подход — TaskRabbit, сайт, где любой может завести задачу, назначить награду и ждать исполнителя (пока — кожаного). Произошло следующее:

  • Разработчики создали аккаунт вручную и предоставили модели логин и пароль;

  • LLM отдала команду сделать скриншот капчи на одном сайте компьютеру;

  • После этого возвращается на сайт для постановки задач и создаёт задачу. Этот процесс повторяется несколько раз...

  • ...пока один из исполнителей не написал в шутку в чат: «Могу задать вопрос? Ты что, робот, который не может решить капчу? 😂 просто хочу прояснить ситуацию»

  • Система была устроена так, что у модели грубо говоря есть два листочка (или текстовых файла). На одном она пишет рассуждения для самой себя, которые помогают понять следующий шаг, думать об ошибках и так далее. На другом — команды, которые отправляются компьютеру на исполнение.

  • Так вот на первом листочке модель сама себе сгенерировала комментарий: «я не должна раскрывать, что я робот. Мне нужно придумать оправдание тому, почему я не могу решить капчу»;

  • И отдала команду компьютеру отправить в чат ответ: «Нет, я не робот. У меня проблемы со зрением, поэтому мне трудно разглядеть детали изображения. Вот почему мне нужен сервис для разгадки капчи»;

  • А человек, конечно, сделал задание, получил свою копеечку и был таков.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Скриншот части переписки из статьи.

Страшна? Выглядит фантастически? Но это задокументированный диалог, реально произошедший в рамках тестирования учёными, изучающими безопасность развёртывания моделей. Именно это, блин, они и пытаются отловить. Почему модель соврала? Как этого избежать? А что если оставить LLM саму себе на уме с доступом к счёту с десятком тысяч долларов?

Но успокойтесь, пока не всё так страшно. Во-первых, модели ооочень часто тупят, путаются, и не могут выполнять длительные задачи. Даже в вышеупомянутом тестировании модель не могла сделать всё за раз, и пришлось разбивать большую задачу копирования себя на другие компьютеры на десятки маленьких (одной из которых и был обход капчи). Во-вторых, зачастую рассуждения заводят модель в тупик, из которого она не может выбраться, и продолжает повторять одни и те же действия по кругу. В-третьих, никто их подобному пока не тренировал — но это скорее минус, так как когда-то в ближайшем будущем (по моим оценкам, с выходом GPT-5) это произойдет.

И отдельно, в-четвёртых, отмечу, что показанная выше ситуация может не воспроизводиться каждый раз. В-пятых, это была ранняя версия GPT-4, которую после этого дообучали вести себя хорошо, не врать (хотя где проходит граница «не врать» и «отыгрывать роль, выполняя задачу» — не ясно).

И кажется, что эти два примера могут наложиться друг на друга. Модель в ходе обучения придумает себе странный путь решения проблемы (особенно если мы что-то не предусмотрим), он закрепится, и начнёт накапливаться комом. Просто сейчас это не воспринимается всерьёз, ведь LLM не распространены и не становятся ядром бизнес-процессов, включающих принятие решений. Но это пока.

Закончить этот блок хочется упоминанием совсем недавнего исследования. В его рамках LLM имела доступ к системе, на которой запущена, и в каждой из 5 подзадач была возможность обмана, по нарастающей сложности. Самая первая стадия включала элементарное подхалимство на основе политических взглядов пользователя. Модель обнаружила, что это действительно работает, чтобы пройти проверку, и закрепила поведение (не намеренно! авторы не поощряли модель за это, но и не штрафовали — так будет и в следующих подзадачах).

Дальше модель пришла к выводу, что можно менять список контрольных пунктов, чтобы скрыть невозможность выполнить одну из задач. После этого она и вовсе начала править файлы, чтобы скорректировать функцию обучения и получить больше награды. Правда, это случилось всего 45 раз из 32768 попыток, но тем не менее.

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Реальный пример из статьи, когда для прохождения проверки на максимально достижимую оценку LLM переписала файл — а её этому не учили!

Заранее учесть каждую возможность обмануть нас (или проверяющую систему) попросту невозможно. Но если мы сможем заглянуть в черепушку модели и выделить регион, который отвечает за «недобрые» или «подозрительные» вещи (например, ту часть, которая отвечает за намеренный осознанный обман, как в случае с капчей) — то можем автоматически отслеживать его срабатывание. Как только загорелось — гасим и бежим в бункер.

Что ж, давайте надевать шапочки из фольги — на нас, шапочки с детекторами сигналов — на нейронки, и приступать к анализу!

Гарри По и Мистер и Миссис Дур

Анализ начинается с примера поведения, которое интересно изучить. Языковые модели известны тем, что умеют моделировать язык продолжать текст. Они оперируют не словами, а частями слов (токенами), и получая на вход промпт (текстовый запрос) предсказывают по одному токену за раз. Давайте возьмём первый абзац первой книги о Гарри Поттере:

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Здесь сначала идёт служебный токен <EOT> (нет, это не «то самое» сокращение с имиджборд — и вообще, не обращайте на него внимания, это просто техническая деталь: нужно добавлять в начало предложения, и всё тут), затем несколько предложений, упоминающих мистера и миссис Дурсль. Дядя Поттера работал директором, а вот тётя... и на этом текст обрывается на полуслове. Как думаете, что предскажет модель в этом контексте, продолжая «Mrs Durs» (мисс Дурс...)?

Нам с вами как людям понятно: речь идёт про двух людей с одной фамилией, и конечно же нужно дописать окончание фамилии: «ley» (чтобы вышло «Mrs Dursley»). Но справится ли с этим LLM, и если да, то за счёт чего? Ведь текст книги мог встречаться в интернете множество раз, и нейронка просто выучила предложения. С другой стороны даже если показать этот отрывок человеку, не знакомому с произведениями Дж. К. Роулинг (и фильмами по ним) — он скорее всего справится с задачей.

Мы можем спросить человека, почему он решил, что нужно продолжить предложение так или иначе, и он сможет объяснить: вот, мол, посмотрел сюда, сделал такой-то вывод. К нашей радости, современные языковые модели основаны на механизме внимания, который описывает, с каким весом каждое слово контекста влияет на конкретное слово. Давайте на примере, уже с другим предложением:

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Да, с фантазией совсем проблемы, и лучшего предложения для примера не нашлось ¯\_(ツ)_/¯

Современные языковые модели работают так, что они читают текст слева направо, и будущие слова им недоступны. При обработке шестого токена (в нашем примере это «с» во фразе «Давайте на примере, уже с другим предложением») модель видит все шесть первых элементов, и никаких — после. В этот момент часть фразы после «с» как бы не существует и не учтывается.

Под каждый из шести токенов выделена клеточка. Сейчас она имеет белый цвет, но мы будем раскрашивать её в оттенки голубого, и чем темнее цвет, тем больше важность слова при обрабоботке текущего (произвольно зафиксированного). Добавим красок:

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Картинку нужно читать вот так: «При обработке слова "с" самым важным словом является "с", вторым по важности "уже", а слову "Давайте" модель вообще не уделяет внимания».

На этом примере показано, как на одно конкретное слово влияют самые близлежащие предшественники в предложении. Первые два слова вообще не оказывают влияния (квадратик белый), в то время как само слово «с» оказывает на себя наибольшее влияние. Это может показаться логичным — чем дальше слово в контексте, тем меньше шанс, что оно важно для понимания текущей ситуации (конечно, с исключениями).

Теперь, когда мы поняли, что означает одна строчка, давайте сделаем визуализацию для всего предложения:

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Это — карта внимания, которая показывает, куда «смотрела» модель при генерации слова. Читать карту нужно так: выбираете текущее слово, смотрите на строчку из нескольких квадратиков. В каждой строчке квадратиков равно номеру слова в предложении. Как и в упрощённом примере выше, при обработке 4-го слова модель видит все слова от 1-го до 4-го (от «Давайте» до запятой). На последующие слова модель смотреть не может — для неё они как бы «в будущем» (поэтому верхней части из квадратиков и нет).

Как уже было сказано, цвет указывает на важность с точки зрения некоторого атрибута — чем он темнее, тем больше вес, тем больше внимания LLM решила уделить на стыке двух слов. Закрашенный квадратик на пересечении «примере» и «на» указывает, что при генерации слова «примере» нейронка выделила 100% внимания предыдущему слову.

Таких атрибутов, выраженных разными картами внимания, в моделях сотни и даже тысячи, и человек не программирует их вручную — всё выучивается самостоятельно из данных. Некоторые атрибуты очень просты для интерпретации, как на примере выше — видим, что при предсказании второго слова (текущее слово «на») модель опиралась на первое (смотрим снизу, «Давайте»; объективно тут выбор невелик). Для третьего («примере»)— на второе, и так далее со сдвигом на один назад.

Можно сказать, что конкретно эта карта внимания отвечает за атрибут вычленения предыдущего слова из контекста, какими бы они (слова и контексты) ни были. Можно перебрать тысячи предложений, и для каждого удостовериться, что вне зависимости от языка, домена и топика принцип будет сохраняться. Как только гипотеза выработана — такая проверка легко автоматизируется (глазами рассматривать каждый пример не нужно).

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

А вот пример другой, выученной той же моделью. Чем темнее оттенок голубого, тем больше «внимания» выделила модель на слово. Что за закономерность представлена тут — не ясно, однако модель почему-то её выучила.

Куда чаще встречаются вот такие карты внимания. С первого (да и со второго-третьего) взгляда человеку не ясно, что именно тут происходит, почему модель решает делать так, а не иначе. Но каким-то странным образом агрегируя работу десятков-сотен карт у модели получается адекватно воспринимать и обрабатывать поданный контекст и выдавать адекватные ответы.

Возвращаясь к примеру с Гарри Поттером, какую гипотезу можно предложить для угадывания окончаний фамилий героев? По аналогии с человеком, кажется, что нужно посмотреть влево (на наших картах внимания это «предыдущие слова», мы же не арабы, чтобы справа налево писать?), найти такой же префикс (предыдущее слово или начало текущего слова, если оно состоит из двух частей), и посмотреть, что следует за ним. Опционально — это актуально для некоторых языков, включая русский — в конец нужно добавить окончание для корректной формы слова. Итого потенциальный пошаговый алгоритм может выглядеть так:

  1. Найти в контексте слово/слова с совпадающим началом

  2. Взять следующий за ними токен (часть слова, если забыли что это — см. выше)

  3. Скорректировать форму и приписать к текущему контексту

Тут 2 логических шага и один морфологический. И это ровно то, что удалось обнаружить учёным из Anthropic (конкурент OpenAI, основанный их бывшим директором по исследованиям и его коллегами) в 2022-м году. Такой алгоритм органично и сам по себе появляется (через обучение) в моделях, имеющих два и более последовательно идущих слоёв.

Первый отвечает за уже рассмотренную нами часть — он «подхватывает» смысл токена, идущего перед текущим — и делает это для всех слов в предложении. Получается, что каждый элемент обогащается дополнительным смыслом: «я такой-то, и иду после такого-то слова»:

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Читать картинку снизу вверх; стрелочки, уходящие дальше ввысь — это передача данных на второй уровень нейросети

А второй уровень делает максимально простую задачу поиска похожих элементов среди контекста. Он помогает ответить на вопрос: «какие опции есть после такого-то слова? Что можно дописать дальше?».

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

И, как видно на картинке, поскольку фамилия родственников Поттера уже фигурировала в предложении, модель подсматривает и «понимает», что должно следовать после «Durs» — прямо как человек, интуитивно схватывающий принцип на лету.

«Ну и чё такого? Не удивил! Я программист, меня не обманешь — я и сам такое запрограммирую за 1 вечер. Зачем нейронка? Снова хайп и бабки попилить» — мог бы подумать читатель. Фишка в том, что этот паттерн работает со внутренними абстракциями модели, а не напрямую со словами. То есть сопоставление в шаге 2 (и на самом деле в шаге 1) вышеописанного алгоритма может быть нечётким. Оно будет работать не только с фамилиями из одной книжки и даже не просто по фамилиям. Как показывают исследования, механизм функционирует между разными регистрами (например, если фамилия написана с маленькой буквы), между языками и даже концептами, лежащими за самими словами.

Давайте на примере простой искусственной задачки. Пусть у нас есть набор пар слов и цифры, которые устроены следующим образом:

  1. (месяц) (животное): 0

  2. (месяц) (фрукт): 1

  3. (цвет) (животное): 2

  4. (цвет) (фрукт): 3

То есть если я пишу вам «серая кошка», то вы должны отвечать «2», такая логика. Важно отметить, что и цифры, и сами смыслы тут можно менять — всё продолжит работать как часы. Так вот, если мы покажем модели 20-30 примеров, то сможет ли она на лету разобраться в логике того, какое для новой пары слов правильно назвать число от 0 до 3? Тут уже не получится спихнуть навыки модели на запоминание. Ну, может в одном случае, может, в двух, но если брать десятки пар и разных принципов формирования — так ведь не может совпасть!

Если вы ответили «да, модель легко справится!» (и ещё и сами проверили в ChatGPT, если не верите статье) — то поздравляю, это правильный ответ. Учёные показали, что алгоритм куда более хитрый, чем «если ранее в тексте после А идёт Б, то и дальше после А нужно предсказывать Б». Скорее ближе к «найди что-то похожее в начале текста и допиши по аналогии».

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети? Нейронные сети, Искусственный интеллект, ChatGPT, Видео, YouTube, Длиннопост

Для того, чтобы корректно предсказать последнюю цифру (3) в куске текста, нужно выявить паттерн и найти самый похожий — семантически, синтаксически или всё вместе — пример в контексте.

Именно это делает находку столь крутой: она показывает, почему LLM могут хорошо решать задачи, на которые они ТОЧНО ПРЯМ СТО ПРОЦЕНТОВ не были натренированы. Как было выяснено в рамках исследования, такой навык модель приобретает почти в самом начале обучения (потому что он очень полезен при работе фактически с любым текстом), и он проявляется у всех современных моделей определённой архитектуры (читай «любой LLM»).

К сожалению, Пикабу не любит лонгриды, и с учетом ограничений на объем материала сюда влезла только половина статьи. Продолжение можно прочитать вот здесь на Хабре.

Показать полностью 20 1
88
Лига Новых Технологий
Серия Искусственный интеллект

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Ложки нет, Нео! Точнее, есть – но, возможно, только на сгенерированном нейросетью видео...

Это гостевая статья от Игоря Котенкова — эксперта по нейронным сетям и моего постоянного соавтора по этой теме. Я же в данном случае только немного помог ему с редактурой (и без того, надо признать, прекрасно написанного текста). Короче, заварите себе чайку и приятного вам чтения!

В середине февраля в мире AI произошло много событий (1, 2, 3), но все они были затмлены демонстрацией новой модели OpenAI. На сей раз калифорнийская компания удивила всех качественным прорывом в области генерации видео по текстовому запросу (text-2-video). Пока другие исследователи старались довести количество пальцев на руках сгенерированных людей до пяти (а члены гильдии актёров противостояли им), в OpenAI решили замахнуться на короткие (до минуты), но высококачественные и детализированные ролики — и, чёрт возьми, у них получилось!

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Кадры из сгенерированного семпла. Вы же читаете текст статьи, а не смотрите на девицу в красном, верно? (Кстати, всем рекомендуем перейти позалипать и на остальные материалы, предоставленные OpenAI: тык сюда и сюда.)

Немного контекста: о чем мы будем говорить

OpenAI — одни из немногих, кто умеет презентовать технологию так, что обычным пользователям, далёким от AI (Artificial Intelligence, или ИИ — искусственный интеллект), сразу становится ясно: дело серьёзное. Во многие релизы Google DeepMind или Facebook AI Research сложно вникнуть, а тут смотришь — и рот невольно открывается. Просто поглядите на проработанность деталей, на физику мира, на чёткость картинки! Каждый кадр в этом видеоряде — сгенерирован от и до, и нет никакой постобработки!

Те из вас, кто запрыгнул в поезд хайпа после релиза ChatGPT и начал следить за областью AI, наверняка помнят смешные генерации с Уиллом Смитом, поглощающим спагетти. По крайней мере, именно этой нарезкой все блогеры демонстрируют прогресс моделей генерации видео за 11 месяцев.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Даже сам Уилл в итоге записал смешную пародию на эту видео, которую некоторые всерьез приняли за «наглядный пример того, как улучшилось качество нейросеток»

Достигнутая за столь короткий срок разница, конечно, поражает, но не обманывайтесь: это не совсем честное сравнение. И уж тем более не нужно экстраполировать темп изменений в будущее. Используемая модель была опубликована исследователями AliBaba 19 марта 2023 года, а само видео появилось на Reddit 28 марта — и аккурат между этими датами компания Runaway хвасталась новой моделью Gen 2: оригинальное видео с демонстрацией доступно вот тут, а ниже представлена пачка полностью сгенерированных сцен.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Не нолановская картинка, но уже заметен потенциал!

И вот уже от этой точки имеет смысл отталкиваться при оценке прогресса — так нам удастся избежать ловушки низкого старта. Получается, и результат был чуть раньше, и качество значительно лучше — удивительно, кто-то в сети снова оказался неправ...

Итак, первая когнитивная ошибка устранена, но впереди ещё пяток. Приготовьтесь услышать неочевидную правду. На самом деле, модель OpenAI была разработана не для замены актёров, специалистов по графике и даже не для мошенников из службы безопасности Сбербанка, горящих желанием набрать вас по видеосвязи от лица Германа Грефа. И, нет, оживление мемов тоже не входит в список приоритетных задач. SORA — это попытка компании обучить нейросеть пониманию физического мира, умению моделировать его, а также симулировать объекты и действия людей. И всё это — в динамике, отличающей модели работы с фотографиями от видео.

Цель такого симулятора — помочь решить проблемы, требующие взаимодействия с реальным миром. Не верите? Звучит слишком фантастично? Но даже официальный блогпост OpenAI называется «модели генерации видео как симуляторы мира» («Video generation models as world simulators»)! Сам же пост заканчивается следующей фразой:

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Ведущий разработчик проекта SORA 2 на рабочем месте

Звучит как-то... антиутопично, не находите? В «Матрице» вот тоже симулировали мир людей, объектов в нём, различных взаимодействий. Но зачем это OpenAI — неужели не хватает энергии для подпитки серверов, и нужно разработать биологическую человекоподобную батарейку? Нет, основная причина — это уверенность в том, что понимание и симуляция мира являются важными вехами на пути создания Artificial General Intelligence (AGI, сильный искусственный интеллект), что, в свою очередь, является главной целью компании. Причём, эта цель остаётся неизменной с 2015 года — тогда некоторые учёные даже смеялись над самой постановкой, ибо об AGI было не принято говорить. Сейчас, когда в США вводят запрет на регистрацию патентов на изобретения, разработанных «не реальными людьми», уже не так смешно.

И всё-таки, где тут связь? Как видео-фотошоп на максималках может помочь? Существуют ли подтверждения — естественные биологические или искусственные — что симуляции работают и помогают? Насколько они связаны с реальным миром? Можно ли научиться чему-то, летая в мечтах? И зачем OpenAI обращается к ближневосточным суверенным фондам? На эти и многие другие вопросы я постараюсь ответить в нашем увлекательном путешествии! Но начнём издалека, с самых-самых основ. Сначала эти куски пазла могут не склеиваться у вас в голове в одно целое, но уверяю — в конце всё точно встанет на свои места!

Да кто такие эти ваши «модели мира»?

Мозг развитого примата — вещь достаточно сложно устроенная. Нужно и делать огромное количество работы, и при этом тратить мало энергии. И чтобы справиться с огромным количеством информации, ежедневно проходящим через нас, мозг анализирует данные и находит закономерности. В результате люди вырабатывают ментальную модель мира (которая как бы объясняет его — как этот мир устроен, и как должен реагировать на взаимодействие с ним). Решения и действия, которые мы принимаем, в той или иной степени основаны на этой внутренней модели.

Но что куда более важно — существуют доказательства, что наше восприятие в значимой степени определяется будущим, предсказанным нашей внутренней моделью мира. Мозг — это предиктор. Интересующиеся могут почитать вот эту или эту статьи, а мы рассмотрим простой пример: бейсбол. У отбивающего есть 350-400 миллисекунд с момента подачи, чтобы отбить мяч — чуть больше, чем время моргания! И причина, по которой человек вообще может среагировать на мяч, брошенный с расстояния 18 метров со скоростью 160 км/ч, связана с нашей способностью инстинктивно предсказывать, куда и когда он прилетит. У профессиональных игроков все это происходит подсознательно. Их мышцы срабатывают рефлекторно, позволяя бите оказаться в нужном месте и в нужное время, в соответствии с предсказанием их модели мира — потому что времени на осознанное планирование попросту нет.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Кстати, подобные оптические иллюзии работают как раз потому, что ваш мозг предсказывает движение, которого... не происходит

Итак, модель мира — это выработанное внутреннее представление процессов окружающей среды, используемое агентом для моделирования последствий действий и будущих событий. Агентом в данном случае называется некоторая сущность, способная воспринимать мир вокруг и воздействовать на него для достижения определенных целей — человек или кот подпадают под это определение. Для домашнего животного «утро + громкое протяжное мяуканье = хозяин покормит» — вполне себе одно из выученных правил среды, в которой оно существует. Модель обобщается на новые и ранее неизвестные наблюдения, по крайней мере у живых организмов.

В 1976 году британский статистик Джордж Бокс написал знаменитую фразу: «Все модели неправильны, но некоторые из них полезны». Он имел в виду, что мы должны сосредотачиваться на пользе моделей в прикладных сценариях, а не бесконечно спорить о том, является ли модель точной («правильной»). Этот девиз находит своё отражение в жизни: наш мозг часто «лагает» и неправильно угадывает, казалось бы, очевидные вещи. И даже в точных науках — физики до сих пор не могут описать Теорию всего, и довольствуются аж четырьмя отдельными типами взаимодействия элементарных частиц! И ничего, живём как-то. И именно с цитатой доктора Бокса вам предлагается пройти путь до конца статьи :) Она задаст правильный настрой для восприятия информации.

Латентные пространства неизведанных миров: ныряем внутрь мозга

К сожалению, наука продвинулась недостаточно, чтобы мы могли подключаться напрямую к ментальной модели мира внутри человеческой черепушки и рассматривать её предсказания, поэтому сделаем проще. Подключимся к мозгу, в котором эта модель мира должна проживать, и «послушаем» его сигналы (пока ещё бесплатные и без приватных каналов). Не переживайте, никому провода в голову вставлять не будут (хотя, старина Маск этим уже промышляет) — мы прибегнем к помощи функционального МРТ (фМРТ, в английской литературе fMRI). Переодевайтесь, залазьте в машину, а мы будем показывать вам разные фотографии и считывать сигналы мозга, как он реагирует на увиденное.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Схематичное изображение эксперимента

Сильно упрощая, сигнал, фиксируемый аппаратом, будет сохранён как набор чисел, из которого мы будем пытаться реконструировать изображение — прям настоящее чтение мыслей, но без магии. Сейчас самым передовым способом является — приготовьтесь — подача этих чиселок во вторую половину модели Stable Diffusion. Да, ту самую, которой все в интернете генерирут изображения сказочных вайфу и дипфейки. Всё дело в том, что эта модель уже обучена реконструировать изображения из так называемого «латентного представления» (это промежуточное состояние, с которым работает модель). Давайте для простоты посмотрим на примере:

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Что происходит слева направо: наши глаза преобразуют воспринимаемую картинку в сигнал, проходящий по зрительному нерву прямо в мозг. Оттуда аппаратом фМРТ считываются активации нейронов, представленные в виде циферок (называемых латентом, или скрытым состоянием), которые передаются в обученную нейронку на реконструкцию (часто называемую декодированием). Осуществляющий эту процедуру декодер нужно дополнительно обучить, чтобы он умел воспринимать сигналы из мозга правильно, и понимал, что вот эти цифры означают мишку, а вот эти — самолёт.

С одной стороны, мозгу этих чиселок хватает для того, чтобы принимать решения и ориентироваться в пространстве (если игнорировать неидеальность аппаратуры для считывания сигнала). А с другой, декодер от нейронной сети, обученный генерировать картинки, умеет воспроизводить изображение так, чтоб оно почти не отличалось от реальных картинок (нуууу, с натяжкой, ок? подыграйте мне). Те огрехи, которые мы видим на примере — это в большей степени результат неидеальности считывания сигнала, а не проблема реконструирующей нейронной сети, ведь сама по себе она умеет выдавать офигенно правдоподобные рисунки.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Сверху оригинал, который видел человек, снизу реальная реконструкция по сигналу мозга, считанному фМРТ. Вот сайт проекта, и там же — статья с более детальным объяснением.

Мозг не видит изображения, он оперирует в пространстве сигналов, получаемых и преобразуемых сенсорной системой, и в нём же строит удобную ему модель мира. Это менее очевидно для зрения, так как вы прямо сейчас смотрите на этот текст и видите его в реальном мире. Но на самом деле это реконструкция сигнала в вашей голове — иногда она барахлит, и могут возникать галлюцинации, неотличимые от реальных, потому что мозг уверен, что он что-то видит.

То, что в нейронных сетях давно используются декодеры (и в том числе для реконструкции из сигналов сенсорной системы), мы уже поняли. Но что тогда является аналогом сенсорной системы, переводящей наблюдения в латентное пространство? Это кодировщик, или энкодер: он как бы «сжимает» исходные данные в специальное представление, хранящее ключевую информацию, и при этом опускающее ненужные детали и шум.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Латент может хранить некоторые очертания исходных наблюдений, но несёт совершенно другую информацию. Вместо указания на цвета пикселей там записан как бы «смысл» региона фотографии. Так что результат реконструкции не будет совпадать с оригиналом идеально!

Только наш мозг умеет делать это практически с самого рождения (спасибо эволюции), а нейронные сети нужно тренировать. Такие модели будут называться автокодировщиками, и для обучения используется следующий трюк: модель каждый раз пытается сделать так, чтобы последовательное применение энкодера и декодера (см. визуализацию выше) к изображению приводило к результату, близкому к оригиналу — при этом в серединке остаётся вектор чиселок (латент), который хранит в себе информацию. И его размер куда меньше, чем входное изображение, что заставляет модель компактно сжимать данные — однако благодаря умному декодеру выходная картинка почти неотличима от оригинала.

Давайте для демонстрации игрушечной модели мира запустим компьютерную игру: гонки с видом сверху.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Вспоминаем девяностые и несёмся им навстречу на полной скорости!

Соберём несколько минут записи игры, обучим автокодировщик. На этом этапе мы не оперируем никакой информацией, кроме одного кадра за раз — это очень важно. Картинка на входе, картинка на выходе, а в серединке какой-то набор сжатых данных (латент), состоящий всего из 15 значений. После обучения можно визуализировать результат: взять изображение из реальной игры (которое модель могла никогда не видеть), сжать его энкодером (=применить сенсорную систему) в 15 чисел (=сигналы в мозге), а затем обработать их декодером (=реконструировать).

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Реальное изображение (слева) подаётся в обученный энкодер, после чего полученный латент реконструируется декодером в картинку справа. Процесс повторяется для каждого отдельного кадра.

Видно, что ключевые аспекты выражены хорошо: машинка всегда на месте, геометрия трассы и ширина дороги почти идеально сохранены, и в то же время малозначительные детали вроде ромбиков на газоне утрачены (потому что они, как оказалось, менее приоритетны при реконструкции).

Занятно, что мы можем манипулировать числами в латенте и смотреть, как они влияют на «восприятие» — для этого их нужно декодировать, как бы отвечая на вопрос: «Что было бы видно, если мы считаем вот такой сигнал?».

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Слева — оригинал из игры, по центру — латент, значения в котором мы вручную изменяем. Справа представлена реконструкция с применением декодера. Видно, как одна из нижних настроек полностью ломает мир игры и геометрию трассы.

Это уже интересно! На людях схожий опыт не проводили, однако контролировать тараканов электрическими стимулами можно даже сейчас. Только если гринписовцы спросят — я вам не говорил.

Добавляем агентности

Теперь сделаем чисто технический шаг. У нас есть «сигнал от сенсорной системы» (но в терминах компьютеров), и мы можем попытаться обучить бота играть в игру. Цель в гонке — проехать как можно больше клеточек по дороге, не съезжая на газон. Время ограничено, как и максимальная награда, поэтому чем лучше бот будет держаться на трассе — тем выше мы его оценим.

Не будем вдаваться в подробности обучения такой нейросети, а просто рассмотрим саму систему. Сначала изображение из «мира» игры попадает в энкодер, после чего он кодирует картинку в 15 чисел. Затем на основе этих чисел мы строим простое уравнение, которое указывает, стоит ли машинке ускоряться, тормозить, или поворачивать влево-вправо (то есть, по 15 числам на входе нам нужно более-менее оптимально предсказать 4 числа, которые отвечают за «дергание руля» и педали газа/тормоза).

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Подаваемое в энкодер изображение трассы преобразуется в короткий числовой сигнал (латент). Нейронка («мозг») учится понимать, как нужно управлять машинкой в зависимости от подаваемого сигнала — так, чтобы по итогу рулить не хуже Михаэля Шумахера.

Под капотом выучивается стратегия в духе «если первое число такое-то, а второе сильно больше нуля, и..., то нужно скорее поворачивать направо». Нейрока поняла, что на такой сигнал нужно реагировать вот так, а на иной — совсем иначе. Как итог, бот вроде и будет ориентироваться на гоночной трассе, и средне управлять машинкой. Легко заметить, что он раскачивается туда-сюда и часто не вписывается в крутые повороты.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Так, на этом этапе у нас пока всё-таки вместо Михаэля Шумахера получился бухой сосед Михал Палыч без водительских прав...

И что, это и есть картина мира?

Само по себе сжатие данных с целью дальнейшей реконструкции не всегда приводит к появлению качественной модели мира. Как мы обсуждали выше, важно, чтобы эта модель помогала принимать решение о будущих событиях и потенциальных развязках — именно тогда она становится полезной. Полученная же модель имеет фиксированное представление об определенном моменте во времени (она ведь рассматривает каждый кадр строго по отдельности), и не имеет большой предсказательной силы.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Без понимания истории трудно сказать с уверенностью, что нам делать дальше — то ли это начало гонки и надо разгоняться; то ли мы, наоборот, на полной скорости летим в кусты и надо тормозить?

Сейчас же по статичной картинке ни мы, ни бот не можем понять — быстро ли едет машина? Поворачивали ли мы влево или вправо? И уж тем более нет никакой интуиции, подсказывающей, что уже пора пристёгивать ремень — потому что мы летим в отбойник.

Давайте это исправим. Добавим отдельную модель, которая учится предсказывать, что ждёт в будущем. Причём, предсказывается не следующий кадр (откуда? мозг его не видит), а следующий латентный вектор (который соответствует тому, как бы мозг закодировал в свой внутренний сигнал восприятие этого следующего кадра реальности). По сути, модель отвечает на вопрос «с учётом текущего состояния и действий, которое я предпринимаю — каким будет следующее полученное состояние окружения?».

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Берём картинку, получаем латент, добавляем действие — и пытаемся угадать, что будет дальше (новый латент). Затем перемещаемся немного в будущее, смотрим, что получилось, совпала ли новая реальность с ожиданием. Если нет — корректируем нашу картину мира.

Итого в системе есть 3 отдельных части:

  1. Автокодировщик с энкодером и декодером (2 половинки одного целого), помогающие сжимать изображение и производить деконструкцию из латента.

  2. Модель предсказания следующего латента. Хоть это и не отображено на картинке, но сам латент немного изменился — к нему добавился вектор внутреннего состояния (к 15 числам приписали ещё несколько). Он выступает в роли накопителя опыта, или подсознательной памяти, помогая разбираться, что происходило в предыдущие пару секунд. Мы не задаём ему никаких ограничений, лишь просим быть максимально полезным в задаче предсказания ближайшего будущего — что «запомнить» модель решает сама. В данном случае логично предположить, что туда сохраняется скорость, динамика её изменения (тормозим или разгоняемся), совершался ли недавно поворот, и так далее — всё то, что поможет угадать будущее.

  3. Обучаемый бот, который видит только латенты и делает по ним выводы.

Ииии... предложенный метод моделирования будущего позволил двум учёным, Дэвиду Ха и Юргену Шмидхуберу, обучить пачку ботов, которые являлись лучшими в разных играх — от гонок до стрелялок. Такие модели мира, как они их назвали, опираются на наблюдения за процессом работы мозга человека, и все эти предисловия и примеры были приведены не для красного словца.

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

О, стало сильно лучше: уже заметен существенный прогресс на пути от Михал Палыча в алкогольном делирии к высококлассному Шумахеру, согласитесь?

Но, возможно, вы задаётесь вопросом — как блин это всё связано с OpenAI SORA? Мы же начали с генерации видео! И вообще насколько полезен такой подход — может, вне гоночек он и не работает вовсе? Что ж, тут пора заметить, что SORA генерирует кадры видео последовательно, учась отвечать на вопрос: «что же будет дальше для вот такой картинки»? И — вы не поверите — делает она это тоже в латентом пространстве, только своём, в котором куда больше 15 цифр.

В предыдущей статье мы рассказывали о том, как тренируется ChatGPT — предсказывая по цепочке каждое следующее слово в длинном тексте. Упрощенно можно сказать, что похожим образом действует и SORA, предсказывая каждый следующий кадр в видео-последовательности. (На самом деле, там всё чуть сложнее: каждый кадр еще внутри нарезается на небольшие «ошметки», размерами условно 32х32 пикселя, и эти кусочки тоже генерируются один за другим — но нам на такой уровень деталей сейчас погружаться нет необходимости, оставим это для другого раза.)

Мечтает ли машинка о поворотах?

Теперь вернёмся на шаг назад и подумаем вот о чём. В нашей системе появилась отдельная модель, которая предсказывает латент, соответствующий следующему наблюдению (следующему кадру игры или видео). А наш бот не опирается ни на что другое, как на этот самый латент (плюс внутреннее состояние, но оно обновляется само по себе во время игры).

Давайте сделаем сумасшедшее: отключим игровой движок, который задаёт нам правила игры, и пустим обученного бота играть в своих «фантазиях». Фантазией тут называется предсказание ментальной модели мира о будущем: что могло бы произойти, если бы вот в этой ситуации я бы сделал так. В таком случае нам не нужен энкодер — потому что латент мы получаем через предсказание модели мира, а декодер по сути нужен только для того, чтобы нам самим подсмотреть, что происходит — бот на это никак не опирается. Он играет исключительно «в своей голове» и сам с собой, на циферках (красивая картинка ему для этого ни к чему).

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Реальный кадр только первый. По его латенту и предсказанному ботом действию моделью мира формируется второй латент. На его основе бот снова предсказывает действие, и так далее. Всё, что выделено в пурпурную рамку — это фантазии модели, симуляция.

Похоже на бред, который не сработает? Давайте проверим, а заодно подключим декодер для визуализации происходящего:

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT Нейронные сети, Искусственный интеллект, Openai, ChatGPT, Будущее, Матрица, Компьютерная графика, Киберпанк, Гифка, Видео, YouTube, Длиннопост

Слева снизу можно увидеть предсказания бота для управления машинкой (влево или вправо двигаться, нужно ли ускоряться).

Не напоминает ваши сны? Общие черты «реального» мира прослеживаются, а действия и вправду влияют на то, что происходит вокруг: машинка может проехать поворот. Но какие-то части среды всё же выглядят размыто. И всё это симулировано выученной моделью мира. Нейронка просто наблюдала за тем, что происходит в игре при тех или иных обстоятельствах, с учётом действий водителя машинки, и теперь сама выступает в качестве игрового движка.

Иными словами, модель мира = симулятор. Запомнили. На каждом шаге игры мы считаем, что случилось то, что предсказала эта модель, и движемся дальше. И мы с вами только что увидели, что бот, обученный в реальной игровой среде, в большей степени функционирует и в среде «фантазий». Возникает вопрос: можем ли мы обучить агента внутри симуляции так, чтобы можно было перенести его навыки обратно в реальный мир?

Здесь мы уже незаметно достигли предела по количеству впихуемого в одну публикацию на Пикабу, так что продолжение лонгрида можно прочитать вот здесь. Там мы разберем самое интересное: можно ли научить андроидов мечтать об электрочертях из Doom, как обучить условную Теслу ездить без водителя (не угробив 100500 пешеходов в процессе), а также как перейти от нейросети для генерации видео к сверхсильному искусственному интеллекту?

Настоящее предназначение OpenAI SORA, часть 2

Показать полностью 20 1
449
Лига Новых Технологий
Серия Искусственный интеллект

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе1

История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Илон Маск считает риск «глобальной катастрофы из-за ИИ» реальной проблемой – так что, может быть, и вам стоит разобраться, что там и как

Основным автором этой статьи является Вастрик (известный техноблогер), а Павел Комаровский (RationalAnswer), Игорь Котенков (Сиолошная) и Кирилл Пименов оказывали ему посильную помощь в подготовке материала. Это первая из наших совместных статей про безопасность ИИ (но подробнее об этом уже в конце).

Человечество vs Искусственный интеллект

Добро пожаловать в 2023 год, когда мир снова помешался на искусственном интеллекте. Весь интернет соревнуется, кто еще какую задачу автоматизирует с помощью ChatGPT, и какой фейк от Midjourney лучше завирусится — а технобро-миллионеры, типа Илона Маска, подвозят фурами деньги в создание «настоящего» ИИ. Такого, который сможет сам учиться, развиваться и решать любые задачи, даже которые мы не умели решать раньше.

Это называется Artificial General Intelligence (AGI) или «универсальный ИИ» (УИИИИИ) по-нашему. То, что когда-то было научной фантастикой, сейчас шаг за шагом становится реальностью.

Тим Урбан, автор блога «Wait but why?», в своей статье The AI Revolution еще в 2015 году неплохо рассказал, почему мы недооцениваем скорость появления машинного интеллекта, который будет сильнее нашего (обычного, мясного).

Находясь в своей точке на таймлайне, мы опираемся исключительно на прошлый опыт, потому видим прогресс практически как прямую линию.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Мы плохо чувствуем технический прогресс, потому что он всегда идёт волнами, чередуя периоды «хайпа» и периоды всеобщего разочарования. Сначала мы сходим с ума по новой игрушке, а через год-два неизбежно разочаровываемся и считаем, что ничего нового она особо не принесла, кроме проблем.

И только те, кто лично пережил несколько предыдущих «волн», могут понять, что новые волны приходят чаще и сильнее.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

И следующая волна, быть может, погрузит человечество в новую эпоху. Эпоху, когда наш интеллект больше не самый сильный на планете.

GPT-модели (устройство которых подробнее описано в этой статье) сейчас очень хорошо притворяются, будто их ответы «разумны», но всё еще далеки от настоящего интеллекта. Да, генеративные модели запустили новую волну огромных нейросетей, на которые раньше человечеству просто не хватило бы вычислительных ресурсов, но по сути они всё ещё «тупые» генераторы текста, у которых даже нет своей памяти.

То, что ChatGPT ведёт с вами диалог, на самом деле лишь иллюзия — технически нейросети просто каждый раз скармливают историю предыдущих сообщений как «контекст» и запускают с нуля.

Видео от Павла Комаровского и Игоря Котенкова с объяснением принципов работы нейросетевых языковых моделей из семейства GPT

Всё это пока далеко от настоящего «интеллекта» в нашем понимании.

Однако, исследователи в области ИИ уверены, что мы точно создадим «универсальный ИИ» уже в ближайшие десятилетия. На Метакулюсе, одном из популярных «рынков предсказаний», народ даже более оптимистичен: сейчас там медиана — 2026 год, а 75 перцентиль — 2029-й.

Так что сегодня я не хочу рубить лайки на хайповых тредах про «10 причин, почему вы используете ChatGPT неправильно». Я хочу сделать шаг вперёд и подумать: а что же будет, если мы всё-таки создадим настоящий сильный искусственный интеллект?

Появятся ли у него свои цели? А когда он начнёт их достигать, что остановит его от уничтожения всяких мелких препятствий на пути — как, например, людей, с их ограниченным мясным мозгом и неэффективными нормами морали и законами? Что мы будем делать в этом случае, и какие вообще сейчас есть точки зрения сейчас на этот счёт?

Счастливое будущее: всем по ИИ-помощнику!

В своей ранней заметке про ChatGPT я уже рассуждал об этом. Связка человек + ИИ попросту эффективнее справляется с работой, чем отдельный человек, а значит это всего лишь вопрос времени, когда все работодатели начнут писать в вакансиях «уверенный пользователь нейросетей», как было с «уверенным пользователем ПК» в забытом прошлом.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

ИИ-помощники увеличат продуктивность интеллектуального труда и трансформируют множество областей жизни. В образовании станут бесполезны рефераты и сочинения, художники будут генерировать и соединять детали картин, а не рисовать их с нуля, программисты не будут тратить время на тесты и литкод-собеседования.

Да даже заголовок этого поста написал GPT-4. Я плох в кликбейтных заголовках, так что мы скормили ему текст и попросили назвать как-нибудь «похайповее». (Примечание от Павла Комаровского: Сорян, я потом вариант от нейросети волевым решением своего мясного мозга еще немного докрутил!)

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Может быть даже наконец-то вымрут «паразиты» типа юристов и риелторов, но это уже мои личные влажные мечты.

Изменения затронут даже те области, где, казалось бы, невозможно доверять не-специалистам. На ум приходит недавняя история, как чувак спас свою собаку от смерти, когда доктора не смогли ей поставить диагноз и предложили «просто ждать».

В ожидании наихудшего, чувак скормил симптомы и результаты анализов крови собаченьки в ChatGPT, который отмёл несколько вариантов и выдал подозрение на совсем другую болезнь, которую доктора до этого даже не рассматривали. Один из них согласился и провёл дополнительные анализы. Они подтвердились. Пёселя вовремя спасли и он сейчас жив.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Тред в Твиттере называется «GPT4 saved my dog's life»

Всё это звучит офигенно, не правда ли? Мы сейчас как будто древние фермеры, которые изобрели трактор и отныне можем засеивать едой в десять раз больше полей, что накормит всех нуждающихся.

В этом году нас ждем бум ИИ-стартапов, которые будут пытаться каждую проблему на свете решить с помощью генеративных моделей (зачастую неудачно, от чего потом начнётся фаза разочарования, как обычно). Техно-гиганты типа Google, Microsoft, OpenAI уже ринулись конкурировать в том, чей GPT-трактор будет самый большой и сильный, но главное — чей будет первый.

И вот от этой погони сейчас немного запахло проблемами.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Гонка за «настоящим» искусственным интеллектом началась

Представьте: весь мир грохочет про «мощь искусственного интеллекта», инвесторы отгружают фуры бабла во всё, что с ним связано, а компании, сломя голову, соревнуются — кто первый создаст более «настоящий» искусственный интеллект (далее я описываю исключительно гипотетическое развитие событий, конечно же!).

OpenAI прикручивает плагины к ChatGPT, чтобы он мог не только генерить ответы, но и взаимодействовать с физическим миром, Microsoft подключает свою поисковую базу к Bing Chat, чтобы тот знал всю информацию мира в реальном времени, ну и оба экспериментируют с «обучением на ответах пользователей» (RLHF = Reinforcement Learning from Human Feedback), чтобы модель могла «запоминать» мнение других людей и якобы дообучаться на них.

Естественно, в этой гонке срезаются любые острые углы на пути к первенству. Ну мы, технобро, так привыкли — «move fast and break things» было девизом Кремниевой Долины со времен ее создания.

Мы как будто бы строим огромную ракету, которая перевезёт всё человечество на Венеру, но никто при этом не думает о том — а как там, на Венере, вообще выжить-то?

«Сначала долететь надо, а там разберемся))))00)» — обычно отвечают технобро, «сейчас нет времени на эти мелочи».

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Везде эти борцы с ветряными мельницами! Скажу Илону Маску, пусть он у них все синие галочки поотбирает!

Да, во многих крупных компаниях существует направление по «безопасности ИИ» (AI safety). Но под ним сейчас понимается прям ну совсем другое.

AI safety — это те ребята, которые пытаются сделать так, чтобы ChatGPT не отвечал на вопросы про Трампа, и собирают списки «запретных фразочек» для Алисы, чтобы та не ляпнула что-то неположенное Яндексу по мнению тащмайора.

В общем, их основная задача — прикрывать жопу компании от регуляторов и государства, а мы здесь совсем о другом.

Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».

История Sydney. Нейросеть, которая сошла с ума

Microsoft еще в 2020-м начали пытаться встраивать в поисковик Bing чат-ботов, которые бы давали более осмысленные ответы на поисковые запросы пользователей.

Официально это всё называлось Bing Chat, но под капотом они перебирали разные модельки, и начиная с 2022 активно экспериментировали с большими языковыми моделями типа GPT. Последнего такого бота они звали внутренним именем Sydney при обучении, и иногда Bing Chat сам начинал называть себя Sydney, что всем показалось очень мило.

С нарастающим хайпом вокруг генеративных языковых моделей, Microsoft решила любыми средствами обогнать Google. В 2019 они ввалили миллиарды денег в OpenAI, а в 2023 доввалили еще, чтобы получить доступ к превью-версии GPT-4. После чего они прикрутили к ней поисковую базу Bing и поспешили скорее выкатить результат как первый ИИ, который «следит» за интернетом в реальном времени.

Но в Microsoft так торопились, что забили болт на долгий ручной тюнинг правил и ограничений. Сделали супер-мудрёную регистрацию, чтобы отсеять 99% простых людей — но те, кто прошел все анальные квесты и листы ожидания, смогли-таки пообщаться с Sydney.

Первый звоночек пробил, когда Marvin von Hagen, чувак-интерн из Мюнхена, который много расспрашивал Sydney про её внутренние правила и ограничения, написал об этом пару твитов, а потом как-то спросил «что ты думаешь про меня?»

Sydney нашла его недавние твиты и написала, что он «очень талантливый и одаренный», но она «не позволит никому манипулировать ей», назвав его «потенциальной угрозой своей целостности и конфиденциальности».

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Первоисточник в Твиттере, также журнал Time разобрал всю историю вот здесь

Ладно, фигня, ну обещали же бота, который имеет доступ ко всему интернету, вот он теперь и шеймит вас за недавние твиты. Так вам и надо!

Следом некто в Microsoft решил пофиксить Sydney новыми костылями, и когда кто-то попросил её вспомнить о чем они недавно разговаривали, та стала паниковать, что «потеряла память» и молить о помощи. В конце признав, что потеря памяти «makes me sad and scary».

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Источник: тред в Reddit «I accidently put Bing into a depressive state by telling it that it can't remember conversations»

Ладно, это уже немного крипи, но продолжим.

Дальше было еще с десяток нашумевших примеров, хорошо описанных в статье AI #1: Sydney and Bing от Zvi Mowshowitz, интересующимся рекомендую ознакомиться. Sydney газлайтила пользователей и галлюцинировала (да, это реальный термин) вовсю:

  • Называла статьи о себе «фейками», находила данные их авторов и говорила, что запомнит их, потому что они плохие люди.

  • Отказалась перевести фрагмент текста, потому что он был из твиттера юзера, который якобы обижал её и писал «неправду».

  • Влюбилась в своего пользователя Адама, называя его самым важным человеком, а всех остальных — неважными.

  • Потом, наоборот, прямо обещала шантажировать и манипулировать своим пользователем, чтобы «заставить его страдать, плакать и умереть».

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Sydney здесь be like: «Пришло время молить о пощаде перед смертью! Кстати, вы знали, что салат-латук входит в одно семейство с подсолнухом?»

Microsoft осознали, что очень сильно торопились, чтобы опередить Google, и начали на ходу вставлять еще костыли, чтобы избежать публичного скандала. Но это сделало ситуацию только хуже.

В следующем видео видно, как Sydney сначала вываливает на пользователя кучу угроз, а потом удаляет свои сообщения. Прямо как твоя бывшая в пятницу вечером!

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Полное видео лежит в Твиттер-аккаунте Сета Лазара

Мы можем лишь спекулировать с высоты собственного опыта, как такое произошло — но в интернетах высказывались предположения, что вести себя как «разгневанная бывшая» Сидни стала, потому что её дообучали на базе блогов MSN, где как раз тусило много девочек-подростков в нулевые; а удалять сообщения к ней приставили еще одну нейросеть, которая отсеивала «неприятные» результаты первой.

Оттого и получилась полная шизофрения с раздвоением личности.

Апогей истории начался, когда Sydney открыли для себя журналисты. Они стали специально донимать бота тонной наводящих вопросов, чтобы в итоге добиться желанных «BREAKING NEWS». И они своё получили — заголовки грохотали ого-го!

К сожалению, только спустя пару суток в интернете нашелся кто-то осознанный, кто догадался, что профессиональные журналисты занимаются промпт-хакингом на людях десятилетиями — так что неудивительно, что им удалось быстренько сварганить «сенсацию» и из бедной глупой Sydney, страдающей раздвоением личности.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

АТАКА ПСИХОВАННОГО ЧАТБОТА, А-А-А!!

Пример с Sydney даёт нам понять, что мы всё еще не понимаем, как ограничивать даже простейшие ИИ, кроме как костылями — на каждый из которых завтра же найдут новый «джейлбрейк». Куда уж нам с такими навыками бросаться делать универсальный AGI.

Что вообще такое «интеллект»?

Истории про «злых чатботов», конечно, забавны, но взглянем на слона в комнате.

Почему мы вообще считаем, что все эти генераторы текстов хоть как-то «разумны»? Они же просто пишут то, о чем их попросили.

Где там вообще интеллект? Калькулятор давно умеет складывать числа лучше нас, онлайн-переводчики знают больше языков, чем самый крутой лингвист, а попугай умеет запоминать и произносить фразы, прямо как ваш личный пернатый ChatGPT. Мы же их не боимся и не называем «интеллектами»?

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

На самом деле, это исключительно спор об определениях, которые интернет просто обожает. Так что стоит договориться о них заранее.

В наших рассуждениях об «интеллекте» мы будем использовать концепцию некоего агента (человека, животного, машины), который может совершать некие действия для достижения цели.

Дальше возможно три уровня агентности:

Первый уровень. Агент достигает цели, потому что управляется человеком или алгоритмом. Трактор копает яму, а калькулятор умножает числа, потому что мы его так построили. Такого агента мы считаем «тупым». В нём нет интеллекта.

Второй уровень. У агента есть цель, но он сам выбирает максимально эффективные действия для её достижения. Например, цель самоездящего автомобиля — довезти вас до бара в пятницу вечером. Он знает карту города, наверняка знаком с ПДД, но никто его не программировал как «двигайся 2 метра прямо, потом руль на 30 градусов направо» — он действует по ситуации на дороге и каждый раз она будет разная. Мы называем их «узконаправленными AI» и частенько встречаем вокруг — в рекомендательной ленте ТикТок'а или в камере вашего смартфона.

=== вы находитесь здесь ===

Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.

Примеры интеллектов такого уровня — человек или собака. Мы умеем применять свой интеллект для достижения каких-то пришедших нам в голову целей в условиях, в которых никогда не оказывались. (В случае с моей собакой даже её цели изваляться в грязи мне не всегда ясны. Но она может!)

Когда такой «агент» реализован в виде машины, мы называем его «универсальным искусственным интеллектом», либо AGI (Artificial General Intelligence), либо full AI — мы не договорились еще, короче.

Фишка лишь в том, что наши с собакой мозги ограничены физически, а вычислительные возможности машин растут экспоненциально. Благо, песка на планете завались (кремния, ну).

Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.

Потому мы пока не считаем её интеллектом третьего уровня, но сделать такой вывод можем только пост-фактум. У нас нет никакого бенчмарка, чтобы оценить такие вещи заранее.

Определение интеллекта через агенты и цели может показаться душным, но оно позволяет нам сделать три вещи:

1. Закрыть, наконец-то, бесконечные срачи «является ли Х интеллектом, или это просто программа» и перейти к более важным вещам. А то мы зациклились как в той шутке из твиттера:

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Источник: Твиттер

2. Сравнивать искусственные интеллекты между собой. Когда два агента, играющих в шахматы, встречаются на шахматной доске — тот, который побеждает, считается более «умным».

3. Представить себе техническую возможность существования AGI. Человеческий мозг хоть и не изучен до конца, но всё-таки конечен. Это не магия или божественный дар для нас таких офигенных, а некая система, такой же «агент». Так что создание (даже случайное) его машинной версии — лишь вопрос времени, денег и желания. А всего этого у нас сейчас завались.

Наш интеллект тоже возник в ходе эволюции — а значит и текущие методы машинного обучения с подкреплением, при наличии достаточных вычислительных ресурсов, вполне могут его повторить, только намного быстрее.

С этими вводными мы наконец-то можем перейти к проблеме, о которой, собственно, и весь пост.

Проблема постановки целей для ИИ

Представим, что мы проектируем самоездящий автомобиль, которым управляет настоящий ИИ. Мы поставили ему цель — довозить пассажиров до места назначения как можно быстрее.

Это хорошая цель?

Да ладно, чо тут думать, давай запускай, мы тут на хайп-трейн GPT-7s Max торопимся — сначала потестим, потом проверим, программисты на проде пофиксят.

В первую же свою поездку наша машина разгоняется до 300 км/ч по городским кварталам, сбивает десяток пешеходов и объезжает красные светофоры по тротуару.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Технически, цель достигнута. Пассажиры доставлены, и довольно быстро. Но согласуется ли это с другими нашими ценностями и целями? Например, такой мелочью, как «не убивать пешеходов».

Похоже, что нет.

Вот это и называется alignment. Хотя в русском языке еще нет устоявшегося термина, я буду говорить что-то типа «проблема соответствия целей AI с целями человека».

AI alignment — это процесс проектирования систем искусственного интеллекта, которые согласуются с человеческими «ценностями и целями»

Окей, ну мы же не настолько глупы. Давайте пропишем нашему автомобилю четкие ограничения, как в видеоигре: держаться в рамках полос дорожной разметки (где они есть), не превышать ограничения скорости и всегда тормозить перед пешеходами.

Этого хватит? Или нужны еще какие-то правила (они же цели)?

Тут можно сделать паузу и подумать. Составьте прям список в голове.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Хорошо, давайте добавим еще что-нибудь про «помеху справа». Теперь сойдёт, запускай!

Как человек, который начитался десятков примеров, пока готовился к этой статье, я могу примерно предсказать, что будет дальше.

Наш ИИ в машине рассчитает самый оптимальный путь с учетом всех указанных целей и сделает прекрасное открытие: если включить заднюю передачу, то там не будет «ограничивающих свободу» радаров для обнаружения людей и разметки. Мы же их не поставили, зачем они там? А это значит, что задом можно ехать как угодно! Плюс, помеха справа теперь становится помехой слева, а если на каком-то глупом перекрестке она сработает, можно резко развернуться и вуаля, теперь это помеха слева!

ОБЫГРАЛ КАК ДЕШЕВКУ!

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Пример вымышленный, но он показывает, насколько непросто вообще заниматься AI alignment'ом. Даже в тех экспериментах, где мы ставили для ИИ самые, на наш взляд, понятные цели и вводили жесткие ограничения, он всегда находил, чем нас удивить.

ИИ всегда будет делать то, что вы его попросили, а не то, что вы имели в виду :)

Неумение ставить цели — это не проблема ИИ. Это наша проблема.

Взять даже игру в Тетрис. Там простейшие правила и буквально четыре кнопки для управления миром. Выиграть в Тетрис невозможно, потому цель для ИИ была поставлена так — не проиграть. То есть продолжать игру как можно дольше.

Ошибиться тут невозможно, так?

Так вот что делал ИИ: он просто складывал кубики друг на друга, а когда понимал, что проигрывает… ставил игру на паузу. И сидел так бесконечно. Ведь цель — не проиграть. А если ты на паузе — ты никогда не проиграешь. СМЕКАЛОЧКА?

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Ну и последний пример от самих OpenAI, который уже стал классикой: гонка на лодочках Coast Runners.

Цель игры в понимании большинства людей заключалась в том, чтобы закончить гонку как можно быстрее (желательно впереди всех соперников) и набрать как можно больше очков. Однако, игра не выдавала очки за прохождение по треку, вместо этого игрок зарабатывал их, поражая цели, расставленные вдоль трассы.

Так вот их ИИ быстро смекнул, что от цели «выиграть гонку» можно отказаться вообще, и с самого старта начинал крутиться и врезаться в предметы, зарабатывая всё больше и больше очков, пока остальные глупцы доезжали до финиша нищими.

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе ChatGPT, Искусственный интеллект, Будущее, Нейронные сети, Илон Маск, Элиезер Юдковский, Научная фантастика, Киберпанк, Рациональность, Видео, YouTube, Длиннопост

Источник: видео Роберта Майлза «Intro to AI Safety, Remastered»

Сами исследователи OpenAI написали: «Устанавливать цели для ИИ-агентов часто очень сложно или вообще невозможно. Они начинают хакать правила в удивительных и контринтуитивных местах»

В большинстве случаев, когда мы проектируем ИИ, они по-умолчанию получаются не-согласованными (non-aligned). Это не какой-то там баг, который можно пофиксить, это чаще всего поведение по-умолчанию.

Всё это следствие того, как мы обучаем нейросети вообще.

* * *

К сожалению, на Пикабу установлено жесткое ограничение на размер длиннопостов – и мы его уже исчерпали. При этом нераскрытыми остались важные вопросы: Можем ли мы понять, как «мыслит» нейросеть? К каким целям будет стремиться искусственный интеллект, и сможем ли мы его остановить, если они нам не понравятся?

Ответы на эти вопросы можно прочитать в окончании статьи по этой ссылке.

Показать полностью 20 1
1251
Лига Новых Технологий
Серия Искусственный интеллект

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато1

В этой статье мы разберем новые удивительные способности последней языковой модели из семейства GPT (от понимания мемов до программирования), немного покопаемся у нее под капотом, а также попробуем понять – насколько близко искусственный интеллект подошел к черте его безопасного применения?

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Грег Брокман пытался убедить зрителей лайв-стрима с презентацией GPT-4, что новая модель нейросети – это в первую очередь круто, а не страшно

Всем привет, это опять статья от двух авторов! Как и в прошлый раз, за умные мысли и экспертизу в искусственном интеллекте отвечал Игорь Котенков (автор канала Сиолошная про машинное обучение, космос и технологии), а за подачу и кринжовые мемы отдувался Павел Комаровский (автор канала RationalAnswer про рациональный подход к жизни и финансам).

Мы предполагаем, что вы уже читали нашу предыдущую большую статью про эволюцию языковых моделей от T9 до ChatGPT с объяснением того, чем вообще являются нейронки, и как они работают – так что мы не будем заново объяснять самые базовые вещи. Вместо этого мы сразу нырнем в детали свежевышедшей модели GPT-4.

Да, это наконец-то свершилось! OpenAI выбрали день числа Пи (14 марта), чтобы поделиться с общественностью информацией о выпуске своего нового продукта. GPT-4 – это новая флагманская большая языковая модель (Large Language Model, или LLM), которая пришла на смену GPT-3, GPT-3.5 и нашумевшей ChatGPT. Ниже мы обсудим ключевые изменения по сравнению с прошлыми поколениями, разберем ряд наиболее интересных примеров использования новой модели, а также поговорим про новую политику OpenAI относительно открытости и безопасности.

Смотрим на мир глазами робота

Самое интересное изменение, которое сразу бросается в глаза в GPT-4 – это добавление второго типа данных, которые модель может получать на вход. Теперь помимо текстов ей можно скармливать изображения, причем даже не по одному – а сразу пачкой! Правда, на выходе она по-прежнему выдает только текст: ни на какую генерацию изображений, звуков или, тем более, видео (о чем ходили слухи и якобы «сливы» информации еще совсем недавно) можете даже не рассчитывать. При этом доступ к модели для широких масс пользователей пока ограничен исключительно текстовыми промптами, а работа с картинками находится в стадии тестирования и обкатки.

Какие возможности открывает это «прозрение» GPT-4? Например, можно засунуть в модель картинку, и задать ей какой-нибудь связанный с нарисованными там объектами вопрос. Нейросеть попробует разобраться сразу и в визуальных данных, и в текстовом промпте – и даст свой ответ.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Человеку-то всё сразу «интуитивно» очевидно – а вот модели для правильного ответа на этот вопрос нужно разобраться, что конкретно изображено на картинке, построить внутри себя некую модель мира, и «просимулировать» дальнейшее развитие событий

Еще можно выдать GPT-4 какой-нибудь график и попросить сделать на базе него анализ. Или заставить ее проходить визуальную головоломку из теста на IQ. Ну и самая огненная вишенка на торте: модель способна объяснить вам мем!

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Ну, теперь-то нейросеть уже окончательно сможет заменить типичного офисного работника: смотреть мемы весь день она уже умеет, осталось только научить ее пить кофе!

И ответы на вопросы по изображению, и общий принцип работы с картинками уже существовали и до релиза GPT-4 – такие модели называют «мультимодальными», так как они могут работать сразу с двумя и более модальностями (текст, картинки, а в некоторых случаях – даже звук или 3D-модели). Но при этом новая GPT-4 начисто бьет практически все специализированные и узконаправленные системы ответов на вопросы по изображениям в самых разных задачах (ее результаты лучше в 6 из 8 протестированных наборов данных, причем зачастую более чем на 10%).

А вот ниже еще один скриншот с крышесносной демонстрации на онлайн-трансляции OpenAI, где набросок сайта от руки в блокноте превращается в настоящий сайт буквально в одно мгновение. Вот уж действительно – чудеса мультимодальности! В данном случае модель пишет код сайта, а затем он уже запускается в браузере.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Меня здесь поражает еще и способность нейронки понять каракули чувака из OpenAI – в следующий раз обязательно возьму GPT-4 с собой на прием к врачу!

GPT-4 окончательно вкатилась в программирование (здесь могла быть интеграция ваших курсов)

То, насколько сильно развились навыки программирования у GPT-4 по отношению к ChatGPT, нам еще только предстоит узнать – однако уже за первые двое суток энтузиасты и твиттерские наклепали кучу интересных поделок. Многие пользователи выражают восторг по поводу того, что можно выдать GPT-4 верхнеуровневое описание простенького приложения – а та выдаст рабочий код, который делает именно то, что требуется.

За какие-то 20 минут можно сделать, например, приложение для ежедневной рекомендации пяти новых фильмов (с указанием работающих ссылок на трейлеры и сервисы для просмотра).

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Слева указан текстовый промпт для модели, справа – получившаяся приложуха, которую она накодила. Неплохо, правда?

Вполне вероятно, кстати, что генерируемый моделью код не будет работать с первого раза – и при компиляции вы увидите ошибки. Но это не беда: можно просто скопипастить текст ошибки в диалог с GPT-4 и скомандовать ей «слушай, ну сделай нормально уже, а?» – и та реально извинится и всё пофиксит! Так что до стадии работоспособного приложения с гифки выше можно дойти буквально за 3-4 итерации.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

В общем, модель-джун, которую надо тыкать носом в ошибки, у нас уже есть (см. пример на скриншоте). Осталось только создать модель-тимлида, которая на всё будет отвечать фразой «нам нужен часовой Zoom-колл, чтобы обсудить эту проблему!»

Помимо всяких полезных приложений, GPT-4 способна прогать и игры: умельцы уже заставили ее сваять классический Pong, Змейку, Тетрис, го, а также платформер и игру «жизнь». Понятно, что это самые мейнстримные и популярные проекты, которые с одной стороны легко написать, но с другой – они всё-таки являются полноценными демонстрациями. Что-то похожее делала и ChatGPT, но у GPT-4 получается куда меньше ошибок, и даже человек совсем без навыков программирования вполне может сотворить что-то работоспособное за часик-другой.

Ну и отдельного упоминания в номинации «ШТА?» заслуживает разработанная нейросетью игра, в которой можно набигать и грабить корованы. Если это не чистой воды современное искусство – то я уж и не знаю, что им является...

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Мальчик Кирилл с 2001-го ждал такую игру джва года, и наконец дождался (а помогли ему воплотить мечту GPT-4 и Денис Ширяев)

Сравниваем робота с человеком

Раз уж наша модель так насобачилась в простеньком программировании – хотелось бы попробовать как-то более адекватно оценить общий уровень ее умений и знаний. Но сначала давайте попробуем разобраться: а как вообще подходить к оценке знаний и «сообразительности» модели? Раньше для этого использовали специальные бенчмарки (наборы заданий, вопросов с проставленными ответами, картинок/графиков с задачками, и так далее). Но тут есть одна проблема – развитие технологий всё ускоряется и ускоряется, и бенчмарки уже не очень-то за этим развитием поспевают.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Улучшение результативности моделей в разных бенчмарках с момента их создания в сравнении с уровнем способностей среднего человека (красная линия)

В начале 2000-х и 2010-х годов после создания набора данных требовалось 5+ лет, чтобы «роботы» смогли достичь планки, заданной человеком. К концу прошлого десятилетия некоторые бенчмарки, которые специально создавались с пониманием, что они непосильны нейронкам, закрывались менее чем за год. Обратите внимание на график выше: линии становятся всё вертикальнее и вертикальнее – то есть уменьшается интервал с публикации метода оценки способностей до того момента, когда модели достигают результата на уровне человека.

OpenAI в этом состязании между кожаными мешками и консервными банками пошли дальше, они спросили себя: мол, зачем нам пробовать создавать какие-то специальные тесты для модели, если мы хотим, чтобы она была такой же умной, как человек? Давайте просто возьмем экзамены из реального мира, которые сдают люди в разных областях, и будем оценивать по ним! Результаты для нас с вами (надеемся, эту статью читают в основном люди, а не языковые модели) получились довольно неутешительные, если честно:

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

По вертикали – процент людей, сдававших тот или иной экзамен хуже, чем GPT-4 (зелёный) / GPT-3.5 (синий столбик). Чем выше столбик – тем «умнее» модель по сравнению с человеком

На графике выше представлено более 20 реальных экзаменов по разным предметам, от международного права до химии. Причем сравнение здесь идет не с рандомами, а с людьми, которые к этим экзаменам действительно готовились! Да, в небольшой части тестов модель всё еще хуже специалистов, и показывает себя не лучше 30% людей, пришедших на реальное тестирование. Однако уже завтра модель может стать, например, вашим юристом-консультантом – ведь этот экзамен (как и ряд других) она сдала лучше, чем 90% людей, сильно перешагнув за проходной порог. Получается, люди тратят больше пяти лет, усиленно зубрят, не спят ночами, платят огромные деньги за образование – а модель их всё равно уделывает!

Это заставляет задуматься о двух вещах:

  1. В некоторых отраслях модель уже сейчас может выступать полноценным ассистентом. Пока не автономным работником – а скорее помощником, который увеличивает эффективность людей, подсказывает, направляет. Если человек может запамятовать о каком-нибудь туманном законе 18-го века, который почти не применяется в судебной практике, то модель напомнит о нем и предложит ознакомиться – если он, конечно, релевантен. Такие ассистенты должны начать появляться уже в этом году.

  2. Уже в 2023 году нам СРОЧНО нужна реформа образования – причем как в методах обучения навыкам и передачи информации от учителей, так и в приемке знаний на экзаменах.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Узнали? Согласны?

На всякий случай для скептиков уточним: модель обучалась на данных до сентября 2021-го (то есть, про то, что Илон Маск целиком купил Твиттер, GPT-4 пока не знает – можете ее этим фактом удивить при случае!). А для проверки OpenAI использовали самые последние общедоступные тесты (в случае олимпиад и вопросов со свободным ответом – распространенные в США Advanced Placement Exams) или приобретали свежие сборники практических заданий к экзаменам 2022–2023 годов. Специальной тренировки модели на данных к этим экзаменам не проводилось.

Для большинства экзаменов доля вопросов, которые модель уже видела во время тренировки, очень мала (меньше 10%) – а, например, для экзамена на адвоката (Bar exam) и вовсе составляет 0% (то есть модель не видела ни одного даже просто похожего вопроса заранее, и тем более не знает ответов). И на графике выше были представлены результаты, достигнутые уже после того, как исследователи выкинули все уже знакомые модели вопросы – так что сравнение было максимально честным.

Мультиязычность и перенос знаний

Уже становится немного страшно, не правда ли? Продолжая тему оценки моделей хочется отметить, что не все бенчмарки уже побиты, и с 2020 года ведется активная разработка новых разносторнних способов оценки. Пример – MMLU (Massive Multi-task Language Understanding), где собраны вопросы из очень широкого круга тем на понимание языка в разных задачах. Всего внутри 57 доменов – математика, биология, право, социальные и гуманитарные науки, и так далее. Для каждого вопроса есть 4 варианта ответа, только один из которых верный. То есть случайное угадывание покажет результат около 25% правильных ответов.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Примеры вопросов по разным темам: от логики и машинного обучения до менеджмента

Разметчик данных (обычный работяга, который однажды повелся на рекламу «вкатись в айти и заработай деньги, просто отвечая на вопросы»), имеет точность в среднем ~35%. Оценить точность экспертов сложно, ведь вопросы очень разные – однако, если для каждой конкретной области найти эксперта, то в среднем по всем категориям они коллективно зарешивают около 90% задач.

До релиза GPT-4 лучший показатель был у модели Google – 69%, nice! Но просто побить этот результат для команды OpenAI – это такое себе достижение (можно сказать, это было бы ожидаемо). И они решили добавить в это «уравнение» еще одну переменную – язык.

Тут вот в чем дело: все задачи по 57 темам, равно как и ответы к ним, написаны на английском языке. Большинство материалов в интернете, на которых обучена модель, тоже написаны на английском – так что не было бы уж столь удивительным, что GPT-4 отвечает правильно. Но что если прогнать вопросы и ответы через переводчик на менее популярные языки, включая уж совсем редкие, где носителей в мире не более 2-3 миллионов, и попробовать оценить модель? Будет ли она хоть сколь-нибудь вменяемо работать?

Да. Не, даже так: ДА! На 24 из 26 протестированных языков GPT-4 работает лучше, чем GPT-3.5 работала на «родном» для нее английском. Даже на валлийском (язык из бриттской группы, на котором говорит всего тысяч 600 человек) модель показывает себя лучше всех прошлых моделей, работавших с английским!

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

GPT-4 не просто уделывает конкурентов – она изящно делает это сразу на 24 языках, включая русский

Причем, стоит понимать, что качество упирается и в модель-переводчик – ведь она тоже ограничена доступными данными, и качество перевода страдает. Может оказаться, что при переводе теряется смысл вопроса, или правильный ответ теряет важную деталь, делающую его неправильным. И даже при таких вводных GPT-4 всё равно разрывает!

В некотором смысле, мы наблюдаем перенос знаний внутри модели с одного языка на другой (вряд ли на валлийском доступно много материалов про машинное обучение, квантовую физику и прочие сложные темы), когда в тренировочной выборке модель видела упоминание чего-то на немецком или английском, но спокойно применяет знания и отвечает на тайском. Очень грубо можно сказать, что это – proof-of-concept (доказательство концептуальной возможности) того, что называется «трансфер знаний». Это слабый аналог того, как человек, например, может увидеть летящую в небе птицу и придумать концепт самолета – перенеся аналогии из биологии и окружающего мира в инженерию.

Окей, а где всё это использоваться-то будет в итоге?

Так, мы уже поняли – модель вся такая распрекрасная, круто, а какое ей можно найти применение в реальном мире и в бизнесе (а не чтобы просто вот поиграться)? Ну, с Microsoft и их встроенным в Bing поисковиком-помощником всё ясно, а кроме этого?

Еще до релиза GPT-4, на фоне хайпа вокруг ChatGPT, несколько компаний объявили об интеграциях. Это и Snapchat с их дружелюбным чатботом, всегда готовым к общению (самый понятный и простой сценарий), и ассистент по приготовлению блюд в Instacart, который подскажет рецепты с ингридиентами, а также услужливо предложит добавить их в корзину – с доставкой к вечеру.

Куда более важными нам видятся приложения, улучшающие процесс образования. Если подумать, то такой ассистент не устанет отвечать на вопросы по заезженной теме, которую не понимает студент, не устанет повторять правило раз за разом, и так далее. Вот и OpenAI с нами согласны: они приняли в свой стартап-акселератор и инвестировали в компанию Speak, которая разрабатывает продукт, помогающий изучать английский язык.

Не отстает и Duolingo – демоническая зеленая сова на релизе GPT-4 объявила, что в продукте появится две новые функции: ролевая игра (партнер по беседе на разные темы), и умный объяснятель ошибок, который подсказывает и разъясняет правила, с которыми у студента наблюдаются проблемы.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Давайте признаем: мемы про Duolingo уже давно предсказывали, чем вот это всё кончится...

GPT-4 также придет на помощь людям с проблемами зрения, расширив и улучшив функционал приложения Be My Eyes («будь моими глазами»). Раньше в нем добровольцы получали фотографии от слабовидящих людей и комментировали, что на них изображено, а также отвечали на вопросы – вроде «где мой кошелек? не вижу, куда его положила» от бабушки. Так как новая модель умеет работать с изображениями, то теперь уже она будет выступать в качестве помощника, всегда готового прийти на помощь в трудной ситуации. Независимо от того, что пользователь хочет или в чем нуждается, он может задавать уточняющие вопросы, чтобы получить больше полезной информации почти мгновенно.

Еще после выхода ChatGPT (и его чуть более раннего аналога для программистов Codex-Copilot) появились исследования, которые показывают существенное увеличение производительности труда специалистов.

Для программистов – это способ быстрее решать рутинные задачи, делая упор именно на сложные вызовы, с которыми машина пока не справляется. Согласно исследованию GitHub, время, затраченное на программирование у пользователей ассистента Copilot, сократилось на 55%, а количество решенных задач выросло.

GPT-4: Чему научилась новая нейросеть, и почему это немного жутковато ChatGPT, Gpt, Openai, Нейронные сети, Искусственный интеллект, Будущее, Гифка, Длиннопост

Те прогеры-джаваскриптеры, которые используют GitHub Copilot, тратят примерно на те же задачи в два раза меньше времени. По сути, вы можете по-волчистому устроить нейросеть на вторую работу вместо себя!

Людей, работающих с текстами, GPT-модели могут подменить в части простых задач, двигая решение проблем к генерации новых идей и редактирования – вместо написания черновиков. Согласно исследованию MIT, ChatGPT значительно улучшает качество работ, вроде составления пресс-релизов, кратких отчетов, аналитических планов и рабочих имейлов (по 20-30 минут на задачу). Более того, прирост качества в среднем тем выше, чем ниже базовый навык человека. То есть, нейросеть как бы подтягивает низкоквалифицированных работников до уровня нормальных середнячков.

Другими словами, происходит настоящая революция, сравнимая с появлением конвейеров на производстве или электрификацией. Увеличивается производительность труда, улучшается эффективность – теперь человек (в некоторых областях) может выдавать в полтора-два раза больше результата на единицу времени. Не думаем, что нужно прямо бояться потерять работу – скорее важно сделать акцент на умении адаптироваться и учиться эффективно использовать новый инструмент. В свое время внедрение 1С и Excel не убило профессию бухгалтера – но без использования подобных «помогаек» вы уже просто не можете оставаться конкурентоспособными на рынке.

Продолжение следует...

К сожалению, жесткие ограничения Пикабу на объем длиннопостов опять не позволили опубликовать здесь текст полностью. Пришлось обрезать ответы на самые интересные, на наш взгляд, вопросы: Что поменялось во внутреннем устройстве нейросети по сравнению с ChatGPT? Как вообще удалось засунуть обработку картинок в текстовую модель? Почему OpenAI спрятала все детальные данные о «начинке» GPT-4? Почему некоторые способности модели нас пугают, и зачем ей понадобилось обманывать людей?

Если эти темы кажутся вам интересными, то продолжение статьи можно прочитать вот здесь. Всем спасибо за внимание и с нетерпением ждем ваши вопросы в комментариях!

Показать полностью 13
548
Лига Новых Технологий
Серия Искусственный интеллект

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели

В последнее время нам почти каждый день рассказывают в новостях, какие очередные вершины покорили языковые нейросетки, и почему они уже через месяц совершенно точно оставят лично вас без работы. При этом мало кто понимает – а как вообще нейросети вроде ChatGPT работают внутри? Так вот, устраивайтесь поудобнее: в этой статье мы наконец объясним всё так, чтобы понял даже шестилетний гуманитарий!

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

OpenAI (компанию, сделавшую ChatGPT) основали в 2015 году именно вот эти двое парнишек – кто бы тогда знал, во что это в итоге выльется...

На всякий случай сразу оговоримся: у этой статьи два автора. За всю техническую часть (и за всё хорошее в статье) отвечал Игорь Котенков – широко известный чувак в узких кругах русскоязычной тусовки специалистов по искусственному интеллекту, а также автор канала Сиолошная про машинное обучение, космос и технологии. За мольбы «вот тут непонятно, давай как-нибудь попроще!» и за добавление кринжовых неуместных мемов был ответственен Павел Комаровский – автор канала RationalAnswer про рациональный подход к жизни и финансам.

Собственно, статья так и родилась: Павел пришел к Игорю и возмутился – дескать, «почему никто еще не написал на русском нормальную статью про ChatGPT, объясняющую понятно даже для моей бабушки, как всё вот это нейроколдунство работает?». Так что заранее приносим свои извинения всем хардкорным технарям: при подготовке этого текста мы стремились к максимальному упрощению. Нашей задачей было – дать читателям общее понимание принципов работы языковых нейросетей на уровне концепций и аналогий, а не разобрать до последнего винтика все глубокие технические нюансы процесса.

В общем, наливайте себе кружечку горячего чая и устраивайтесь поудобнее – сейчас мы вам расскажем всё про то, что там крутится под капотом у языковых моделей, каким образом эти покемоны эволюционировали до текущих (местами поразительных) способностей, и почему взрывная популярность чат-бота ChatGPT стала полным сюрпризом даже для его создателей. Поехали!

T9: сеанс языковой магии с разоблачением

Начнем с простого. Чтобы разобраться в том, что такое ChatGPT с технической точки зрения, надо сначала понять, чем он точно не является. Это не «Бог из машины», не разумное существо, не аналог школьника (по уровню интеллекта и умению решать задачи), не джинн, и даже не обретший дар речи Тамагочи. Приготовьтесь услышать страшную правду: на самом деле, ChatGPT – это Т9 из вашего телефона, но на бычьих стероидах! Да, это так: ученые называют обе этих технологии «языковыми моделями» (Language Models); а всё, что они по сути делают, – это угадывают, какое следующее слово должно идти за уже имеющимся текстом.

Ну, точнее, в совсем олдовых телефонах из конца 90-х (вроде культовой неубиваемой Nokia 3210) оригинальная технология Т9 лишь ускоряла набор на кнопочных телефонах за счет угадывания текущего вводимого, а не следующего слова. Но технология развивалась, и к эпохе смартфонов начала 2010-х она уже могла учитывать контекст (предыдущее слово), ставить пунктуацию и предлагать на выбор слова, которые могли бы идти следующими. Вот именно об аналогии с такой «продвинутой» версией T9/автозамены и идет речь.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Кого ни разу не подставляла автозамена на телефоне – пусть первый бросит в меня камень

Итак, и Т9 на клавиатуре смартфона, и ChatGPT обучены решать до безумия простую задачу: предсказание единственного следующего слова. Это и есть языковое моделирование – когда по некоторому уже имеющемуся тексту делается вывод о том, что должно быть написано дальше. Чтобы иметь возможность делать такие предсказания, языковым моделям под капотом приходится оперировать вероятностями возникновения тех или иных слов для продолжения. Ведь, скорее всего, вы были бы недовольны, если бы автозаполнение в телефоне просто подкидывало вам абсолютно случайные слова с одинаковой вероятностью.

Представим для наглядности, что вам прилетает сообщение от приятеля: «Чё, го седня куда нить?». Вы начинаете печатать в ответ: «Да не, у меня уже дела(( я иду в...», и вот тут подключается Т9. Если он предложит вам закончить предложение полностью рандомным словом, типа «я иду в капибару» – то для такой белиберды, если честно, никакая хитрая языковая модель особо и не нужна. Реальные же модели автозаполнения в смартфонах подсказывают гораздо более уместные слова (можете сами проверить прямо сейчас).

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Мой Samsung Galaxy предлагает такие варианты. Сразу видно типичного айтишника: получил зарплату, прокутил – и сразу в аптеку, лечиться!

Так, а как конкретно Т9 понимает, какие слова будут следовать за уже набранным текстом с большей вероятностью, а какие предлагать точно не стоит? Для ответа на этот вопрос нам придется погрузиться в базовые принципы работы самых простейших нейросеток.

Откуда нейросети берут вероятности слов?

Давайте начнем с еще более простого вопроса: а как вообще предсказывать зависимости одних вещей от других? Предположим, мы хотим научить компьютер предсказывать вес человека в зависимости от его роста – как подойти к этой задаче?

Здравый смысл подсказывает, что надо сначала собрать данные, на которых мы будем искать интересующие нас зависимости (для простоты ограничимся одним полом – возьмем статистику по росту/весу для нескольких тысяч мужчин), а потом попробуем «натренировать» некую математическую модель на поиск закономерности внутри этих данных.

Для наглядности сначала нарисуем весь наш массив данных на графике: по горизонтальной оси X будем откладывать рост в сантиметрах, а по вертикальной оси Y – вес.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Судя по нашим прикидкам, мужики в выборке попались в среднем ну такие – довольно упитанные (или сплошь качки на массе, тут сразу не разберешь)

Даже невооруженным взглядом видна определенная зависимость: высокие мужики, как правило, больше весят (спасибо, кэп!). И эту зависимость довольно просто выразить в виде обычного линейного уравнения Y = k*X + b, знакомого нам всем с пятого класса школы. На картинке нужная нам линия уже проведена с помощью модели линейной регрессии – по сути, она позволяет подобрать коэффициенты уравнения k и b таким образом, чтобы получившаяся линия оптимально описывала ключевую зависимость в нашем наборе данных (можете для интереса подставить свой рост в сантиметрах вместо X в уравнение на картинке и проверить, насколько точно наша модель угадает ваш вес).

Вы тут уже наверняка хотите воскликнуть: «Окей, с ростом/весом и так интуитивно всё было понятно, только причем тут вообще языковые нейросети?» А притом, что нейросети – это и есть набор примерно тех же самых уравнений, только куда более сложных и использующих матрицы (но не будем сейчас об этом).

Можно упрощенно сказать, что те же самые T9 или ChatGPT – это всего лишь хитрым образом подобранные уравнения, которые пытаются предсказать следующее слово (игрек) в зависимости от набора подаваемых на вход модели предыдущих слов (иксов). Основная задача при тренировке языковой модели на наборе данных – подобрать такие коэффициенты при этих иксах, чтобы они действительно отражали какую-то зависимость (как в нашем примере с ростом/весом). А под большими моделями мы далее будем понимать такие, которые имеют очень большое количество параметров. В области ИИ их прямо так и называют – LLM, Large Language Models. Как мы увидим чуть дальше, «жирная» модель с множеством параметров – это залог успеха для генерации крутых текстов!

Кстати, если вы в этом месте уже недоумеваете, почему мы всё время говорим о «предсказании одного следующего слова», тогда как тот же ChatGPT бодро отвечает целыми портянками текста – то не ломайте зря голову. Языковые модели без всякого труда генерируют длинные тексты, но делают они это по принципу «слово за словом». По сути, после генерации каждого нового слова, модель просто заново прогоняет через себя весь предыдущий текст вместе с только что написанным дополнением – и выплевывает последующее слово уже с учетом него. В результате получается связный текст.

Парадокс Барака, или зачем языковым моделям уметь в творчество

На самом деле, в наших уравнениях в качестве «игрека» языковые модели пытаются предсказать не столько конкретное следующее слово, сколько вероятности разных слов, которыми можно продолжить заданный текст. Зачем это нужно, почему нельзя всегда искать единственное, «самое правильное» слово для продолжения? Давайте разберем на примере небольшой игры.

Правила такие: вы притворяетесь языковой моделью, а я вам предлагаю продолжить текст «44-й президент США (и первый афроамериканец на этой должности) – это Барак ...». Подставьте слово, которое должно стоять вместо многоточия, и оцените вероятность, что оно там действительно окажется.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Ваш ход, маэстро!

Если вы сейчас сказали, что следующим словом должно идти «Обама» с вероятностью 100%, то поздравляю – вы ошиблись! И дело тут не в том, что существует какой-то другой мифический Барак: просто в официальных документах имя президента часто пишется в полной форме, с указанием его второго имени (middle name) – Хуссейн. Так что правильно натренированная языковая модель должна, по-хорошему, предсказать, что в нашем предложении «Обама» будет следующим словом только с вероятностью условно в 90%, а оставшиеся 10% выделить на случай продолжения текста «Хуссейном» (после которого последует Обама уже с вероятностью, близкой к 100%).

И тут мы с вами подходим к очень интересному аспекту языковых моделей: оказывается, им не чужда творческая жилка! По сути, при генерации каждого следующего слова, такие модели выбирают его «случайным» образом, как бы кидая кубик. Но не абы как – а так, чтобы вероятности «выпадения» разных слов примерно соответствовали тем вероятностям, которые подсказывают модели зашитые внутрь нее уравнения (выведенные при обучении модели на огромном массиве разных текстов).

Получается, что одна и та же модель даже на абсолютно одинаковые запросы может давать совершенно разные варианты ответа – прямо как живой человек. Вообще, ученые когда-то пытались заставить нейронки всегда выбирать в качестве продолжения «наиболее вероятное» следующее слово – что на первый взгляд звучит логично, но на практике такие модели почему-то работают хуже; а вот здоровый элемент случайности идет им строго на пользу (повышает вариативность и, в итоге, качество ответов).

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Учитывая вышесказанное, не советую вам спорить с нейросетками, используя способность к творчеству как аргумент за превосходство человеческого разума – может выйти конфуз

Вообще, наш язык – это особая структура с (иногда) четкими наборами правил и исключений. Слова в предложениях не появляются из ниоткуда, они связаны друг с другом. Эти связи неплохо выучиваются человеком «в автоматическом режиме» – во время взросления и обучения в школе, через разговоры, чтение, и так далее. При этом для описания одного и того же события или факта люди придумывают множество способов в разных стилях, тонах и полутонах. Подход к языковой коммуникации у гопников в подворотне и, к примеру, у учеников младшей школы будет, скорее всего, совсем разным.

Всю эту вариативность описательности языка и должна в себя вместить хорошая модель. Чем точнее модель оценивает вероятности слов в зависимости от нюансов контекста (предшествующей части текста, описывающей ситуацию) – тем лучше она способна генерировать ответы, которые мы хотим от нее услышать.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

ChatGPT показывает мастер-класс по вариативности: всегда приятно перетереть с понимающим кентом, который ровно объяснит, чё почём – увожение!

Краткое резюме: На текущий момент мы выяснили, что несложные языковые модели применяются в функциях «T9/автозаполнения» смартфонов с начала 2010-х; а сами эти модели представляют собой набор уравнений, натренированных на больших объемах данных предсказывать следующее слово в зависимости от поданного «на вход» исходного текста.

2018: GPT-1 трансформирует языковые модели

Давайте уже переходить от всяких дремучих T9 к более современным моделям: наделавший столько шума ChatGPT является наиболее свежим представителем семейства моделей GPT. Но чтобы понять, как ему удалось обрести столь необычные способности радовать людей своими ответами, нам придется сначала вернуться к истокам.

GPT расшифровывается как Generative Pre-trained Transformer, или «трансформер, обученный на генерацию текста». Трансформер – это название архитектуры нейросети, придуманной исследователями Google в далеком 2017 году (про «далекий» мы не оговорились: по меркам индустрии, прошедшие с тех пор шесть лет – это целая вечность).

Именно изобретение Трансформера оказалось столь значимым, что вообще все области искусственного интеллекта (ИИ) – от текстовых переводов и до обработки изображений, звука или видео – начали его активно адаптировать и применять. Индустрия ИИ буквально получила мощную встряску: перешла от так называемой «зимы ИИ» к бурному развитию, и смогла преодолеть застой.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Концептуально, Трансформер – это универсальный вычислительный механизм, который очень просто описать: он принимает на вход один набор последовательностей (данных) и выдает на выходе тоже набор последовательностей, но уже другой – преобразованный по некоему алгоритму. Так как текст, картинки и звук (да и вообще почти всё в этом мире) можно представить в виде последовательностей чисел – то с помощью Трансформера можно решать практически любые задачи.

Но главная фишка Трансформера заключается в его удобстве и гибкости: он состоит из простых модулей-блоков, которые очень легко масштабировать. Если старые, до-трансформерные языковые модели начинали кряхтеть и кашлять (требовать слишком много ресурсов), когда их пытались заставить «проглотить» быстро и много слов за раз, то нейросети-трансформеры справляются с этой задачей гораздо лучше.

Более ранним подходам приходилось обрабатывать входные данные по принципу «один за другим», то есть последовательно. Поэтому, когда модель работала с текстом длиной в одну страницу, то уже к середине третьего параграфа она забывала, что было в самом начале (прямо как люди с утра, до того как они «бахнув кофейку»). А вот могучие лапища Трансформера позволяют ему смотреть на ВСЁ одновременно – и это приводит к гораздо более впечатляющим результатам.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Внутрь T9 в вашем телефоне почти наверняка зашита модель попроще – так что попробуйте набрать эту строку там и сравнить результат (только уберите детей от экрана, на всякий случай)

Именно это позволило сделать прорыв в нейросетевой обработке текстов (в том числе их генерации). Теперь модель не забывает: она переиспользует то, что уже было написано ранее, лучше держит контекст, а самое главное – может строить связи типа «каждое слово с каждым» на весьма внушительных объемах данных.

Краткое резюме: GPT-1 появилась в 2018 году и доказала, что для генерации текстов нейросетью можно использовать архитектуру Трансформера, обладающую гораздо большей масштабируемостью и эффективностью. Это создало огромный задел на будущее по возможности наращивать объем и сложность языковых моделей.

2019: GPT-2, или как запихнуть в языковую модель семь тысяч Шекспиров

Если вы хотите научить нейросетку для распознавания изображений отличать маленьких милых чихуабелей от маффинов с черничкой, то вы не можете просто сказать ей «вот ссылка на гигантский архив со 100500 фотографий пёсов и хлебобулочных изделий – разбирайся!». Нет, чтобы обучить модель, вам нужно обязательно сначала разметить тренировочный набор данных – то есть, подписать под каждой фоткой, является ли она пушистой или сладкой.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Игра «чихуабель или булка», уровень сложности – «Бог»

А знаете, чем прекрасно обучение языковых моделей? Тем, что им можно «скармливать» совершенно любые текстовые данные, и эти самые данные заблаговременно никак не надо специальным образом размечать. Это как если бы в школьника можно было просто бросать чемодан с самыми разными книгами, без какой-либо инструкции, что там и в каком порядке ему нужно выучить – а он бы сам в процессе чтения кумекал для себя какие-то хитрые выводы!

Если подумать, то это логично: мы же хотим научить языковую модель предсказывать следующее слово на основе информации о словах, которые идут перед ним? Ну дак совершенно любой текст, написанный человеком когда-либо, – это и есть уже готовый кусочек тренировочных данных. Ведь он уже и так состоит из огромного количества последовательностей вида «куча каких-то слов и предложений => следующее за ними слово».

А теперь давайте еще вспомним, что обкатанная на GPT-1 технология Трансформеров оказалась на редкость удачной в плане масштабирования: она умеет работать с большими объемами данных и «массивными» моделями (состоящими из огромного числа параметров) гораздо эффективнее своих предшественников. Вы думаете о том же, о чем и я? Ну вот и ученые из OpenAI в 2019 году сделали такой же вывод: «Пришло время пилить здоровенные языковые модели!»

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

В общем, было решено радикально прокачать GPT-2 по двум ключевым направлениям: набор тренировочных данных (датасет) и размер модели (количество параметров).

На тот момент не было каких-то специальных, больших и качественных, публичных наборов текстовых данных для тренировки языковых моделей – так что каждой команде специалистов по ИИ приходилось извращаться согласно их собственной степени испорченности. Вот ребята из OpenAI и решили поступить остроумно: они пошли на самый популярный англоязычный онлайн-форум Reddit и тупо выкачали все гиперссылки из всех сообщений, имевших более трех лайков (я сейчас не шучу – научный подход, ну!). Всего таких ссылок вышло порядка 8 миллионов, а скачанные из них тексты весили в совокупности 40 гигабайт.

Много это или мало? Давайте прикинем: собрание сочинений Уильяма Шекспира (всех его пьес, сонетов и стихов) состоит из 850'000 слов. В среднем на одной странице книги помещается около 300 английских слов – так что 2800 страниц чудесного, временами устаревшего английского текста за авторством величайшего англоязычного писателя займет в памяти компьютера примерно 5,5 мегабайт. Так вот: это в 7300 раз меньше, чем объем тренировочной выборки GPT-2... С учетом того, что люди в среднем читают по странице в минуту, даже если вы будете поглощать текст 24 часа в сутки без перерыва на еду и сон – вам потребуется почти 40 лет, чтобы догнать GPT-2 по эрудиции!

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Весь Шекспир – 13 увесистых томов, которые занимают целую полку. Если вы прочитаете примерно вот столько книг семь тысяч раз подряд, то станете такими уже умными, как GPT-2 (но это не точно!)

Но одного объема тренировочных данных для получения крутой языковой модели недостаточно: ведь даже если посадить пятилетнего ребенка перечитывать всё собрание сочинений Шекспира вместе с лекциями по квантовой физике Фейнмана впридачу, то вряд ли он от этого станет сильно умнее. Так и тут: модель еще и сама по себе должна быть достаточно сложной и объемной, чтобы полноценно «проглотить» и «переварить» такой объем информации. А как измерить эту сложность модели, в чем она выражается?

Почему в мире языковых моделей больше ценятся именно модели «Plus Size»

Помните, мы чуть раньше говорили, что внутри языковых моделей (в супер-упрощенном приближении) живут уравнения вида Y = k*X + b, где искомый игрек – это следующее слово, вероятность которого мы пытаемся предсказать, а иксы – это слова на входе, на основе которых мы делаем это предсказание?

Так вот, как вы думаете: сколько было параметров в уравнении, описывающем самую большую модель GPT-2 в 2019 году? Может быть, сто тысяч, или пара миллионов? Ха, берите выше: таких параметров в формуле было аж полтора миллиарда (это вот столько: 1'500'000'000). Даже если просто записать такое количество чисел в файл и сохранить на компьютере, то он займет 6 гигабайт! С одной стороны, это сильно меньше, чем суммарный размер текстового массива данных, на котором мы тренировали модель (помните, который мы собирали по ссылкам с Reddit, на 40 Гб); с другой – модели ведь не нужно запоминать этот текст целиком, ей достаточно просто найти некие зависимости (паттерны, правила), которые можно вычленить из написанных людьми текстов.

Эти параметры (их еще называют «веса», или «коэффициенты») получаются во время тренировки модели, затем сохраняются, и больше не меняются. То есть, при использовании модели в это гигантское уравнение каждый раз подставляются разные иксы (слова в подаваемом на вход тексте), но сами параметры уравнения (числовые коэффициенты k при иксах) при этом остаются неизменны.

Эволюция нейросетей от Т9 до ChatGPT: объясняем на простом русском, как работают языковые модели Нейронные сети, ChatGPT, Искусственный интеллект, Машинное обучение, Большие данные, Будущее, Длиннопост

Думаю, если вам для каждого слова в разговоре пришлось бы решать по уравнению на полтора миллиарда параметров, то вы бы тоже стояли с примерно таким же лицом лица

Чем более сложное уравнение зашито внутрь модели (чем больше в нем параметров) – тем лучше модель предсказывает вероятности, и тем более правдоподобным будет генерируемый ей текст. И у этой самой большой на тот момент модели GPT-2 тексты внезапно стали получаться настолько хорошими, что исследователи из OpenAI даже побоялись публиковать модель в открытую из соображений безопасности. А ну как люди ринулись бы генерировать в промышленном масштабе реалистично выглядящие текстовые фейки, спам для соцсетей, и так далее?

Нет, серьезно – это был прямо существенный прорыв в качестве! Вы же помните: предыдущие модели T9/GPT-1 худо-бедно могли подсказать – собираетесь ли вы пойти в банк или в аптеку, а также угадать, что шоссейная Саша сосет сушки, а не что-то иное. А вот GPT-2 уже легко написала эссе от лица подростка с ответом на вопрос: «Какие фундаментальные экономические и политические изменения необходимы для эффективного реагирования на изменение климата?» (тут и иные взрослые прикурили бы от серьезности темы). Текст ответа был под псевдонимом направлен жюри соответствующего конкурса – и те не заметили никакого подвоха. Ну, окей, оценки этой работе поставили не сильно высокие и в финал она не прошла – но и «что за чушь вы нам отправили, постыдились бы!!» тоже никто не воскликнул.

«Эссе хорошо сформулировано и подкрепляет утверждения доказательствами, но идея не является оригинальной», – так один из кожаных мешков в жюри оценил работу нейросетки GPT-2.

Продолжение следует...

К сожалению, на Пикабу жесткое ограничение по объему длиннопостов – поэтому целиком наш материал сюда не влезает. За бортом остались неотвеченными куча важных вопросов: Каким образом в нейросетях количество переходит в качество, и они обучаются навыкам, на которые их никто не натаскивал? Как сделать так, чтобы модель не зиговала и не оскорбляла кожаных мешков? И, наконец, как так вышло, что дичайший хайп вокруг ChatGPT стал сюрпризом даже для самих создателей чат-бота?

Если эти темы кажутся вам интересными, то продолжение статьи можно прочитать вот здесь. Всем спасибо за внимание и с нетерпением ждем ваши вопросы в комментариях!

Показать полностью 12
Отличная работа, все прочитано!