Ответ на пост «Мои коллеги из...»
"У США есть ChatGPT, у Китая DeepSeek", а у нас как будто ничего. Это конечно же не так. Все вы знаете про Алису, Марусю и GigaChat. И пусть они сегодня отстают от ChatGPT и DeepSeek, эти модели могут неожиданно и очень быстро развиться, если на то будет воля их владельцев.
Конкурирующую модель удалось обучить очень быстро и дешево - всегда за 5 млн. долларов. Кто угодно может повторить те же шаги, если это правда, и буквально за считанные месяцы. И тут мы подходим к пункту номер два. А что будет в качестве результата?
Чушь. Во-первых, есть большие сомнения в том, что китайцы рассказали правду про затраты. 6 (а не 5) млн они потратили только на тренировку конкретной модели, а не на разработку в целом, и это по их собственным словами. Также, по их собственным словам, они тренировали на 2048 картах H800 и пользовались еще 10000 A100. Озвучивались подозрения, в том числе якобы на основе инсайдерской информации, что на самом деле карты были H100 (они быстрее) и их было около 50000.
Но пусть даже 2048. В каких это компаниях в России есть 2048 карт H800 и 10 тысяч A100? Их в общей сложности в российских компаниях не факт что столько наберется. Это закрытая информация, но чтобы было понятно, самый мощный на конец 2021 года суперкомпьютер России - Christofari Neo (Сбербанк) - имел лишь 700 карт A100. Да, это было почти четыре года назад, только три года назад ввели эмбарго против России, так что сравнимые количества более современных карт в Россию вряд ли ввозились.