По финансовой стороне ничего не скажу, ваш рассказ звучит правдоподобно, к тому же я в этом не разбираюсь.
Зато более-менее разбираюсь в алгоритмической стороне. Я тут не самый глубокий спец, занимаюсь БЯМами всего полгода. Но и не знаток типа "промпт-инженеров", а действительно по работе работаю с кодом, пытаюсь разбираться в математике, и мы БЯМы и тренируем (а также доучиваем, дистиллируем, сервируем).
Как же им это удалось? Они переосмыслили всё с нуля! Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. А DeepSeek такие: "А давайте использовать всего 8? Этого вполне достаточно!" Бум! На 75% меньше памяти! Умно, правда?
Чушь. С квантованием (почему-то последние годы это называют квантизацией, но традиционный термин ещё из XX века - квантование. Да, при машинной работе с числами этот подход применяется с тех пор, когда нейросети были двуслойными, а "традиционного машинного обучения" еще вовсе не придумали)... С квантованием в больших языковых моделях экспериментируют уже много лет. Чаще применяют уже для инференса (вплоть до 1-битных моделей), но и тренировать так пытаются.
Бум! На 75% меньше памяти! Умно, правда?
И скорость каждого прохода выше. Но при одинаковом количестве проходов заметно хуже качество.
Кстати, FP32 - это не 32 знака после запятой, а около 6. В десятичной системе. В двоичной побольше, 23 (не 32).
4. Дальше их система "мульти-токенов". Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". А DeepSeek читает целыми фразами сразу! В два раза быстрее и с точностью 90%. Когда у тебя миллиарды слов — это как найти иголку в стоге сена!
Опять ахинея. Во-первых, чаще всего БЯМы, в том числе и GPT, в качество токенов берут не слова. Используется так называемый подход BPE, и типичный токен - несколько букв. А GPT использует byte-level BPE, что, с учетом символов за границами ASCII, означает, что токен может быть даже частью одной буквы, или полутора символами, например.
Во-вторых, DeepSeek использует ровно тот же подход. Конкретный алгоритм токенизации, использующийся и в моделях DeepSeek'а, и в моделях OpenAI, опубликован еще в 1999 году, его авторы - японцы.
Откуда же ваша ахинея про "мультитокены" и "целые фразы сразу"? Возможно, вы неправильно поняли выражение multi-token prediction. Речь о подходе speculative decoding. Вроде бы восходит он к работе 2018 года (совместная работа "Гугла" и Беркли), но особенно активная работа пошла с публикациями начала 2023 года. Эти работы всем специалистам хорошо известны, в том числе применяли его для ускорения и ламы, и мистраля, и других известных моделей. Американцам он тоже известен: среди авторов тех работ двухлетней давности был, например, Вей из "Микрософта".
Возможно также, что вы неправильно поняли термин Multi-head Latent Attention (MLA). Действительно, этот новаторский подход позволяет в некотором смысле смотреть на всю фразу в целом. Но новаторский он отнюдь не в этом отношении: предыдущие подходы (GQA, MQA и MHA) точно так же смотрели на всю фразу. MHA (multi-head attention) вообще появился в той самой ключевой работе 2017 года, с которой и началось победоносное шествие разных GPT.
А в плане чтения токен за токеном DeepSeek точно так же двигается по одному токену. Правда, умеет предсказывать ещё один, что позволяет несколько (менее чем в два раза) ускорять инференс.
5. Но самое интересное — это их "экспертная система". Вместо того чтобы иметь одного огромного ИИ, который пытается знать всё (как если бы один человек был одновременно врачом, юристом и инженером), у них есть специализированные эксперты, которые активируются только тогда, когда это действительно нужно.
"Смесь экспертов" - MoE - придумали тоже не в DeepSeek. Например, французский "Микстраль" опубликован более года назад.
Китайцы совершили прорыв, придумав свои новшества и удачно применив те подходы, что были известны ранее. Но ни одно из ваших объяснений их успеха не имеет ничего общего с действительностью.