12

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

Вангую : Скайнет будет на китайском языке 😆

Буквально вчера они(в телеге) писали про модель Qwen2.5-1M от Alibaba, а теперь они выпустили Qwen2.5-Max, которая обогнала по мощности DeepSeek и GPT-4o.

Qwen2.5-Max предобучен на более чем 20 триллионах токенов и использует передовые методы пост-обучения. Архитектура позволяет эффективно масштабировать модель.

Главный акцент сделан на мышлении и логике.

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!» Искусственный интеллект, Nvidia, Наука, Технологический прорыв, Нейронные сети, Текст, DeepSeek, Длиннопост, Видео, Короткие видео, Ответ на пост, Telegram (ссылка), Волна постов
Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!» Искусственный интеллект, Nvidia, Наука, Технологический прорыв, Нейронные сети, Текст, DeepSeek, Длиннопост, Видео, Короткие видео, Ответ на пост, Telegram (ссылка), Волна постов

Модель отвечает на вопросы уровня университетских экзаменов, умеет качественно кодить, создавать игры и искать актуальную информацию. Также может анализировать видео и изображения. И это лишь малая часть её способностей.

При этом доступна бесплатно и без VPN.

Опробовать можно здесь (выберите в списке Qwen2.5-Max).

DeepSeek похоронил OpenAI, а Alibaba похоронил DeepSeek. Великая битва.

з.ы.

Во время китайского «Голубого огонька» в честь местного Нового года на сцене появились роботы и исполнили танец.

Показать полностью 2 1
81

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

😱 Китайский DeepSeek навёл шума в мире ИИ и обвалил бигтех США на почти полтора триллиона долларов.

1649

Ответ на пост «Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!»

По финансовой стороне ничего не скажу, ваш рассказ звучит правдоподобно, к тому же я в этом не разбираюсь.

Зато более-менее разбираюсь в алгоритмической стороне. Я тут не самый глубокий спец, занимаюсь БЯМами всего полгода. Но и не знаток типа "промпт-инженеров", а действительно по работе работаю с кодом, пытаюсь разбираться в математике, и мы БЯМы и тренируем (а также доучиваем, дистиллируем, сервируем).

Так вот.

Как же им это удалось? Они переосмыслили всё с нуля! Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. А DeepSeek такие: "А давайте использовать всего 8? Этого вполне достаточно!" Бум! На 75% меньше памяти! Умно, правда?

Чушь. С квантованием (почему-то последние годы это называют квантизацией, но традиционный термин ещё из XX века - квантование. Да, при машинной работе с числами этот подход применяется с тех пор, когда нейросети были двуслойными, а "традиционного машинного обучения" еще вовсе не придумали)... С квантованием в больших языковых моделях экспериментируют уже много лет. Чаще применяют уже для инференса (вплоть до 1-битных моделей), но и тренировать так пытаются.

Бум! На 75% меньше памяти! Умно, правда?

И скорость каждого прохода выше. Но при одинаковом количестве проходов заметно хуже качество.

Кстати, FP32 - это не 32 знака после запятой, а около 6. В десятичной системе. В двоичной побольше, 23 (не 32).

4. Дальше их система "мульти-токенов". Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". А DeepSeek читает целыми фразами сразу! В два раза быстрее и с точностью 90%. Когда у тебя миллиарды слов — это как найти иголку в стоге сена!

Опять ахинея. Во-первых, чаще всего БЯМы, в том числе и GPT, в качество токенов берут не слова. Используется так называемый подход BPE, и типичный токен - несколько букв. А GPT использует byte-level BPE, что, с учетом символов за границами ASCII, означает, что токен может быть даже частью одной буквы, или полутора символами, например.

Во-вторых, DeepSeek использует ровно тот же подход. Конкретный алгоритм токенизации, использующийся и в моделях DeepSeek'а, и в моделях OpenAI, опубликован еще в 1999 году, его авторы - японцы.

Откуда же ваша ахинея про "мультитокены" и "целые фразы сразу"? Возможно, вы неправильно поняли выражение multi-token prediction. Речь о подходе speculative decoding. Вроде бы восходит он к работе 2018 года (совместная работа "Гугла" и Беркли), но особенно активная работа пошла с публикациями начала 2023 года. Эти работы всем специалистам хорошо известны, в том числе применяли его для ускорения и ламы, и мистраля, и других известных моделей. Американцам он тоже известен: среди авторов тех работ двухлетней давности был, например, Вей из "Микрософта".

Возможно также, что вы неправильно поняли термин Multi-head Latent Attention (MLA). Действительно, этот новаторский подход позволяет в некотором смысле смотреть на всю фразу в целом. Но новаторский он отнюдь не в этом отношении: предыдущие подходы (GQA, MQA и MHA) точно так же смотрели на всю фразу. MHA (multi-head attention) вообще появился в той самой ключевой работе 2017 года, с которой и началось победоносное шествие разных GPT.

А в плане чтения токен за токеном DeepSeek точно так же двигается по одному токену. Правда, умеет предсказывать ещё один, что позволяет несколько (менее чем в два раза) ускорять инференс.

5. Но самое интересное — это их "экспертная система". Вместо того чтобы иметь одного огромного ИИ, который пытается знать всё (как если бы один человек был одновременно врачом, юристом и инженером), у них есть специализированные эксперты, которые активируются только тогда, когда это действительно нужно.

"Смесь экспертов" - MoE - придумали тоже не в DeepSeek. Например, французский "Микстраль" опубликован более года назад.

Китайцы совершили прорыв, придумав свои новшества и удачно применив те подходы, что были известны ранее. Но ни одно из ваших объяснений их успеха не имеет ничего общего с действительностью.

Показать полностью
1962

Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки!

Как DeepSeek Разрушает Империю Nvidia: ИИ Будущего за Копейки! Искусственный интеллект, Nvidia, Наука, Технологический прорыв, Нейронные сети, Текст, DeepSeek, Длиннопост, Волна постов

Что за чудо-юдо такое DeepSeek, и почему Nvidia вдруг схватилась за сердце?

Давайте я вам расскажу одну занимательную историю от нашего доброго друга Моргана Брауна — вице-президента по развитию продуктов в Instagram, Dropbox и Shopify. Этот парень точно знает, о чем говорит!

Так вот, инновации DeepSeek в мире искусственного интеллекта просто сносят крышу! А для Nvidia, у которой капитализация в $2 триллиона, это как гром среди ясного неба.

1. Сначала немного предыстории: обучение топовых моделей ИИ сейчас стоит целое состояние! OpenAI и Anthropic тратят по $100 миллионов только на вычислительные ресурсы. Это вам не шутки — представьте себе завод, которому нужна целая электростанция для работы!

2. И тут появляются DeepSeek и говорят: "А что если мы сделаем это за $5 миллионов?" И не просто говорят — делают! Их модели уже соперничают с GPT-4 и Claude по многим задачам. Мир ИИ плачет от счастья в тирамису!

3. Как же им это удалось? Они переосмыслили всё с нуля! Традиционный ИИ — это как писать каждое число с 32 знаками после запятой. А DeepSeek такие: "А давайте использовать всего 8? Этого вполне достаточно!" Бум! На 75% меньше памяти! Умно, правда?

4. Дальше их система "мульти-токенов". Обычный ИИ читает как первоклассник: "Кошка... сидит... на...". А DeepSeek читает целыми фразами сразу! В два раза быстрее и с точностью 90%. Когда у тебя миллиарды слов — это как найти иголку в стоге сена!

5. Но самое интересное — это их "экспертная система". Вместо того чтобы иметь одного огромного ИИ, который пытается знать всё (как если бы один человек был одновременно врачом, юристом и инженером), у них есть специализированные эксперты, которые активируются только тогда, когда это действительно нужно.

6. Традиционные модели? Все 1,8 триллиона параметров работают всегда. А у DeepSeek всего 671 миллиард параметров, но активны только 37 миллиардов одновременно. Это как иметь большую команду, но вызывать только тех специалистов, кто нужен для конкретной задачи.

7. Результаты впечатляют:
- Стоимость обучения: $100 миллионов → $5 миллионов
- Необходимые GPU: 100 000 → 2 000
- Стоимость API: на 95% дешевле
- Может работать на игровых GPU вместо дорогущего серверного оборудования

8. "Но подождите," — скажете вы, — "должен быть подвох!" Вот что интересно — всё это открытый исходный код! Любой может проверить их работу. Код публичный, технические документы объясняют всё. Это не магия, а просто невероятно умная инженерия!

9. Почему это важно? Потому что теперь не только крупные компании могут играть в ИИ! Вам больше не нужен дата-центр за миллиард долларов. Пара хороших GPU могут сделать своё дело!

10. Для Nvidia это настоящий кошмар! Их бизнес-модель построена на продаже супердорогих GPU с маржой в 90%. Если вдруг все смогут делать ИИ на обычных игровых GPU...

11. DeepSeek сделали всё это с командой менее 200 человек! В то время как в Meta есть команды, где одни только зарплаты сотрудников превышают весь бюджет обучения DeepSeek... и их модели не так уж хороши.

12. Это классическая история прорыва: лидеры рынка оптимизируют существующие процессы, а новаторы переосмысляют сам подход. DeepSeek задали вопрос: "А что если мы просто сделаем это умнее?"

13. Последствия:
- Разработка ИИ становится доступнее
- Конкуренция резко возрастает
- Железо крупных компаний кажется ненужным
- Требования к оборудованию (и затраты) стремительно снижаются

14. Конечно, такие гиганты как OpenAI и Anthropic не будут сидеть сложа руки. Они уже внедряют эти инновации! Но джинн выпущен из бутылки — возврата к старым методам уже не будет.

15. Это момент исторического значения — как когда ПК сделали мейнфреймы менее актуальными или когда облачные вычисления перевернули мир с ног на голову.

ИИ скоро станет доступнее и дешевле! Вопрос лишь в том, насколько быстро произойдут эти изменения для текущих игроков на рынке!

Показать полностью 1
Отличная работа, все прочитано!