Шпаргалка для ChatGPT #4
Советы для эффективного использования нейросети, которые помогут получать лучшие ответы.
Источник телеграм-канал: NEUROHUB🔥 👈
Советы для эффективного использования нейросети, которые помогут получать лучшие ответы.
Источник телеграм-канал: NEUROHUB🔥 👈
Ну, что тут можно сказать... Скоро библиотеки всего мира будут полностью доступны для нормального чтения. Не только английские и не только в текстовом виде (если кто-то не понял). Причем у вас сразу будет и поисковая система, которая поможет отыскать нужные материалы.
Использовать Chat GPT-4 в РФ можно через telegram бота. Доступ через api и дешевле, чем оф версия с сайта.
В течении последнего месяца в сфере текстовых нейронок всё кипит - после слитой в сеть модели Llama, aka "ChatGPT у себя на пекарне" люди ощутили, что никакой зацензуренный OpenAI по сути им и не нужен, а хорошие по мощности нейронки можно запускать локально, имея минимум 16ГБ обычной ОЗУ и хороший процессор.
Пока технические паблики только начинают отдуплять что происходит, и выкладывают какие-то протухшие гайды месячной давности, я вам закину пару вещей прямо с фронта.
Я бы мог вставить сюда ссылку на репозиторий llama.cpp, который запускали чуть ли не на кофеварке, и сказать - пользуйтесь!
Но как бы там ни было, это - для гиков. А у нас всё в пару кликов и без командной строки.
И работать должно нормально, а не «на 4ГБ».
Поэтому, вот обещанная возможность запустить хорошую модель (13B параметров) на 16ГБ обычной ОЗУ без лишних мозгоделок - koboldcpp.
koboldcpp - это форк репозитория llama.cpp, с несколькими дополнениями, и в частности интегрированным интерфейсом Kobold AI Lite, позволяющим "общаться" с нейросетью в нескольких режимах, создавать персонажей, сценарии, сохранять чаты и многое другое.
Скачиваем любую стабильную версию скомпилированного exe, запускаем, выбираем модель (где их взять ниже), переходим в браузер и пользуемся. Всё!
Если у вас 32ГБ ОЗУ, то можно запустить и 30B модель - качество будет сильно лучше, но скорость ниже.
Данный способ принимает модели в формате ggml, и не требует видеокарты
P.S. Если у кого-то есть сомнения о запуске exe, то вы всегда можете проверить исходники и собрать всё самостоятельно - программа открыта.
Kobold AI Lite, Alpaca 13B. Ни одна собака не пострадала.
Теперь koboldcpp поддерживает также и разделение моделей на GPU/CPU по слоям, что означает, что вы можете перебросить некоторое количество слоёв модели на GPU, тем самым ускорив работу модели, и освободив немного ОЗУ.
Так что, если у вас есть видеокарта от Nvidia, можете смело перераспределять часть нагрузки на GPU. Как это сделать: Выберите пресет CuBLAS в лаунчере, и установить кол-во слоёв, которые вы хотите выделить на видеокарту.
Чем больше VRAM = тем больше слоёв можно выделить = тем быстрее работа нейросети
Также, у кобольда появился небольшой лаунчер, скриншот которого выше. При запуске советую выставить Threads равным кол-во ядер вашего процессора, включить High Priority и Unban Tokens.
Также, если вы используете модели с большим контекстом, не забудьте увеличить Context Size.
Требует много VRAM, но скорость генерации выше. Запуск чуть сложнее, но также без выноса мозгов.
Скачиваем вот этот репозиторий oobabooga/one-click-installers и читаем приложенные инструкции - нужно будет запустить несколько батников.
К вам в ту же папку загрузится репозиторий oobabooga/text-generation-webui, и подтянет за собой все необходимые зависимости. Установка проходит чисто, используется виртуальная среда.
К сожалению, в повсеместные 8ГБ VRAM поместится только 7B модель в 4bit режиме, что по факту будет хуже модели 13B из первого способа. 13B влезет только в 16GB VRAM видеокарту.
А если у вас есть 24ГБ VRAM (RTX 4090, ага), то к вам влезет даже 30B модель! Но это, конечно, меньшая часть людей.
Интерфейс чуть менее удобен, чем в первом способе. Чуток тормозной. Единственный плюс - есть extensions, такие как встроенный Google Translate, который позволит общаться с моделью на русском языке.
oobabooga - cкриншот со страницы проекта на github
Теперь лаунчер стал чуть проще, и никакие параметры заранее выставлять не нужно. Просто запускаете то, что установилось, и в настройках выбираете движок, на котором будет работать модель.Движков кстати добавили много, и в том числе добавили llama.cpp в этот интерфейс (Однако напомню, что весит он > 15ГБ, и если вам нужно запускать llama.cpp - лучше это делать с кобольдом).
llama.cpp - если хотите запускать ggml модели на этом интерфейсе.
exllama - ОЧЕНЬ быстрый движок, который позволяет запускать модели на нескольких видеокартах одновременно. Однако, на данный момент не позволяет выгружать слои моделей на CPU. Использовать только если у вас много VRAM. gptq формат.
GPTQ-for-LLaMa - стандартный движок, который и был до этого. Поддерживает разделение на GPU/CPU, но медленнее чем llamacpp, если у вас мало VRAM. gptq формат.
Все движки и их настройки теперь доступны через интерфейс.
Выбор движка GPTQ-for-LLaMa, и внизу мы можем выделить кол-во слоёв для разделения на CPU/GPU
Из двух способов я советую использовать первый, т.к. он банально стабильнее, менее заморочен, и точно сможет запуститься у 80% пользователей.
Если у вас есть крутая видюха с хотя бы 16ГБ VRAM - пробуйте запускать на втором.
Сейчас есть 3 качественных модели, которые действительно имеет смысл попробовать - LLama, Alpaca и Vicuna.
Llama - оригинал слитой в первые дни модели. По заявлениям синей компании, запрещённой в РФ, 13B версия в тестах равносильна ChatGPT (135B).
По моим ощущениям - на 80% это может быть и правда, но и не с нашей 4bit моделью.
Alpaca - дотренировка Llama на данных с инструкциями. Сделай мне то, расскажи мне это и т.д.
Эта модель лучше чем LLama в чат режиме.
Vicuna - дотренировка LLama прямо на диалогах с ChatGPT. Максимально похожа на ChatGPT. Есть только 13b версия, на данный момент.
Подчеркну - МАКСИМАЛЬНО похожа. А значит - также как и ChatGPT процензурена.
Скачать каждую из них можно вот здесь - https://huggingface.co/TheBloke (Профиль huggingface пользователя, который делает качественные кванты моделей в любом формате. Можно найти почти всё.)
Обратите внимание на формат перед скачиванием - ggml или gptq.
Предыдущие модели хоть и по-прежнему рабочие, но немного устарели. Появилось много новых вариантов, которые можно найти по ссылке https://huggingface.co/TheBlokeВот модели, которые, по моему мнению, лучше всего показали себя с момента публикации:
Llama2 - новая, официальная, стандартная версия ллам. Умнее чем первая версия, но ещё больше цензуры. (GPTQ | GGML)
Wizard-Vicuna-13B-Uncensored - Универсально-хорошая модель, которая умнее и стандартной llama, и vicuna. Расцензурена. (GPTQ | GGML)
WizardLM's WizardCoder 15B - хорошая модель для написания кода (GPTQ | GGML)
Llama2 13B Orca v2 8K - хорошая roleplay модель с расширенным контекстом (модель помнит/воспринимает больше текста при общении) (GPTQ | GGML)
Чтобы скачать - переходим по ссылке, потом на Files and versions.
Для GGML формата просто качаем файл с припиской q5_K_M. Если таких их нет - q4_1. Это форматы квантования.В GPTQ просто так качать сложно, поэтому качаем через oobabooga -> Model -> Download custom model or LoRA -> вставляем ссылку и нажимаем Download.
Оба интерфейса позовляют создавать персонажа, в роли которого будет работать AI.
Поэтому, вариантов использования может быть довольно много.
Пропишите персонажу, что он - AI-ассистент программист, и он будет помогать с кодом.
Скажите, что он повар - и он поможет с рецептами.
Скажите, что он милая девушка - и придумайте сами там что-нибудь…
В общем, тут всё как с ChatGPT - взаимодействие в чате мало чем отличается.
Также, в первом интерфейсе есть режимы Adventure и Story - позволяющие играть с нейросетью, или писать истории.
Продвинутые же пользователи могут подключиться к API запущенных моделей, и использовать их в своих проектах. Оба интерфейса позволяют подключиться по API.
Также, для roleplay штук, советую запустить другой интерфейс - SillyTavern. Почему не писал о нём ранее - потому что это действительно только интерфейс, в котором нет движка. Для его работы нужно запускать либо koboldcpp, либо oobabooga с флагом --api.
Почему он лучше для roleplay - широкая поддержка различных персонажей, в том числе от сообщества, Author's note, World Info, ПЕРЕВОД ЧАТА НА РУССКИЙ ЯЗЫК, Text-to-Speech и многое другое.
Идеальная связка, по моему мнению, koboldcpp + SillyTavern.
Если вам хочется попробовать оригинальный Chat GPT-4, то велком в моего телеграм-бота. Безлимитные запросы и стоит дешевле в 2 раза, чем на официальном сайте. Потому, что работает через api Open AI/
А вы знаете, сколько стоит один запрос API Chat GPT? Что скрывается за этим непонятным словом Tokens (токены)? И как сделать запрос дешевле?
Сегодня мы разберём тему формирования цены на запросы API Chat GPT, а так же узнаем, как посчитать стоимость вашего запроса.
Все актуальные цены мы можем узнать на официальном сайте OpenAI (у меня без VPN не открывается).
Давайте разберём на примере мой любимый GPT-3.5 Turbo.
Вот его цена:
4K context
$0.0015 / 1K tokens
$0.002 / 1K tokens
16K context
$0.003 / 1K tokens
$0.004 / 1K tokens
А теперь по порядку.
Что за разные Модели (Model)?
Названия «4K context» и «16K context» обозначают, сколько символов может обработать на входе нейросеть.
«4K context» - может обработать 4 тысячи токенов
«16K context» - может обработать 16 тысяч токенов
* что такое токены я расскажу ниже
4 тысяч или 16 тысяч это довольно большая разница!
А цена увеличивается всего в 2 раза.
Input - цена за входящий запрос
Output - цена за исходящий ответ
Что они обозначают, мы поймём позже
И вот они, цены:
«$0.003 / 1K tokens»
Что такое $0.003 мы понимаем, но что такое 1K tokens, может быть совсем непонятным!
Я изначально думал, что один Токен, это один запрос. (Как же я был наивен!)
Что такое токены?
Яндексим (ищем в интернете)
Токен — это цифровой актив (сертификат), который представляет определенную стоимость, функционирует на основе блокчейна или другой децентрализованной сети и гарантирует обязательства компании перед его владельцем.
Сложно и непонятно.
Спрашиваем Chat GPT
В контексте нейросетей, термин "tokens" (токены) обычно относится к минимальным единицам, на которые разбивается входной текст или последовательность символов перед подачей на обработку модели. Токеном может быть одна буква, одно слово или даже целая фраза, в зависимости от типа и задачи модели.
В итоге мы понимаем, что Токен, это какая-то плавающая единица измерения для нейросети.
Но как так, я ведь плачу за каждую эту единицу свои деньги! Почему я не могу быть точно уверенным в объёме.
OpenAI продумали этот момент и предоставили нам инструмент для вычисления количества токенов в нашем запросе. (тоже открывается только с VPN)
скриншот с сайта https://platform.openai.com/tokenizer
Сюда мы можем вставить наш текст, который мы хотим отправлять в запрос нейросети и получить число затрачиваемых токенов на наш запрос.
🛑 Заметил, что число токенов на русском языке не соответствует реальному запросу. На английском языке расчёт точный.
Но мы же не будем каждый раз переходить на сайт, вставлять наш запрос и подсчитывать, сколько же он стоит!
И не надо!)
Точный расчёт затраченных токенов нам придёт в ответе от Chat GPT.
🛑 Сейчас будет много непонятного для обычного пользователя, и чтобы не нагружать вас терминами, я скрою блоки с кодом, формулами и вычислениями.
Я подробно описал, как рассчитать стоимость одного запроса API Chat GPT в скрытом блоке РАССЧИТАЕМ СТОИМОСТЬ ЗАПРОСА.
🛑 Все суммы ниже относятся к gpt-3.5-turbo-16k, если вы хотите использовать gpt-3.5-turbo, то делите все итоговые суммы на 2.
Если обобщить весь блок и сказать очень примерную цифру.
То за 3000 русских символов в запросе мы заплатим 81 копейку с курсом в 91 рубль за доллар.
И очень грубо говоря: 3000 / 81 = 0,027 копеек за одни символ.
Для точных расчётов ознакомьтесь с блоком расчёта цены!
А за один хороший запрос, примерно в 5000 символов, стоимость будет в районе
1 рубля.
Поэтому, любой сервис написанный на Chat GPT, будет стоить около 1 - 2 рублей за запрос.
По итогу, стоимость Chat GPT не такая уж и маленькая, особенно, когда мы хотим добиться от неё вразумительных для нас результатов.
Большая это цена или маленькая, решать вам.
Для какого-то бизнеса подобные затраты будут копейками, а в каких-то проектах, это поставит крест на идее внедрить себе Chat GPT.
Если вам было интересно, буду рад вашему отклику и фидбеку👋
Я и дальше продолжу изучать этот сложный мир нейросетей и делиться с вами своими открытиями!
Использовать Chat GPT-4 в РФ можно через telegram бота. Доступ через api и дешевле, чем оф версия с сайта.
И он сделал это за 1 секунду.
В игру можно играть прямо в самом чате.
Chat GPT-4 в telegram. Дешевле, чем на оф сайте!)
Кому-то удавалось оплатить подписку к poe.com из РФ?
Думаю, многие из тех, кто пользуется нейронками, слышал и пользуется этим сервисом , т.к. это единая точка входа для кучи моделей, в том числе ChatGPT и Claude 2, которая очень неплохо себя показала.
Недавно количество сообщений в сутки для Claude 2 порезали с приемлемых 30 аж до 5, что совсем неудобно.
Я пытаюсь найти способ оплатить сервис (хотя бы на месяц), но карты РФ, естественно, не принимаются к оплате. Пробовал виртуальную карту Киви - тоже не работает. Очевидный вопрос - есть те, кому удавалось оплатить сервис из РФ?
P.S. Забыл добавить - доступ к Claude 2 непосредственно на сайте создателей модели у меня есть, но интересует доступ именно к версии с сайта пое
Китайская технологическая компания Baidu представила чат-бота Ernie Bot, который может понимать и отвечать на сложные вопросы. Бот основан на языковой модели Ernie, которая была обучена на огромном наборе данных текста и кода.
Ernie Bot может отвечать на вопросы по широкому кругу тем, включая науку, технологии, историю и культуру. Он также может выполнять математические расчеты, переводить языки и создавать различные творческие форматы текста, такие как стихи, код, сценарии, музыкальные произведения, письма и т. д.
Baidu утверждает, что Ernie Bot превосходит своего главного конкурента, ChatGPT от OpenAI, в нескольких важных тестах. В частности, Ernie Bot лучше понимает контекст сложных вопросов и может давать более информативные ответы.
Baidu планирует использовать Ernie Bot для различных целей, включая улучшение своей поисковой системы, развитие облачных вычислений и создание новых продуктов и услуг.
Пекин рассматривает искусственный интеллект как ключевую отрасль, способную конкурировать с Соединенными Штатами, и стремится стать мировым лидером к 2030 году.
Chat GPT-4 пока что самая популярная ИИ. Из РФ пользоваться можно тут.