Серия «Итоги недели в мире ИИ и обзоры новых сервисов»

1 год назад

Серия Итоги недели в мире ИИ и обзоры новых сервисов

Итоги недели в мире ИИ и обзоры новых сервисов: OpenAI близка к созданию супер-ИИ⁠⁠

📰 Новости

Anthropic открыла бесплатным пользователям Claude доступ к Artifacts – интерактивной фиче, особенно полезной для генерации и тестирования кода, – и поделилась своими системными промптами.

Исследователи Google представили модель GameNGen, способную симулировать прохождение DOOM в реальном времени.

Испанские исследователи создали модель AINU, способную определять онкологические и вирусные заболевания на самых ранних стадиях, до появления каких-либо видимых или ощущаемых симптомов. Этот ИИ замечает клеточные поражения на наноуровне, даже если их размер не превышает всего 20 нм (что в 5 000 раз меньше диаметра человеческого волоса).

Plaud представила новый носимый ИИ-гаджет, NotePin, стоимостью $169. Он предназначен для создания заметок и суммаризации всего, что происходит в жизни владельца.

В Gemini появились Gems – аналог кастомных GPT и Copilot Studio. Можно воспользоваться одним из преднастроенных Gem (среди них есть ассистент по программированию, редактор текста, карьерный консультант и т. п.) или создать нужного помощника с нуля.

Илон Маск недавно объявил, что Tesla теперь – в первую очередь компания по производству роботов, и электромобили она будет собирать только ради финансирования этой великой цели. Однако свежая модель Optimus совсем не впечатлила посетителей конференции в Пекине: роботы китайских производителей, например Unitree, выглядят очень продвинуто на фоне Tesla-бота.

🤖🎨 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion»

Бывший исследователь OpenAI сообщил, что компания близка к созданию супер-ИИ, но его безопасностью буквально некому заниматься: за 2024 год из 30 специалистов по безопасности ИИ осталось всего 16.

Грядущий GPU от NVIDIA, Blackwell, демонстрирует 4-кратное увеличение скорости работы по сравнению со своим популярным предшественником, H100. Эта разработка подтверждает лидирующую позицию компании в нише, но потенциальные конкуренты тоже готовы сделать весомый вклад в развитие AI-инфраструктуры: стартапы Tenstorrent, Cerebras Systems, D-Matrix, Groq и SiMa.ai недавно представили чипы, которые во многом превосходят возможности существующих GPU от NVIDIA.

Wormhole (Tenstorrent) и WSE-3 (Cerebras Systems) – самый большой ИИ-чип в мире

Привет!

Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI-энтузиастов.

📧 Подпишись, чтобы быть в числе первых, кто получит дайджест

🛠️ Инструменты

GPT Engineer – разрабатывает веб-приложения любой сложности.

Photoroom – продвинутый ИИ-редактор со множеством функций для модификации и улучшения качества изображений.

Documind – чат с PDF-документами.

Viggle – оживляет изображения, воспроизводя нужные движения из видеореференса.

Reddit Scout – ищет нужные обсуждения на Reddit и делает суммаризацию.

JobTailor – поможет найти работу вашей мечты.

MakeMyAnime – генерирует анимешные видео в любом стиле.

AI Ease – бесплатно создает профессиональные фотопортреты по селфи.

AI Ease генерирует фото для профайлов и резюме

🤖✍️ Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейротекста | ChatGPT, Gemini, Bing»

VoiceGen – гиперреалистичная озвучка и клонирование голоса.

Magicam – заменяет лицо на видео в реальном времени.

PackPack – браузерное расширение для сохранения, организации и суммаризации любого контента.

🤖 История случайного создания генеративного ИИ

Большинство ИИ-энтузиастов знает, что архитектура трансформера, которая стала основой нынешней технологии генеративных ИИ-моделей, была впервые представлена исследователями Google в 2017 году в публикации «Внимание – это все, что вам нужно». Однако мало кто знает, что генеративные способности трансформера возникли буквально сами собой. Это стало полной неожиданностью для разработчиков модели – изначально они ее создавали для продвинутого машинного перевода, а не для генерации текста.

«Я был шокирован, ошеломлен. Я думал, что мы придем к чему-то подобному через двадцать, двадцать пять лет, а оно просто появилось», – сказал Эйдан Гомес, один из разработчиков первого GPT, о своем революционном детище. Даже сейчас, спустя годы после создания, исследователи команды признают, что многие аспекты работы трансформеров остаются непонятными для них. Как именно было совершено одно из самых важных технологических открытий XXI века, разработчики рассказали журналисту The New Yorker.

Команда из восьми человек работала без устали в течение 12 недель, иногда даже ночуя в офисе. Их задачей было разработать более эффективную систему перевода, способную обрабатывать язык без строгой последовательности, которая замедляла все существующие системы.

Ключевой инновацией стало использование механизма самовнимания в качестве основного компонента модели. Этот подход позволял системе оценивать все слова в тексте одновременно, определяя их взаимосвязи и важность. Самовнимание было известно давно, но до тех пор исследователи всегда использовали его совместно с другими компонентами. Кроме того, самовнимание реализуется с помощью матричного умножения, и на современных GPU эту операцию можно выполнять очень эффектно.

🤖🦾 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей»

Прорыв произошел, когда они обнаружили, что их модель достигла впечатляющего показателя по BLEU (метрика оценки качества машинного перевода) – более 26 баллов для перевода с английского на немецкий, превзойдя предыдущие системы за считанные часы обучения вместо дней.

Однако настоящий сюрприз ждал их впереди – оказалось, что трансформер способен не только переводить, но и генерировать текст. Исследователи обучили модель на статьях из Википедии (это заняло два дня, в течение которых было обработано чуть менее половины контента энциклопедии) и дали ей задание – написать несколько статей о несуществующем объекте под названием The Transformer. К их изумлению, система сгенерировала пять совершенно правдоподобных статей о вымышленных объектах, включая детальные описания несуществующей японской панк-группы и австралийского ситкома.

Эта неожиданная способность к генерации текста поразила создателей трансформера. Полного понимания того, как это стало возможным, у них нет и сейчас, хотя принцип работы модели в общих чертах стал очевиден сразу же:

Механизм самовнимания позволяет системе находить релевантные связи между словами в большом объеме текста.
Система учится на основе паттернов в данных, не ограничиваясь предписанными правилами грамматики или синтаксиса.
Трансформер обучается продолжать текст, устанавливая отношения между токенами (группами букв, знаков препинания и пробелов).
Увеличение размера модели и объема данных для обучения приводит к значительному улучшению производительности.

🎥 Лучшие AI-инструменты для редактирования видео

Adobe Premiere Pro, известный видеоредактор, теперь предлагает множество инструментов на основе искусственного интеллекта. Некоторые из самых интересных функций включают:

Редактирование клипов с помощью текстовых промптов.
Автоматическую категоризацию аудио – распознает тип звука (музыка, звуковые эффекты, диалоги и т. д.) и предлагает соответствующие инструменты.
Преобразование речи в текст – автоматически создает транскрипты и субтитры на 18 языках.

Подходит для: проектов и специалистов среднего/профессионального уровня.

DaVinci Resolve также предлагает множество инструментов на основе ИИ. Одна из самых интересных функций – распознавание лиц. Она позволяет автоматически группировать клипы по лицам. Это особенно полезно при работе с видеозаписями мероприятий с большим количеством людей.

Подходит для: пользователей и проектов любого уровня.

CapCut – популярное приложение для редактирования видео, известное простотой в использовании. Оно предлагает множество инструментов на основе ИИ, включая автоматическое создание коротких клипов из длинных видео.

Подходит для: создания коротких видео формата TikTok, Instagram* Reels или YouTube Shorts.

🤖🎥 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейровидео | Sora AI, Runway ML, дипфейки»

Runway специализируется на ИИ-инструментах для генерации и редактирования видеоконтента. Предлагает очень широкую функциональность, но редактирование может быть сложным для начинающих пользователей (а вот генерацией пользоваться очень просто).

Подходит для: опытных специалистов.

InVideo – очень простой и в то же время достаточно мощный инструмент для генерации и редактирования коротких видео.

Подходит для: новичков без опыта редактирования.

ClipChamp – приложение для редактирования и озвучивания видео от Microsoft. Отличается огромным выбором и гибкостью настройки голосов.

Подходит для: начинающих, желающих создавать короткие видео.

Descript – предлагает разные инструменты для обработки видео, включая автоматическое создание транскриптов.

Подходит для: пользователей без опыта, которым нужно редактировать короткие видео и генерировать транскрипты.

Wondershare Filmora – кроссплатформенный видеоредактор, известный простотой и многофункциональностью. Предлагает множество инструментов на основе ИИ, включая интерполяцию кадров и удаление вокала.

Подходит для: пользователей и проектов начального/среднего уровня.

🤖🔊 Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка»

✊ Сделай сам

Генераторы изображений зачастую работают слишком медленно, а все существующие методы ускорения этих моделей требуют большого количества тренировочных изображений. Разработчики SwiftBrush представили новый метод обучения, который не требует реальных изображений. Этот метод вдохновлен технологией создания 3D-моделей по текстовым описаниям и позволяет быстро обучить модель для создания качественных изображений с одного раза.

Video Foundation Model Evaluation Framework – мощный инструмент для работы с видеоданными. Он позволяет анализировать видео, сравнивать их и извлекать из них полезную информацию. Основная функциональность:

Оценивает качество эмбеддингов на разных наборах данных (Kinetics-400, Something-Something-v2, Moments-in-Time, Diving 48).
Находит похожие видео на основе векторных представлений.
Определяет начало и конец действий в видео.
Разбивает видео на сегменты, соответствующие разным действиям.
Визуализирует векторные представления.

LayerPano3D – генератор иммерсивных 3D-сцен, которым можно найти применение в AR/VR, геймдеве и интерактивном обучающем контенте.

* Instagram принадлежит компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Автор рассылки: Наталья Кайда

📧 Подписаться на рассылку

Показать полностью 2 8

Proglib

1 год назад

Серия Итоги недели в мире ИИ и обзоры новых сервисов

Итоги недели в мире ИИ и обзоры новых сервисов: 25 опенсорсных AI-инструментов для ваших проектов⁠⁠

📰 Новости

В Южной Корее разработали новые ИИ-учебники для 5 млн школьников всех классов – от начального до выпускного. Контент этих учебников адаптируется под текущий уровень знаний ученика.

Исследователи Google Deep Mind провели анализ сообщений о случаях мошенничества с использованием ИИ и выяснили, для каких преступлений чаще всего используются возможности GenAI. Спойлеры:

Самый популярный вид кибермошенничества с применением ИИ – имперсонация, когда злоумышленники с помощью дипфейк-технологий притворяются другими людьми.
Один из самых впечатляющих случаев мошенничества произошел в феврале 2024 года в Гонконге, когда злоумышленникам удалось убедительно подделать видеоконференцию с участием нескольких лиц. Все участники, включая фальшивого финансового директора, выглядели настолько естественно, что ничего не подозревающий сотрудник послушно перевел $25,6 млн на подставной счет.

Еще один из отцов-основателей OpenAI, Джон Шульман, перешел в Anthropic.

Компания Groq, разработавшая уникальный супербыстрый LPU (языковой процессор), получила $640 млн инвестиций и оценку в $2,8 млрд, что свидетельствует о фундаментальном сдвиге в индустрии ИИ-инфраструктуры – Groq стал серьезным конкурентом для NVIDIA.

На опенсорсной платформе LMSYS Chatbot Arena, где ИИ-компании часто тестируют предстоящие релизы, появился некий anonymous-chatbot, который превосходит GPT-4o и остальные крупнейшие модели и, возможно, является секретным проектом Q*/Strawberry от OpenAI. На это намекнул Альтман.

Новая модель роботов-гуманоидов Figure 02 успешно прошла тестирование на заводе BMW. Робот поддерживает диалог благодаря генеративному ИИ от OpenAI, может поднимать до 25 кг, выполняет задачи автономно и работает 8 часов без подзарядки.

На платформе Mistral теперь можно создать собственных ИИ-агентов, имеющих такую же функциональность, как кастомные GPT.

Феноменальный успех ChatGPT сделал Сэма Альтмана одним из самых влиятельных людей в мире, и это должно внушать серьезное беспокойство всем нам. По наблюдениям Гэри Маркуса, которые он подробно изложил в разоблачительной статье, директору OpenAI и деятельности его компании нельзя доверять:

Во время слушаний по вопросам регулирования ИИ в сенате США Альтман предоставил неполную и неискреннюю информацию и солгал, отвечая на вопрос о том, получает ли он прибыль от OpenAI. Альтман буквально сказал, что получает денег «достаточно для оплаты медстраховки». При этом один автомобиль из его обширного автопарка, Koenigsegg Regera, стоит не менее $4 млн.
Несмотря на публичные заявления Альтмана о необходимости регулирования ИИ, на деле OpenAI активно лоббирует ослабление регулирования.
OpenAI не уделяет достаточного внимания вопросам безопасности ИИ, что подтверждается уходом нескольких ключевых сотрудников, занимавшихся безопасностью.
Деятельность OpenAI подразумевает использование огромных объемов электроэнергии, воды и других ресурсов. Такое же безответственное отношение к ресурсам переняли все конкуренты OpenAI – от Anthropic до Microsoft. Никто не пытается «озеленить» ИИ-индустрию.
Технологии OpenAI активно используются для создания политической дезинформации – компания признала несколько инцидентов, но не предпринимает видимых усилий для предотвращения подобных случаев.

Илон Маск снова решил судиться с OpenAI и ее основателями – Сэмом Альтманом и Грэгом Брокманом. Юридическая команда Маска утверждает, что Альтман и Брокман «усердно манипулировали Маском», убеждая его стать соучредителем их якобы благотворительной организации, обещая безопасность и прозрачность OpenAI, что отличало ее от альтернатив, ориентированных на прибыль. Иск выходит за рамки простых договорных споров, поскольку содержит серьезные юридические обвинения, включая финансовое мошенничество, нарушение договора, сетевое мошенничество и даже нарушение RICO («Закона о коррумпированных и находящихся под влиянием рэкетиров организациях»).

Привет!

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI-энтузиастов.

📧 Подпишись, чтобы быть в числе первых, кто получит дайджест

🛠️ Инструменты

MinusX – Chrome-расширение для анализа данных в Jupyter и Metabase.

Frontend AI – генерирует код UI-компонентов по текстовым описаниям и скриншотам, поддерживает редактирование.

Pictory – превращает любой контент в видеоклипы.

Semantic Scholar – бесплатный ИИ-поисковик по огромной базе (220,2 млн +) научных публикаций из всех отраслей науки. Имеет API для использования в собственных приложениях.

Napkin AI – визуализирует информацию в виде любой бизнес-графики – диаграмм, схем, графиков, презентаций и т. д.

🤖✍️ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»

AIswers – платформа, на которой можно задавать вопросы множеству ИИ-моделей одновременно.

Spreadsite – превращает данные из CSV-файлов в интерактивные дашборды и сайты.

GummySearch – находит Reddit-сообщества, попадающие под описание целевой аудитории продукта.

Rosebud – личный коуч и психолог.

✍️ Сделай сам

На Hugging Face выпустили опенсорсную модель CogVideoX-2B для генерации видео, по качеству сопaоставимую с Sora.

MiniCPM-V – опенсорсная минимодель, которая имеет всего 8 млрд параметров и работает на смартфоне, но при этом превосходит GPT-4V в понимании содержимого изображений и видео в реальном времени.

MiniCPM-V отлично понимает смысл и контекст изображений

Flux – модель, разработанная командой, создавшей Stable Diffusion. По многочисленным отзывам, во многом превосходит Midjourney и DALL-E. И самое главное – ее можно установить на свой комп и даже на приличный игровой ноутбук. Протестировать можно на платформе NightCafe.

Примеры генераций Flux

🤖🎨 Все самое полезное про нейросети для генерации изображений вы найдете на нашем телеграм-канале «Библиотека нейрокартинок»

25 опенсорных инструментов для использования в ИИ-проектах

Vanna – Python-библиотека, которая позволяет автоматически писать SQL-запросы и задавать базе данных вопросы на естественном языке.

Khoj – AI-помощник для поиска информации. Понимает разные форматы файлов, включая Word, PDF, Markdown и другие, а также интегрируется с платформами вроде Notion.

Flowise – визуальный конструктор для построения пользовательских потоков управления языковыми моделями и AI-агентами.

LLAMA GPT – локальный и автономный чат-бот, похожий на ChatGPT.

LocalAI – API-сервер, совместимый с API OpenAI, который позволяет запускать языковые модели, генерировать изображения и аудио локально или на своей инфраструктуре без использования GPU.

Continue – один из лучших AI-ассистентов для написания кода. Он позволяет подключать разные модели и контексты, чтобы создавать пользовательские автодополнения и чат-интерфейсы внутри VS Code и JetBrains IDE.

Chat2DB – ИИ-платформа для управления данными, разработки и анализа. Может конвертировать естественный язык в SQL (и наоборот), а также автоматически генерировать отчеты.

🤖🦾 Все самое полезное про роботов, беспилотники, автопилоты и интернет вещей вы найдете на нашем телеграм-канале

«Библиотека робототехники и беспилотников»

LibreChat – продвинутая платформа для создания собственного интерфейса для чат-ботов. Она предлагает множество настроек и поддержку разных AI-провайдеров, сервисов и интеграций, предоставляет единый интерфейс для общения с несколькими AI-ассистентами.

Lobe Chat – фреймворк для создания чат-интерфейсов с языковыми моделями. Он поддерживает речевой синтез, мультимодальность и расширяемую систему плагинов.

MindsDB – платформа для настройки AI на основе корпоративных данных. Она позволяет развертывать, обслуживать и настраивать модели в режиме реального времени, используя данные из баз данных, векторных хранилищ или сторонних приложений.

AutoGPT – полуавтономный агент, способный автоматизировать сложные процессы, выполняя последовательности действий без постоянного вмешательства человека.

🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале «Библиотека нейрозвука»

reor – ИИ-приложение для ведения заметок. Автоматически связывает заметки, отвечает на вопросы и обеспечивает семантический поиск. Все данные хранятся локально, а редактирование заметок происходит в Markdown-редакторе, похожем на Obsidian.

Leon – персональный ассистент, который может работать на вашем сервере. Выполняет разные задачи по вашему запросу и может общаться голосом или текстом. Имеет модульную структуру навыков, которую при желании можно расширить.

Instrukt – терминальная среда с интегрированным ИИ. Позволяет создавать и инструктировать модульных AI-агентов, генерировать индексы документов для ответов на вопросы и назначать инструменты для любого агента.

Quivr – RAG-фреймворк для создания специализированных AI-ассистентов с разными возможностями.

Open Interpreter – интерфейс, который позволяет отдавать компьютеру команды на естественном языке в терминале и дает возможность LLM выполнять код (Python, JavaScript, Shell и т. д.).

CopilotKit – фреймворк для создания пользовательских AI-помощников в React-приложениях.

GPT Engineer – инструмент, который позволяет вам описать нужное приложение на естественном языке, а затем наблюдать, как AI пишет, выполняет и вносит улучшения в код.

Dalai – самый простой инструмент для запуска моделей Llama* и Alpaca локально на вашем компьютере.

🤖🎥 Все самое полезное про нейросети для генерации видео и дипфейки вы найдете на нашем телеграм-канале «Библиотека нейровидео»

OpenLLM – инструмент, позволяющий с помощью одной команды запускать любые опенсорсные LLM в виде API-эндпоинтов. Поддерживает множество моделей и оптимизирован для использования в высоконагруженных приложениях.

Unsloth – ускоряет процесс тонкой настройки больших языковых моделей (Llama-3*, Mistral, Phi-3 и Gemma). Позволяет проводить файнтюнинг в два раза быстрее, используя на 70% меньше памяти, без потери точности.

E2B – предоставляет безопасную среду (песочницу) для AI-агентов и приложений. Это особенно полезно при создании ИИ-приложений с возможностями выполнения кода.

Camel AI – фреймворк, предлагающий масштабируемый подход к созданию систем с несколькими AI-агентами, которые могут эффективно взаимодействовать друг с другом.

Aider – ИИ-напарник программиста, который работает в терминале. Он может начинать новые проекты, умеет редактировать файлы и работать с существующими Git-репозиториями. Aider совместим со всеми популярными моделями (GPT-4, Sonnet 3.5, DeepSeek Coder, Llama 70b и другими).

FastEmbed – быстрая и легкая Python-библиотека для генерации эмбеддингов (векторных представлений) документов. Она использует ONNX runtime вместо PyTorch, что и делает ее быстрее традиционных решений.

Автор рассылки: Наталья Кайда

📧 Подписаться на рассылку

Показать полностью 2 10

ChatGPT Dall-e Javascript Markdown Microsoft Midjourney Openai Python Notion Stable Diffusion Искусственный интеллект Нейронные сети Чат-бот Видео Длиннопост YouTube YouTube (ссылка) IT Программирование Digital Twitter (ссылка)

Proglib

1 год назад

Серия Итоги недели в мире ИИ и обзоры новых сервисов

Итоги недели в мире ИИ и обзоры новых сервисов: бесплатные ресурсы по промпт-инжинирингу⁠⁠

📰 Новости

Microsoft тестирует функцию генеративного поиска в Bing, чтобы убедиться, что она не советует пользователям делать всякие безумные вещи, как аналогичная фича Google.

Stability AI выпустила первую video-to-video модель Stable Video 4D, способную генерировать видеоклипы на основе одного видеореференса.

Китайский ИТ-гигант Kuaishou Technology открыл доступ к потрясающей модели для генерации видео – Kling AI, которая создает HD-клипы в любом стиле продолжительностью до 2 минут. В отличие от Runway, Haiper и Luma Labs, она поддерживает объемные промпты до 2000 символов. Кажется, Sora уже можно не ждать.

Meta* выпустила фичу ImagineMe, которая может генерировать какие угодно фотографии и иллюстрации по селфи, а также способна на продвинутое редактирование изображений – добавление, удаление и замену любых предметов на фото.

Привет!

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI-энтузиастов.

📧 Подпишись, чтобы быть в числе первых, кто получит дайджест

Энергичные разработчики Mistral выпустили новую версию своей опенсорсной модели – Large 2, которая превосходит другую новинку недели, Llama 3.1*, по качеству кода, решению математических задач и уровню логических рассуждений. При этом размер Large 2 (123 млрд параметров) в три раза меньше Llama 3.1*. Правда, в отличие от Llama 3.1*, Large 2 не является мультимодальной моделью, а для коммерческого использование необходимо приобретение лицензии.

Large 2 уверенно превосходит Llama 3.1 и уступает только GPT-4о и Claude 3.5 Sonnet

Meta* выпустила модель Llama 3.1*, которая, как утверждается, превосходит GPT-4о и Claude 3.5 (по нескольким бенчмаркам). Марк Цукерберг оптимистично полагает, что к концу года Llama 3.1* превзойдет по популярности ChatGPT. Стоимость обучения модели, самая большая версия которой имеет 405 млрд параметров, очевидно, обошлась компании в астрономическую сумму (несколько сотен миллионов): в процессе использовалось более 16 000 ультрадорогих GPU H100, не говоря уже о других затратах. Несмотря на огромные расходы, модель останется открытой и бесплатной: по мнению Цукерберга, опенсорсный ИИ в итоге все равно победит.

Илон Маск объявил о запуске Memphis Supercluster – крупнейшего кластера для обучения ИИ в мире – и выразил уверенность в том, что Grok 3.0, выход которого намечен на декабрь, станет самым мощным чат-ботом из всех существующих.

👁️‍🗨️ Бесплатный курс по компьютерному зрению

На Hugging Face запустили интерактивный курс по компьютерному зрению. Программа охватывает абсолютно все аспекты – от базовых концепций до самых продвинутых технологий на сегодняшний день – и подходит для начинающих разработчиков. Основные модули:

Основы компьютерного зрения – базовые концепции, применение и основы обработки изображений.
Сверточные нейронные сети (CNN) – изучение архитектуры CNN, предобученных моделей и методов трансферного обучения.
Vision Transformers – исследование трансформеров в контексте компьютерного зрения, сравнение с CNN и изучение популярных моделей.
Мультимодальные модели – объединение текста и изображений, изучение моделей типа CLIP и их применение.
Генеративные модели – обзор GANs, VAEs и диффузионных моделей, их применение в различных задачах генерации изображений.
Базовые задачи компьютерного зрения – классификация изображений, обнаружение объектов и сегментация. Популярные модели и метрики.
Обработка видео – особенности работы с видео, оценка движения и практические применения.
3D-зрение, рендеринг и реконструкция сцен – изучение трехмерного зрения, концепций Nerf и GQN.
Оптимизация моделей – техники сжатия, особенности развертывания и использование инструментов для эффективной работы.
Создание синтетических данных – использование генеративных моделей для создания синтетических данных и их применение.
Компьютерное зрение с нулевым обучением – изучение обобщения и трансферного обучения в задачах компьютерного зрения.
Этика и предвзятость в компьютерном зрении – рассмотрение этических аспектов, типов предвзятости и стратегий их смягчения.
Перспективы и новые тенденции – обзор современных трендов и инновационных архитектур в области компьютерного зрения.

🗣️ 4 проверенных способа повысить качество ответов чат-бота

Если в ответ на свои запросы вы получаете посредственные и поверхностные тексты, возможно, дело не в способностях чат-бота, а в содержании ваших промптов. Релевантность, глубину, экспертность и детальность ответов действительно можно повысить. Приведенные ниже способы уже доказали свою эффективность при работе с ChatGPT. Они также подойдут для похожих LLM – Claude, Gemini и т. д.

Назначайте чат-боту определенные роли

Если стандартное поведение ИИ-ассистента не дает желаемого результата или нужен специфический контекст общения – поручите чат-боту играть конкретную роль. Начните промпт со слов: «Действуй, как...», «Отвечай, как» или «Представь, что ты...» Этот подход позволяет создать более реалистичный и целенаправленный диалог, помогает получить специфические знания или опыт. Чем больше деталей о роли и ожидаемом поведении предоставлено, тем точнее будет ответ ассистента. Эта техника особенно полезна для практики навыков, подготовки к определенным ситуациям или получения специализированной информации в контексте конкретной роли. Например:

Симуляция собеседования при приеме на работу.
Языковая практика с ИИ в роли репетитора.
Анализ фильма с ИИ в роли кинокритика.

Можно назначать самые разные роли – от профессиональных (врач, программист, юрист) до творческих (комик, писатель).

Добавляйте персональные детали и характеристики

Для получения более естественных и персонализированных текстов в промптах нужно:

Задавать формат (письмо, пост для блога, статья).
Указывать необходимый стиль (например – интригующий, деловой, вдохновляющий, остроумный, саркастичный и т. п.).
Использовать нужные прилагательные для конкретных элементов текста («забавные факты», «курьезные истории», «вдохновляющее вступление», «мотивирующее заключение» и т. п.).
Определять уровень экспертизы («Напиши [формат] на [тему] в стиле эксперта в [области] с 10+ годами опыта»).

Применяйте двухэтапный подход для текстов со списками и подборками

Если в тексте используются какие-то списки, для улучшения качества нужно сначала сгенерировать нужные пункты, а в последующем промпте поручить чат-боту написать текст в необходимом стиле/тоне с использованием этого списка. Например:

Промпт 1: «Напиши 5 рациональных доводов в пользу того, что ИИ не заменит людей в [области]».
Промпт 2: «[Довод 1, 2…5] Используя перечисленные доводы, напиши аналитический пост в стиле журнала Forbes, который остроумно объясняет, почему ИИ не заменит людей в [области]».

Эта техника позволяет добиться более «человечного» и экспертного звучания текста.

Создавайте кастомные инструкции

Чтобы не повторять контекст и детали в промптах на одну и ту же тему, можно создать постоянные кастомные инструкции, которые будут применяться ко всем промптам автоматически. Такие инструкции экономят время и повышают релевантность и экспертность ответов. Пример инструкции, которая будет применяться к коду для визуализации данных:

При написании кода для визуализации результатов помни:
Используй Seaborn вместо Matplotlib.
Всегда используй темную тему или фон [например, sns.set(style="darkgrid")plt.style.use("dark_background")].
Для столбчатых диаграмм всегда упорядочивай данные от высокого столбца к низкому.
При выборе цветовых палитр помни:
"Blues_r" – используй для последовательного анализа и сравнения (не используй "Blues_d").
"Bright" – используй только для качественного анализа.

🤖🦾 Все самое полезное про роботов, беспилотники, автопилоты и интернет вещей вы найдете на нашем телеграм-канале «Библиотека робототехники и беспилотников»

✍️ Бесплатные ресурсы по промпт-инжинирингу

Курс и гайд от OpenAI

Краткий курс для разработчиков подходит для начинающих программистов (достаточного базового знания Python). Программа охватывает:

Принципы работы больших языковых моделей.
Лучшие практики промпт-инжиниринга.
Применение API языковых моделей в приложениях (для анализа настроений и извлечения тем, перевода текста и исправления орфографии и грамматики, автоматической генерации имейлов).

Краткое руководство OpenAI по лучшим практикам промпт-инжиниринга содержит исчерпывающую подборку рекомендаций. Основные советы:

Быть конкретным, описательным и детальным в отношении контекста, желаемого результата, длины, формата, стиля и т. д.
Формулировать желаемый формат вывода через примеры.
Начинать с промптов с нулевым (zero-shot) и малым (few-shot) количеством примеров и переходить к файнтюнингу, если этого окажется недостаточно.
Правильно использовать параметры – особенно тип модели и температуру.

Learn Prompting – огромная база знаний, которая будет одинаково полезна и для начинающих пользователей, и для продвинутых разработчиков. Все гайды здесь тщательно рассортированы по категориям и по уровню сложности. Есть разделы на любой вкус – от генерации изображений в Midjourney до многочисленных способов взлома или эксплойта LLM.

Руководство по промпт-инжинирингу – почти такая же объемная база, как и Learn Prompting, с большим дополнительным преимуществом: все материалы переведены на русский язык. Особое внимание уделяется продвинутым техникам и фреймворкам, которые подходят для решения сложных задач.

Сравнение эффективности разных техник на примере игры «Двадцать четыре». Самый лучший результат показал фреймворк ToT (дерево мыслей)

🛠️ Инструменты

Invue AI – ИИ-симулятор для подготовки к прохождению собеседования на конкретную вакансию.

Mermaid AI – рисует блок-схемы и диаграммы по описанию.

Nolan – пишет сценарии для фильмов.

Tempest AI – напишет игру за 10 минут.

Gendo – ИИ для архитектурного дизайна.

DOM to Semantic Markdown – преобразует веб-контент в семантический Markdown-формат с сохранением структуры и метаданных. Такие данные легче «перевариваются» моделями, улучшая их возможности обработки и рассуждения.

Auphonic – ИИ-звукоинженер для улучшения качества любых аудиозаписей.

UltraPixel – генерирует изображения в Ultra HD (до 4096×4096).

Протестировать модель можно на Replicate

Rodin – впечатляющий генератор 3D-моделей.

MyMathSolver – бесплатный ИИ-решатель сложных математических задач. Работает на базе GPT-4o, поэтому распознает скриншоты.

Study Map – генератор персонализированных курсов и учебных планов для изучения чего угодно.

* Деятельность Meta и все ее продукты, включая Llama 3.1, признаны экстремистскими и запрещены на территории РФ.

Автор рассылки: Наталья Кайда

📧 Подписаться на рассылку

Показать полностью 3 5

ChatGPT Microsoft Midjourney Искусственный интеллект Нейронные сети Чат-бот Видео Длиннопост YouTube YouTube (ссылка) Instagram (ссылка)

Proglib

1 год назад

Серия Итоги недели в мире ИИ и обзоры новых сервисов

Итоги недели в мире ИИ и обзоры новых сервисов: топ-6 самых высокооплачиваемых профессий в ИИ⁠⁠

📰 Новости

ИИ-разработчики Microsoft создали модель VALL-E 2, которая настолько совершенно имитирует любой голос, что открывать доступ к ней попросту опасно. Для клонирования нужен аудио-образец длиной всего в несколько секунд, а результат генерации будет неотличим от голоса реального человека.

VALL-E 2 превосходит все аналогичные модели

Компания Amazon запустила (в тестовом режиме) сервис AWS App Studio, с помощью которого можно создавать готовые к использованию профессиональные приложения.

15 несовершеннолетних испанцев получили условные сроки за генерацию и распространение непристойных изображений с участием своих одноклассниц.

Microsoft отказалась от места в наблюдательном совете OpenAI. По слухам, ИТ-гигант не хочет в очередной раз привлечь внимание Федеральной торговой комиссии, которая следит за исполнением антимонопольного законодательства. Эта комиссия уже присматривается к сотрудничеству между Google, Amazon и Anthropic, а аналогичное британское учреждение CMA разбирается в связях Microsoft, Mistral и Inflection AI.

Привет!

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

📧 Подпишись, чтобы быть в числе первых, кто получит дайджест

Исследователи MIT и Калифорнийского университета в Сан-Диего создали опенсорсную систему TeleVision для удаленного управления роботами. Кроме того, эта же система позволяет роботам действовать автономно, точно выполняя нужные действия в течение сколь угодно длительного времени. TeleVision использует VR для передачи движений рук, поворотов тела и направления взгляда оператора на сервер, откуда данные в режиме реального времени передаются роботу для выполнения действий. Камера робота, в свою очередь, передает оператору визуальную 3D-информацию об окружении исполнителя. Множество примеров использования TeleVision – на сайте проекта

Компания Meta* представила компактную модель MobileLLM, оптимизированную для работы на смартфонах.

Исследователи Вюрцбургского университета обучили ИИ-модель обнаруживать ложные утверждения. При использовании одного и того же набора утверждений модель определила ложь в 67% случаев, люди – в 50%. Потенциальные ниши использования для такого детектора лжи – обнаружение фейковых новостей, проверка фактов в информационных и научных публикациях, оценка резюме.

ИИ обнаруживает ложь успешнее, чем люди

YouTube запустил ИИ-фичу Erase Song – «ластик», который позволяет заглушать в роликах музыку, защищенную авторскими правами (а не удалять всю озвучку или сами видео, как раньше). Подробная инструкция по использованию этой функции – на сайте техподдержки.

🛠️ Инструменты

Decipher – находит уязвимости и баги в коде, отделяет критические ошибки от незначительных, предлагает возможные решения. Упрощает работу тестировщиков и специалистов техподдержки.

Accento – позволяет вести и продвигать профиль LinkedIn на автопилоте.

Peneterrer – ИИ-пентестер для поиска уязвимостей в веб-приложениях.

VidAU – платформа, на которой можно делать с видео все, что в принципе доступно на сегодняшний день: генерировать клипы по промптам и URL; заменять лица; создавать, удалять и переводить субтитры; дублировать видео и удалять в них фон; создавать ИИ-аватары.

HyperBooth – генерирует реалистичные фото в нужном стиле, используя один референс. Работает на iOS и Android.

Serra – ИИ-поисковик для рекрутеров.

Rubbrband – продвинутый генератор изображений: может создать серию иллюстраций с одним и тем же персонажем, в одном и том же стиле и т. п. Поддерживает редактирование по промптам и инпейнтинг.

NetJet – генератор и оптимизатор сайтов.

Greptile – ИИ для выполнения ревью кода. Держит в памяти всю кодовую базу и делает все правки с учетом контекста.

Upsend – поможет подготовиться к техническому собеседованию. Другой похожий ИИ-коуч – PrepPro.

Deep Art Effects – ИИ-редактор, который может перерисовать любое изображение в нужном арт-стиле.

Reviewly – ассистент для анализа и управления отзывами в Google.

Prototide – браузерный ИИ-плагин для оценки эстетики, разметки, контента, удобства и потенциальной конверсионности веб-страниц.

Auto Gmail – подключает ChatGPT к вашей почте. Отвечает на сообщения, используя входящие и отправленные письма в качестве базы знаний. Работает в десктопной и мобильной версии Gmail.

Meco – извлекает максимум полезной информации из ваших подписок и спасает папку «Входящие» от загромождения.

Reeler – генерирует короткие видеоклипы и рилсы по текстовым описаниям.

Pieces – продвинутый помощник разработчика: извлекает код со скриншотов, учитывает содержимое всей кодовой базы. Устанавливается локально, интегрируется в браузер, IDE и редактор кода.

AI Math Solver – предоставляет пошаговые решения сложных математических задач, может выступать в роли репетитора.

Live Portrait – бесплатно оживляет фото в соответствии с мимикой видео-референса.

WavveAI – превращает голосовые заметки в нужный текстовый контент: статьи, емейлы, записи дневника и конспекты.

Nailedit – помогает сравнить ответы самых популярных моделей на один и тот же запрос.

Nailedit помогает выбрать самую подходящую модель для конкретного задания

Scene – генерирует сайты.

MakeBestMusic – генератор музыкальных треков. Есть функции редактирования (удаление вокала и т. п.).

KitchenGPT – мощный ИИ-дизайнер интерьера.

Content Creator Studio – генерирует видеоклипы для соцсетей и маркетинговых целей.

Medical Chat – медицинский чат-бот для помощи обычным врачам и ветеринарам.

🧠 Может ли ИИ обрести сознание и как мы об этом узнаем

Развитие ИИ идет невероятными темпами: то, что еще несколько месяцев назад было под силу только человеку, теперь с успехом могут делать чат-боты. Если искусственный сверхинтеллект (AGI) действительно появится в ближайшие годы, границы между способностями людей и AI и вовсе могут исчезнуть. Может ли ИИ обрести настоящее сознание, подобное человеческому? Теперь это вопрос волнует не только футурологов и писателей-фантастов, но и ведущих ученых по всему миру.

Что такое сознание

Прежде чем говорить о сознании ИИ, стоит разобраться, что мы понимаем под сознанием вообще. И тут возникает первая сложность: единого определения сознания не существует. Ученые предлагают различные теории, пытающиеся объяснить этот феномен:

Одна из наиболее известных – Интегрированная информационная теория (IIT), разработанная Джулио Толони. Согласно этой теории, сознание возникает там, где система обладает высоким уровнем интегрированной информации. Проще говоря, чем сложнее и взаимосвязаннее система, тем выше вероятность возникновения в ней сознания.
Другой подход предлагает Теория глобального нейронного рабочего пространства (GNWT). Она рассматривает сознание как результат обработки информации в глобальном рабочем пространстве мозга, куда поступают данные из различных областей.
Теория схемы внимания (AST), в свою очередь, предполагает, что сознание – это своего рода иллюзия, создаваемая мозгом для моделирования процессов внимания.

Может ли ИИ обладать сознанием

Ответ на этот вопрос зависит от того, какой теории придерживаться. Сторонники IIT, например, считают, что современные компьютеры в принципе не могут обладать сознанием из-за особенностей своей архитектуры. По их мнению, фон-неймановская архитектура, на которой основаны современные компьютеры, не позволяет достичь необходимого уровня интеграции информации.

С другой стороны, приверженцы вычислительных теорий сознания, таких как GNWT и AST, полагают, что сознание – это результат определенных вычислительных процессов. А значит, теоретически его можно воспроизвести в искусственной системе.

Текущее состояние и перспективы

На данный момент нет убедительных доказательств наличия сознания у существующих систем ИИ. Даже самые продвинутые нейросети, способные поддерживать сложные диалоги или создавать произведения искусства, по сути, остаются сложными системами обработки данных без истинного понимания или самосознания.

Однако многие исследователи считают, что создание сознательного ИИ – лишь вопрос времени. По мере развития технологий, особенно в области нейроморфных вычислений, которые пытаются имитировать работу человеческого мозга, мы можем приблизиться к созданию систем, обладающих свойствами, похожими на сознание.

Этические вопросы и проблемы

Перспектива создания сознательного ИИ поднимает множество этических вопросов. Если машины обретут сознание, будут ли они обладать правами? Как мы должны относиться к ним? Эти вопросы уже сейчас активно обсуждаются философами и этиками.

Кроме того, возникает проблема идентификации сознания у ИИ. Даже если мы создадим систему, обладающую сознанием, как мы сможем это достоверно определить? Знаменитый тест Тьюринга, предложенный для определения интеллекта машин, вряд ли подойдет для выявления сознания.

Так что вопрос о возможности создания сознательного ИИ остается открытым. Он находится на стыке философии, нейробиологии и компьютерных наук, требуя междисциплинарного подхода. Независимо от того, обретут ли машины сознание в будущем, сам процесс исследования этой проблемы помогает нам лучше понять природу нашего собственного сознания и интеллекта. Подробнее о сознании ИИ – в этой публикации.

🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале

«Библиотека нейрозвука»

💰 Самые высокооплачиваемые ИИ-специалисты

Forbes опубликовал подборку из 6 самых высокооплачиваемых профессий в ИИ-нише. Зарплаты указаны для западного рынка.

Промпт-инженер (Prompt engineer)

Инженеры по промптам работают над оптимизацией взаимодействия между пользователями и ИИ-системами, особенно в области обработки естественного языка (NLP).

Основные задачи включают:

Разработку эффективных промптов, которые позволяют ИИ-моделям генерировать точные и релевантные ответы.
Анализ и улучшение существующих промптов для повышения производительности ИИ-систем.
Создание стратегий для преодоления ограничений и улучшения выходных данных ИИ-моделей.

Для успешной работы в этой области необходимо сочетание технических знаний и творческого мышления. Инженеры по промптам должны глубоко понимать принципы работы ИИ-моделей и уметь «думать как ИИ», чтобы создавать наиболее эффективные инструкции.

Средняя зарплата в год: $127 000

Научный исследователь в области ИИ (AI research scientist)

Такие специалисты работают над созданием новых алгоритмов, моделей и методов, которые расширяют возможности ИИ.

Их работа может включать:

Проведение фундаментальных исследований в глубоком обучении, компьютерном зрении, обработке естественного языка и робототехнике.
Разработку и тестирование новых архитектур нейронных сетей.
Публикацию научных статей и участие в конференциях.
Сотрудничество с инженерами для воплощения теоретических концепций в практические приложения.

Эта роль обычно требует высокого уровня образования, часто PhD в области компьютерных наук, математики или смежных дисциплин. Исследователи должны обладать глубокими знаниями в области математики, статистики и программирования.

Средняя зарплата в год: $130 000

Инженер-программист ИИ (AI software engineer)

Эти специалисты отвечают за практическую реализацию ИИ-технологий – превращают теоретические концепции в работающие продукты и сервисы.

Обязанности могут включать:

Разработку и внедрение алгоритмов машинного обучения и глубокого обучения.
Создание и поддержку инфраструктуры для обработки больших объемов данных.
Интеграцию ИИ-компонентов в существующие программные системы.
Оптимизацию производительности ИИ-моделей для работы в реальном времени.

Эти инженеры должны обладать сильными навыками программирования, знанием Python и фреймворков, используемых в ИИ (например, TensorFlow, PyTorch), а также пониманием основных концепций машинного обучения и ИИ.

Средняя зарплата в год: $147 000

«Библиотека робототехники и беспилотников»

Продакт-менеджер в сфере ИИ (AI product manager)

Эти специалисты играют ключевую роль в превращении ИИ-технологий в успешные продукты. Они находятся на стыке бизнеса и технологий, обеспечивая соответствие ИИ-решений потребностям рынка и бизнес-целям.

Обязанности могут включать:

Определение стратегии продукта и составление дорожной карты развития.
Координацию работы между техническими командами и бизнес-подразделениями.
Анализ рынка и конкурентов для выявления возможностей для ИИ-продуктов.
Управление жизненным циклом продукта от концепции до запуска и последующего развития.

Продакт-менеджеры в сфере ИИ должны обладать глубоким пониманием технологий ИИ, сильными навыками управления и способностью эффективно коммуницировать с техническими специалистами, заказчиками и собственниками или акционерами бизнеса.

Средняя зарплата в год: $148 000

Консультант по ИИ (AI consultant)

Консультанты по ИИ помогают организациям понять, как они могут использовать ИИ для улучшения своих бизнес-процессов и повышения эффективности. Они выступают в роли экспертов, предоставляющих стратегические советы по внедрению ИИ.

Работа может включать:

Анализ бизнес-процессов клиента для выявления областей, где ИИ может принести пользу.
Разработку стратегий внедрения ИИ, соответствующих целям и возможностям организации.
Консультирование по вопросам этики и управления рисками при использовании ИИ.
Проведение обучающих сессий для сотрудников клиента по вопросам ИИ.

Консультанты должны обладать широким кругозором в области ИИ, сильными аналитическими навыками и способностью эффективно доносить сложные технические концепции до нетехнической аудитории.

Средняя зарплата в год: $155 500

Основатель стартапа в сфере ИИ (AI startup founder)

Эта роль подходит для предпринимателей, которые видят возможности создания инновационных продуктов или услуг на основе ИИ. Основатели стартапов в сфере ИИ сочетают в себе технические знания, бизнес-навыки и лидерские качества.

Обязанности могут включать:

Разработку инновационной идеи продукта или услуги на основе ИИ.
Формирование команды экспертов в области ИИ и бизнеса.
Привлечение инвестиций и управление финансами стартапа.
Налаживание партнерских отношений и поиск первых клиентов.

Успешные основатели стартапов в сфере ИИ имеют глубокое понимание соответствующих технологий, опыт работы в индустрии и способность видеть, как ИИ может решать реальные бизнес-проблемы.

Средняя зарплата в год: зависит от успешности стартапа. Потенциальный доход от продажи продукта или бизнеса может принести состояние.

* Meta и все ее продукты признаны экстремистскими и запрещены на территории РФ.

Автор рассылки: Наталья Кайда

📧 Подписаться на рассылку

Показать полностью 3 6

ChatGPT Microsoft Вакансии Искусственный интеллект Нейронные сети Робот Видео Длиннопост YouTube YouTube (ссылка)

Proglib

1 год назад

Серия Итоги недели в мире ИИ и обзоры новых сервисов

Итоги недели в мире ИИ и обзоры новых сервисов: как узнать ход мыслей ИИ-модели⁠⁠

📰 Новости

По мнению ИИ-светил, момент создания AGI не за горами. В то же время нынешние ИИ-модели продолжают совершать абсурдные ошибки:

Компания McDonald's была вынуждена отказаться от использования ИИ в Мак-авто, потому что он безумно выполнял заказы (делал мороженое с беконом, использовал масло вместо карамели и выдавал наггетсы тысячами).
ИИ Meta*, неправильно маркирующий реальные изображения как сгенерированные (и наоборот), стал источником глубокой фрустрации для множества пользователей и фотографов.

Разработчики Alibaba нашли способ генерировать длинные видео (до сих пор это было не под силу даже Sora). Множество примеров – на сайте проекта ExVideo.

Исследование DeepMind показало, что создание политических дипфейков является самым популярным сценарием использования ИИ в противоправных целях.

Крупнейшие музыкальные лейблы – Universal Music Group, Sony Music Entertainment и Warner Music Group – подали коллективный иск против стартапов Udio и Suno, ИИ-модели которых генерируют потрясающе реалистичные и качественные песни в любом жанре. Стартапы, предположительно, незаконно используют музыку реальных артистов для обучения. Лейблы хотят получить компенсацию – по $150 000 за каждый использованный трек. Так, например, Suno имитирует Эминема, а так – ABBA: эта модель явно хорошо знакома с оригинальными песнями.

Генеративный ИИ стал одной из причин стремительного прогресса в робототехнике в 2024 году. В этой подборке – 10 самых впечатляющих роботов: от новой электрической версии Atlas (Boston Dynamics) до самообучающегося Phoenix (Sanctuary AI), интеллект которого приближается к уровню AGI.

Привет!

В еженедельных письмах ты найдешь:

Новости о прорывных исследованиях в области машинного обучения и нейросетей.
Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
Статьи об этических аспектах развития технологий.
Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
Обзоры инструментов и библиотек для разработки нейронных сетей.
Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.
Новости

📧 Подписаться на рассылку

На платформе Figma появилось множество новых мощных AI-инструментов – они значительно ускоряют и упрощают работу дизайнера. А во многих случаях позволяют обойтись без дизайнера вообще.

Ученые из Токийского университета разработали кожу для роботов из культивированных живых клеток. Эта кожа способна к самовосстановлению при повреждениях и в будущем поможет роботам-гуманоидам реалистично имитировать человеческую мимику. Прототип пока больше похож на криповатый улыбающийся блин, чем на Алисию Викандер, но разработчики настроены оптимистично.

Робокожа: желания vs возможности

Биологическая генеративная модель ESM3 выполнила симуляцию 500 млн лет эволюции.

В Firefox Nightly появится возможность использования нескольких популярных чат-ботов – ChatGPT, Google Gemini, HuggingChat и Le Chat Mistral.

Amazon работает над мультимодальной моделью под кодовым названием Metis. Предполагается, что модель будет представлена в сентябре и сможет конкурировать с ChatGPT, у которого на данный момент есть только один реально сильный соперник – Claude 3.5 Sonnet.

Claude 3.5 Sonnet и ChatGPT-4o – самые сильные модели на сегодняшний день

Код Grok AI показывает, что скоро в нем появится генерация изображений с использованием Midjourney.

Google с запозданием последовала прошлогоднему примеру Meta*: скоро в чат-боте Gemini можно будет беседовать со знаменитостями и инфлюэнсерами.

🛠️ Инструменты

Find AI – ИИ-поисковик, оптимизированный для розыска информации об ИТ-компаниях и специалистах ИТ-сферы.

Cartwheel – анимирует 3D-персонажей для рекламы, соцсетей, видеоигр, VR/AR и кино.

Revid – создает короткие видео для ТикТока.

Lenso – ИИ-поисковик для изображений.

Tellers – создает видео по любым текстам и статьям.

Zebracat – генератор рекламных видео. Похожий сервис – Colossyan

Scene – ИИ-платформа для веб-дизайнеров.

Unscreen – удаляет фон в видеоклипах и гифках.

Cleanup Pictures – убирает нежелательные объекты с изображений.

Magic Patterns – Chrome-плагин, который превращает HTML-код страниц в код React и редактируемые дизайны Figma.

ProtoUI – генератор отзывчивого и адаптивного UI.

Aider – ассистент программиста, работает в терминале. Подключается к любой LLM.

Cody – еще один помощник разработчика, подключается к IDE.

DeepCode AI – находит и автоматически исправляет баги, которые могут сделать приложение уязвимым для злоумышленников.

Cursor – ИИ-редактор кода.

👾 Эффективные техники написания промптов

Как улучшить качество ответов чат-бота с помощью <scratchpad>

Эта методика направлена на улучшение структуры и качества ответов ИИ: она делает процесс более прозрачным и управляемым, потому что в буквальном смысле показывает ход «мыслей» модели. Название методики связано одновременно и с буквальным значением слова scratchpad («черновик»), и с айтишным термином – так называют сверхбыструю область оперативной памяти, которая используется для кэширования вычислений.

Вот как надо использовать тег <scratchpad>:

Четкая постановка задачи. Начните с ясной формулировки задания для ИИ, предоставьте необходимый контекст или направление, в котором нужно развить идею.
Использование «черновика». Добавьте раздел, обозначенный тегами <scratchpad> – в нем нужно дать ИИ указание составить план подхода к решению задачи.
Планирование ответа. В этом разделе ИИ разбивает задачу на ключевые шаги, темы или примеры, которые он планирует охватить в своем ответе. Это позволяет ИИ показать ход своих «мыслей».
Проверка и итерация. Вы просматриваете предложенный план и при необходимости корректируете его, пока не будете уверены, что ИИ движется в правильном направлении.
Генерация ответа. После вашего одобрения ИИ использует этот план для создания структурированного и целенаправленного ответа.

Эта техника:

Помогает улучшить структуру и логику ответов ИИ.
Обеспечивает полноту охвата темы.
Дает вам возможность направлять процесс мышления ИИ.
Делает работу ИИ более прозрачной и понятной.

Пример промпта с использованием черновика

Ход мыслей Claude 3.5 Sonnet

Использование цепочек промптов для улучшения ответов чат-ботов

Цепочки промптов – это тщательно составленные последовательности запросов, которые разбивают сложные задачи на отдельные шаги. Эта техника напоминает процесс написания сочинения по четкому плану: серия взаимосвязанных промптов, каждый из которых основывается на ответе предыдущего, позволяет ИИ генерировать более связные и контекстно релевантные ответы. К слову, такую цепочку промптов как раз можно получить с помощью упомянутого выше <scratchpad>.

К основным преимуществам цепочек промптов можно отнести:

Детализированный и целенаправленный подход – разбивка задачи на мелкие шаги упрощает ее обработку для LLM, а результат будет более точным: модели дают подробные и развернутые ответы на узкие и конкретные вопросы.
Фокус на решении конкретных проблем. Каждый промпт в цепочке направлен на выполнение конкретной подзадачи, гарантируя, что внимание ИИ сосредоточено на нужных моментах. Это снижает вероятность ошибок и галлюцинаций.
Поддержание непрерывности и контекста. Каждый промпт строится на ответе предыдущего, создавая последовательное и контекстно релевантное повествование или решение.

Как заставить Midjourney воплощать ваши идеи с идеальной точностью

Эта публикация посвящена трем способам использования референсов в Midjourney:

Изображение в качестве промпта / image URL – для имитации композиции, темы и стиля сразу.
--sref – для заимствования визуального стиля.
--cref – для использования ключевых характеристик персонажа.

Создание вариации на тему, заимствование стиля и использование персонажа

Самое крутое то, что все три способа можно комбинировать вместе.

Персонаж с одного референса сидит в позе другого, и все это – в стиле третьей картинки

* Деятельность Meta признана экстремистской и запрещена на территории РФ.

Автор рассылки: Наталья Кайда

📧 Подписаться на рассылку

Показать полностью 6 6

ChatGPT Чат-бот Искусственный интеллект Midjourney Промты для нейросетей Видео Длиннопост YouTube YouTube (ссылка)

Отличная работа, все прочитано!