В среду исследовательская лаборатория Mira Murati, Thinking Machines Lab, опубликовала первый пост в своём блоге Connectionism под названием «Defeating Nondeterminism in LLM Inference». В статье рассматривается причина появления случайных ответов у больших языковых моделей (LLM) и предлагаются пути её устранения.
Основные тезисы исследования
Исследование написано сотрудником лаборатории Хорасом Хе. Он утверждает, что основной источник недетерминизма — это способ объединения GPU‑ядер (маленьких программ, работающих на чипах Nvidia) в процессе инференса, то есть выполнения модели после ввода запроса. По мнению Хе, точный контроль над этой оркестрацией позволяет сделать ответы моделей более предсказуемыми.
Помимо повышения надёжности ответов для предприятий и учёных, Хе отмечает, что воспроизводимые ответы могут улучшить обучение с подкреплением (RL). При текущем шуме в данных, когда ответы модели слегка различаются, процесс RL усложняется. Более согласованные ответы сделают обучение «плавнее», что важно для планов лаборатории использовать RL при кастомизации моделей под нужды бизнеса.
Планируемые продукты и открытость
Mira Murati, бывший технический директор OpenAI, в июле заявила, что первый продукт лаборатории будет представлен в ближайшие месяцы и будет полезен исследователям и стартапам, разрабатывающим кастомные модели. Пока неизвестно, будет ли он основан на методах, описанных в исследовании.
Thinking Machines Lab также объявила о намерении регулярно публиковать блоги, исходный код и другую информацию, чтобы «приносить пользу общественности и улучшать собственную исследовательскую культуру». Это контрастирует с тенденцией OpenAI к более закрытой работе по мере роста компании.
Реальный успех будет измеряться способностью превратить эти исследования в коммерческие продукты, оправдывающие оценку компании в 12 млрд долларов.
Больше материалов на канале РобоТок: https://t.me/tobotsp