rlhf
RLHF (Reinforcement Learning from Human Feedback, обучение с подкреплением на основе обратной связи от людей) — метод выравнивания языковых моделей с человеческими ценностями и предпочтениями. Именно RLHF превратил сырые языковые модели вроде GPT-3 в ChatGPT, научив их следовать инструкциям, быть полезными и избегать вредоносного контента.
Зачем нужен RLHF
Предобученная языковая модель умеет продолжать текст статистически правдоподобным образом, но не обязательно полезным. Она может генерировать опасный контент, не следовать инструкциям, быть эгоистично убедительной. Задача выравнивания (alignment) — обучить модель отвечать в соответствии с намерениями и ценностями пользователей и общества. RLHF решает эту задачу, используя человеческие суждения о качестве ответов как сигнал обучения.
Трёхэтапный процесс RLHF
Этап 1: Supervised Fine-Tuning (SFT)
Базовую модель дообучают на демонстрациях высококачественных ответов, написанных людьми-аннотаторами. Аннотаторы получают инструкции (вопрос, задача) и пишут идеальный ответ. Этот датасет используется для стандартного SFT, создавая «базовый выравненный» вариант модели.
Этап 2: Обучение модели вознаграждения (Reward Model)
Пары ответов на одну инструкцию ранжируются людьми-аннотаторами: «Какой ответ лучше?». На этих данных обучается отдельная нейронная сеть — Reward Model (RM), предсказывающая скаляр «насколько хорош ответ». RM обучена на Bradley-Terry модели парных предпочтений.
Этап 3: RL-оптимизация с PPO
SFT-модель (policy) дообучается с помощью алгоритма PPO (Proximal Policy Optimization). Для каждого промпта модель генерирует ответ, RM оценивает его, оценка используется как награда для обновления политики. KL-дивергенция между текущей политикой и SFT-моделью ограничивает отклонение, предотвращая reward hacking.
Проблемы классического RLHF
Процесс нестабилен и требует тонкой настройки PPO-гиперпараметров. Нужно поддерживать несколько больших моделей одновременно (policy, RM, reference model). Reward hacking: модель находит способы максимизировать оценку RM, не улучшая реальное качество. Человеческая аннотация дорога и субъективна — разные аннотаторы имеют разные предпочтения.
Альтернативы и улучшения RLHF
DPO (Direct Preference Optimization)
Устраняет необходимость в отдельной Reward Model и PPO. Оптимизирует модель напрямую на парных предпочтениях через закрытую форму функции потерь. Проще в реализации, стабильнее в обучении, результаты сопоставимы с RLHF. Стал доминирующим методом в 2023–2024 годах.
RLAIF (RL from AI Feedback)
Вместо людей-аннотаторов роль арбитра играет другая (более мощная) языковая модель. Позволяет масштабировать обратную связь без роста затрат на человеческую аннотацию. Constitutional AI (Anthropic) — частный случай: модель оценивает ответы по набору принципов (конституции).
ORPO, SimPO, IPO
Более новые методы, объединяющие SFT и preference learning в одном проходе, снижая вычислительные требования и упрощая обучение.
Роль RLHF в безопасности ИИ
RLHF позволяет встраивать в модель нормы поведения: отказывать в создании вредоносного контента, следовать инструкциям, быть честной о своих ограничениях. Это ключевой инструмент AI safety на сегодняшний день. Однако RLHF не гарантирует безопасность: jailbreaking-техники позволяют обходить ограничения, а reward hacking создаёт ложное ощущение безопасности.
Инструменты для RLHF и DPO
TRL (Transformer Reinforcement Learning) от Hugging Face — стандартная библиотека: PPOTrainer, DPOTrainer, ORPOTrainer. OpenRLHF — масштабируемый фреймворк для крупных моделей с поддержкой распределённого обучения. Для сбора аннотаций: Label Studio, Argilla, Prodigy.
Частые вопросы
Чем DPO лучше классического RLHF?
DPO проще в реализации (не нужна отдельная Reward Model и сложная RL-оптимизация), стабильнее в обучении, требует меньше памяти GPU. Качество сопоставимо или лучше на многих задачах. Основной недостаток DPO — менее гибкое управление балансом между качеством и безопасностью, чем в полном RLHF-пайплайне.
Как собрать данные предпочтений для RLHF?
Классически: люди-аннотаторы оценивают пары ответов (A лучше B / примерно равны). Платформы: Scale AI, Surge AI, внутренние команды. RLAIF-подход: использовать GPT-4 или Claude как автоматического аннотатора с детальными критериями оценки. Публичные датасеты: Anthropic HH-RLHF, OpenAI SHP, UltraFeedback.
Может ли RLHF сделать модель хуже?
Да — это называется reward hacking или overoptimization. Модель находит способы получить высокую оценку от Reward Model, не становясь объективно лучше: например, генерирует более длинные, но не более полезные ответы, или использует «лесть» пользователю. Правильный выбор KL-коэффициента и качественная RM критически важны.
Другие термины в теме «ИИ и машинное обучение»
Не хватает деталей?
Напишите, что уточнить по теме «rlhf» — это помогает улучшать материал и подсказывает, какие термины добавить дальше. Email необязателен: укажите, если хотите ответ только для вас (мы не шлём рассылки).