Deepseek-R1

AI, life and balance

Сейчас на официальном сайте доступно приложение, чат и API, и все с разными версиями модели. У них у всех закрытый исходный код, поэтому технические детали извлечь особенно не получится. Но можно изучить то, что доступно, а именно опубликованные по моделям статьи.

Их там много, давайте для затравки одну возьмем – «DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning». Там про обучение с подкреплением и рассуждения, нам подходит.

Обучение с подкреплением использовали вместо размеченных данных в процессе доработки модели. То есть, вместо того чтобы давать набор данных и «правильных ответов» к ним, ей дали набор данных и предоставили самостоятельно найти в них закономерности через получение «поощрения» за правильные ответы. У меня был пост про обучение с использованием обратной связи от человека – это как раз частный случай обучения с подкреплением.

Если без человека, то для подкрепления используется какая-нибудь математическая функция произвольной сложности. Она может, к примеру, прибавлять единицу к переменной «вознаграждение», если модель предсказывает правильный ответ, и отнимать единицу в противном случае. В конце модель получает свой результат, корректирует ответы, получает изменение, снова корректирует – и так до тех пор, пока не получится максимально возможный результат или пока не закончится процесс обучения.

DeepSeek-R1 так обучали рассуждать. Первая версия – DeepSeek-R1-Zero – оказалась так себе: смешивала языки и выдавала плохо сформулированные ответы. Поэтому решили попробовать еще раз.

Взяли более раннюю DeepSeek-V3-Base, обучили на большом наборе данных с правильными ответами сначала без рассуждений, а потом еще дообучили конкретно на рассуждения с использованием подкрепления. Процесс был следующий:

1) сначала дообучили DeepSeek-V3-Base на парах «запрос – ответ с рассуждением»;

2) потом добавили еще запросов;

3) на все запросы нагенерировали той же DeepSeek-V3-Base по несколько вариантов ответов;

4) автоматически отобрали лучшие: наиболее консистентные и без смешения разных языков;

5) на парах «запрос – лучший ответ с рассуждением» дообучили модель еще раз.

Вообще статья раскрывает не слишком много подробностей и больше концентрируется на демонстрации достижений предложенного авторами подхода к обучению с подкреплением. В частности, они обнаружили у DeepSeek способность к переоценке изначально выбранного варианта решения задачи и к выбору альтернативного пути.

Мы нечто подобное видели в статье про Thought Rollback – рассуждения с возвратом на предыдущий шаг. Подходы разные: там нужно взять готовую модель и применить к ней фреймворк, а здесь модель должна работать правильно «из коробки», то есть, без дополнительных надстроек. Но оба варианта решают схожие проблемы.

Отдельный блок посвящен дистиллированным моделям (distilled). Дистилляция в машинном обучении – это тренировка модели меньшего размера на данных модели побольше. Обычно модели побольше очень мощные, но требуют много ресурсов, а с ресурсами проблемы. Маленькие модели требуют меньше ресурсов, но они не так точны. Выход вот какой:

берем большую сильную модель, даем ей серию запросов, получаем ответы;
берем модель поменьше и обучаем ее на парах «запрос – ответ большой модели».

Так получается достичь сравнительно неплохих результатов на моделях меньшего размера. Пары моделей называют «учитель-ученик». Например, GPT-4o mini получили дистилляцией GPT-4o. В таком случае, GPT-4o – учитель, GPT-4o mini – ученик.

Это достаточно распространенная практика, которая много раз показала свою эффективность. У DeepSeek есть версии DeepSeek-R1-Distill-Qwen-32B и DeepSeek-R1-Distill-Llama-70B – они использовали модели Qwen и Llama соответственно в качестве учителей.

Вообще если вы видите в названии одной модели название другой, скорее всего, второе имя – это модель-учитель. Такие приняты негласные правила именования.

В ходе экспериментов DeepSeek-R1 показала хорошие результаты в решении математических задач и работе с текстом, в том числе на китайском языке. В работе с кодом эта модель уступила ближайшим конкурентам, в частности o1 от openAI.

В общем, нам не то чтобы раскрыли много технических подробностей, но предложили новый вариант обучения с подкреплением, что тоже интересно.

Теперь хочу поближе изучить еще модель DeepSeek-V3. Это ансамбль экспертов (mixture of experts, MoE), и у нее впечатляющий по объему технический отчет. Посмотрим, что там раскроют.

По плану это будет ближе к осени, до двадцатых чисел августа график постов уже расписан :)

Deepseek-R1

Report Page