Сергей Марков о создании «НейроПепперштейна», истории и современных вызовах искусственного интеллекта

Сергей Марков о создании «НейроПепперштейна», истории и современных вызовах искусственного интеллекта

Иван Напреенко, литературный критик из издания о книгах и чтении «Горький»
Обложка книги, написанной Павлом Пепперштейном и «НейроПепперштейном»

— Над какой частью проекта «НейроПепперштейн» вы работали?

— В Сбере я руковожу Управлением экспериментальных систем машинного обучения. Это большая лаборатория, в которой сегодня работают около 120 исследователей. В нашем портфеле сейчас около 70 параллельных проектов. Одна из областей специализации — обучение гигантских генеративных нейросетевых моделей. 

Процесс этот происходит так: сначала мы готовим набор данных для обучения; потом при помощи суперкомпьютера обучаем нейронные сети, выбрав необходимую архитектуру; затем проводим эксперименты для оценки качества полученных результатов; при необходимости дообучаем модель для решения отдельных прикладных задач. Скажем, алгоритм, который генерировал тексты в стиле Павла Пепперштейна — как раз дообученная модель ruGPT-3. Это один из наших больших публичных проектов.

— Какие в случае с «НейроПепперштейном» у вас были критерии оценки того, что получилось?

—  Для оценки качества работы языковых моделей используется много различных тестов и подходов. Есть автоматизированные метрики, например, мы можем подсунуть модели реальный текст Пепперштейна, который она не видела в процессе обучения — и посмотреть на степень её уверенности в том, что он принадлежит перу Павла. Проверяется это чисто количественно — насколько хорошо модель предсказывает каждое следующее слово в данном тексте. В итоге рассчитывается метрика, которая называется перплексия (perplexity), то есть мера несоответствия или «удивлённости» модели от того, что она видит. 

Другой подход предполагает привлечение человека. Мы берём два набора текстов — сгенерированные моделью и написанные живыми авторами — и просим жюри, состоящее из людей, определить, чьему перу принадлежит тот или иной текст. Это в чём-то напоминает классический тест Тьюринга. 

Впрочем, в отношении художественных произведений существуют определённые затруднения, что несколько ограничивает возможность применения такого подхода. Ведь люди знают произведения известных писателей, музыкантов и художников (а мы занимаемся не только моделями, которые пишут тексты, но и создают картины, музыку,  программный код). 

Например, когда в 2015 году появилась модель DeepBach, которая писала произведения в стиле Иоганна Себастьяна Баха, трудно было найти человека, кто не слышал хотя бы что-то из творчества этого композитора. Люди узнавали произведения классика и давали им более высокие оценки, потому что существует предубеждение в пользу человеческого творчества. 

Сергей Марков и искусственные нейроны

Поэтому здесь, конечно, мы ориентировались в первую очередь на автоматизированные метрики. Но вообще вся история с публикацией книги совместно с Павлом Пепперштейном — тоже эксперимент, чтобы оценить, насколько современные генеративные модели приблизились к человеку в создании художественных текстов. Насколько неискушённая публика и литературные критики способны угадать, какие из рассказов в сборнике написаны алгоритмом, а какие Пепперштейном. Эксперимент чистый, потому что рассказы Павел писал специально для этого проекта, никто не видел их раньше. 

Есть и третий способ — просто попросить людей оценить качество текста. Но это не про то, насколько хорошо модели научились подражать, а насколько они в принципе научились писать хорошие тексты. В целом, самые большие генеративные нейросетевые модели сегодня делают такие тексты, которые люди в среднем не способны отличить от написанных человеком. 

Но здесь есть много нюансов, потому что это может сильно меняться в зависимости от конкретного домена: художественных текстов, научных статей и так далее. Скажем, ещё лет шесть назад биоинформатик и борец с плагиатом в науке Михаил Гельфанд при помощи генератора бреда написал «научную» статью о корчевателе и направил её в ряд российских научных журналов, и некоторые в итоге её опубликовали. 

Сложные тексты, находящиеся за пределами понимания читающего, уже давно можно писать так, чтобы вводить людей в заблуждение. А сейчас самый главный вызов — создание текстов, которые будут обладать художественной ценностью. Здесь нейросетям придётся ещё долгое время пробивать себе дорогу, пока за ними не признают наличие творческих способностей.

— Вы считаете, текст, возникший в результате работы алгоритмов, действительно сопоставим с художественным текстом, написанным человеком? Может быть, у него иная ценность, не такая, как у созданного живым автором?

— У этой проблемы множество аспектов. Первый — это собственно художественная ценность. Почему мы «Чёрный квадрат» Малевича считаем произведением искусства, а такой же квадрат, нарисованный учеником, не считаем? Потому, что за признанием наличия или отсутствия художественной ценности тех или иных произведений стоит достаточно сложный социальный процесс. В него вовлечена личность автора, его взаимоотношения с другими людьми. Кому-то повезло оказаться в нужном месте в нужное время и раскрутиться, кому-то нет. Насколько успех музыкальной группы или писателя определяется качеством их текстов? Быть может, важнее успешная социализация, грамотный пиар? Это всё открытые вопросы. 

Художественное изображение мозга

Кроме того, если мы посмотрим на процесс «творчества» нейронной сети и творчество человека, то какие мы можем использовать объективные критерии? Часто начинают говорить о новизне, но с ней как раз у машин всё в порядке. Ещё Моцарт предложил: давайте возьмём игральные кости, напишем на их гранях ноты, будем бросать кости на стол и получать мелодию, с новизной у которой всё будет хорошо. Если мелодия достаточно длинная, то можно быть практически уверенным, что именно такой не сочинил в прошлом никто. Алеаторика в своё время поставила случайность во главу угла, но сгенерировать то, что будет нравиться людям — это уже более интересная задача.

Если же поставить вопрос о новизне и индивидуальности в отношении человеческого творчества — то окажется, что по этому критерию его трудно отличить от «творчества» искусственной нейронной сети. Каждый художник учится писать на произведениях других авторов, а также основываясь на знаниях, полученных от окружающих его людей и на впечатлениях от общения с ними. В науке, как известно, все великие учёные стояли на плечах своих предшественников. В общем-то, точно так же дело обстоит и в литературе, и в других искусствах. Проблема в том, что чрезвычайно трудно оценить вклад учителей и общества в открытие или художественное произведение конкретного человека, совершившего последний шаг в творческой миле. 

Точно так же и нейросеть мы учим на произведениях, созданных людьми. В этом смысле любая модель — продолжение нашей культуры, она глубоко социальна. Ну а то, что за ней стоит другой субстрат — небиологический, — много ли это меняет? Если посмотреть на человеческий мозг, то его работа тоже может быть описана системами уравнений. 86 млрд нейронов, квадриллион синапсов, ионные каналы, закономерности проводимости токов и так далее. 

В принципе, нейросети изначально были моделью, которую инженеры подсмотрели у природы. Для развития технологий часто применяется бионический подход. Когда у нас нет работающего решения для какой-то задачи, мы ищем подсказку в окружающем мире. Первые конструкторы летательных аппаратов изучали полёты птиц, летучих мышей, планирование семян клёна.

С нейросетями примерно та же история. В 1920-е годы Николая Рашевского интересовал довольно частный вопрос: капельки в коллоидных растворах, используемых в качестве клеев в компании Westinghouse, росли, и в какой-то момент оказывалось, что поверхностного натяжения недостаточно, чтобы удержать их воедино. Как итог — капли делились на части. 

Однажды на вечеринке после пары коктейлей Рашевский в ходе светской беседы с учёным-биологом спросил: «Вы же исследуете деление клеток, это очень похоже на то, что изучаю я, наверное, у вас уже всё посчитано, весь механизм явления?». На что биолог поднял назидательно палец и сказал: «Это биология, здесь ничего нельзя посчитать!». 

Рашевского это так уязвило, что он посвятил всю свою жизнь созданию новой дисциплины — математической биофизики. И вот спустя 15 лет в журнале Bulletin of Mathematical Biophysics появилась статья Уоррена Мак-Каллока и Уолтера Питтса, которая дала начало нейросетевому направлению.

Первая модель искусственного нейрона Мак-Каллока - Питтса

Искусственный нейрон Мак-Каллока и Питтса — это модель, которая изначально несла заметный отпечаток нейронов живых организмов. Другое дело, что современные нейросети довольно далеко ушли от своих биологических прототипов. Но тем не менее, где принципиальная разница между электронной машиной, перемножающей гигантские матрицы и биологической счётной машиной, которая скрывается в нашем черепе? 

Каждый из нас продукт аккумулированного человеческого опыта, человеческой культуры, точно так же и искусственные нейросети — продукт человеческого общества и культуры. Мы в своей жизни впитываем знания из окружающего мира и формируем какие-то представления, которые позволяют нам творить не абы что, не случайные сочетания символов, а нечто интересное с художественной точки зрения. 

Вопрос лишь в том, что искусственные нейросети пока ещё сильно примитивнее, чем биологические. То есть наш мозг с его квадриллионом синапсов, каждый из которых сам по себе сложная электрохимическая система, всё ещё несоизмеримо сложнее любой нашей электронной схемы. Поэтому все текущие системы ИИ, чтобы достичь успеха, создаются узкоспециализированными. 

Сегодняшние наши нейрописатели — это такое «мы поймали таракана и заставили его писать тексты». Качественный результат достигается путем изощрённых фокусов, благодаря инженерной хитрости. Поэтому здесь содержится очень большой технологический вызов. Нам нужно «кашу из топора» сварить, а вкусная она или нет — решать читателю.

— Возможно, с точки зрения решения такой задачи с Пепперштейном вам повезло? Кажется, что его авторский стиль может скрывать некоторые трудности, которые испытывает нейросеть при создании длинных связных текстов.

— Я думаю, что и да, и нет. С одной стороны, тексты Павла часто парадоксальные, за этим можно скрыть промахи нейронной сети, которая может испытывать проблемы со сложным и непротиворечивым повествованием. Можно списать её нелогичность на тот или иной постмодернистский литературный приём. С другой стороны, те парадоксы, которые мы часто находим в произведениях Пепперштейна, на самом деле не каждый может сочинить. В этом смысле неожиданный художественный поворот, какое-то внезапное решение — это то, чему трудно научиться. Поэтому, по гамбургскому счёту, здесь плюсы уравновешивают минусы. 

Однако я бы сказал, что тут однозначно сыграло в пользу нейросети то, что мы имеем дело с малой формой. На сегодняшний день важный вызов для нейросетевых генераторов текста — это создание больших произведений, в которых была бы детально простроена иерархия взаимоотношений всех героев и событий. Для нейросети типа ruGPT-3 контекст, на который она ориентируется при написании каждого следующего слова, составляет всего несколько тысяч знаков.

У моделей, подобных GPT-3, вообще такая особенность — они пишут текст слева направо. То есть словно взял писатель ручку, и ничего не зачеркивая, написал от начала до конца свой текст. Конечно, сейчас изучаются более изощренные способы генерации текста, больше похожие на то, как их пишет человек. Например, когда модель может сгенерировать сначала конец текста, потом начало, затем середину, а конец вновь переписать. Подобный процесс более свойственен людям, и его уже могут реализовать разные архитектуры «кодировщик — декодер», которыми мы сейчас занимаемся. 

Вообще, весь следующий год нашей работы будет посвящён в том числе более прогрессивным способам генерации. Например, мы учим модели запоминать сложные иерархические отношения в текстах. Сейчас с помощью нейросетевых моделей можно написать неплохие рассказы, как я считаю, но трудности будут при попытке создать «Войну и мир».

— А Вы, как человек, которому по работе приходится часто сталкиваться с продукцией нейросети, имеете какие-то ключи, позволяющие отличить нейросетевой текст от человеческого?

— Я попробовал угадать, что и кем создано в «Пытаясь проснуться», так как уже не помнил все сгенерированные тексты к моменту выхода книги. А рассказы Павла вообще впервые увидел лишь в печатном издании. Поэтому как-то наугад открыл, прочёл пару текстов — и не угадал. Могу сказать так: если всё правильно настроено, то я тоже не особо отличу. Я иногда вижу, когда неправильные параметры генерации подобраны, в таком случае появляются некоторые специфические артефакты — это можно определить. Но если всё сделано правильно, то никакого преимущества у специалистов по машинному обучению, я думаю, не будет. А вот у литературоведов, которые хорошо творчество Павла знают, вполне может быть.

— С точки зрения науки о языке и коммуникациях, к какому пониманию нас эти искусственные системы двигают? Что мы узнаем благодаря им о собственном языке?

— Нейросетевые модели (как и более старинные методы статистической лингвистики) используются исследователями языка весьма активно. Можно формулировать разные гипотезы и проверять их с помощью нейросети. Например, последнее, чем мы начали заниматься в союзе с лингвистами — проблема переноса знаний между языками. 

Наша последняя обученная модель называемся mGPT. Она научилась писать тексты на 60 языках. Здесь довольно интересно посмотреть, может ли модель использовать знания, полученные в одном языке, для того чтобы лучше писать тексты на другом. Особенно это важно в ситуации, когда для одного языка существует совсем мало текстов, а для других много, хотя эти языки могут быть родственными. Так вот оказалось, что модель способна выучить какие-то межъязыковые абстракции.

На самом деле, интересно, что сегодня нейросети для нас уже не являются чёрным ящиком. Придумано много способов в него заглянуть, просверлить в нём разные дырочки или сделать другие чёрные ящики, которые нам будут объяснять, что внутри первых. 

В отношении трансформерных моделей, есть направление, которое в шутку называют «бертология» в честь одной из первых трансформенных моделей, которая называлась BERT. И вот, «бертологи» визуализируют так называемые карты внимания. То есть мы можем видеть, генерируя то или иное новое слово, на какие слова модель смотрит в это время, какие из них важны в том тексте, который находится слева. Можем понять — почему здесь появилось именно это слово? Где в тексте сокрыты ключи к его появлению? Чем оно было обусловлено? 

В принципе, мы можем просматривать иерархию внимания на разных слоях, начиная от конкретного и двигаясь к более абстрактным представлениям, которые модель выучивает. Поэтому изучение сетей внимания помогает лучше понять, как устроен наш язык, какие ассоциативные цепочки в нём существуют. 

— Мы говорим «внимание», «выучивание» — это ведь антропоморфизм, проецирование на неживую модель человеческих — или, говоря шире — биологических черт. Насколько оно оправдано? 

— Я думаю, когда мы говорим о внимании и иерархии признаков, то это как раз абстракции, которые пришли к нам во многом из нейрофизиологии. Они имеют под собой определённую базу, это не просто туманные сравнения. Если Иван Павлов в начале XX века писал о том, что зрительная кора человека — это анализатор, что она раскладывает изображение на наборы признаков, то до некоторых пор это оставалось довольно абстрактным соображением, пока в 1950-е годы Дэвид Хьюбел и Торстен Визель не начали втыкать электроды в зрительную кору кошки, показывать ей разные картинки и изучать, как нейроны реагируют на разные признаки с этих картинок. 

Есть знаменитая история, когда из-за кромки слайда, случайно показавшейся на экране проектора, нейрон в зрительной коре кошки, к которому был присоединён электрод, сработал! Так выяснилось, что исследователи обнаружили конкретную нервную клетку, реагирующую на расположенные в поле зрения под определённым углом линии. 

Соответственно, работы Хьюбела и Визеля повлияли вначале на Фрэнка Розенблатта с его перцептронами — ранними моделями нейронных сетей. Потом после его смерти этой тематикой занимались другие исследователи в 1970-е годы, например, Кунихико Фукусима. Всё это привело к появлению в 1980-е годы сверточных нейронных сетей, которые во многом повторяют зрительную кору человеческого мозга. В них мы наблюдаем карты признаков, примерно такие же, что и в нейронах человеческого мозга. Мы видим, что передние слои этой сети отвечают за конкретные признаки изображения — углы, линии, градиенты, — а в более глубоких частях находим нейроны, которые реагируют на наличие в поле зрения, скажем, чьего-то носа. А если зайдем ещё глубже, то найдём там нейрон, реагирующий на морду котика. 

Иными словами, нейронные сети действительно выстраивают иерархию признаков. Точно так же они работают и с естественным языком: мы наблюдаем определённые представления языка, которые эти модели выучивают. Идея старая, высказана она была лингвистами в 1970-е годы, что семантика слова определяется его окружением — другими словами, в компании которых оно встречается. Проанализировав терабайты текстов, модель устанавливает эти статистические закономерности, причём делает это схожим с человеческим мозгом способом. 

Таким образом, нельзя сказать, что наши термины носят метафорический, антропоморфический характер. Когда мы говорим «внимание» — это именно то внимание, которое есть у людей.

— Как вам кажется, сбудется ли однажды ужас и мечта фантастов, произойдёт ли переход из количества в качество, который породит у искусственного интеллекта сознание?

— Буквально в этом году был смешной спор между ведущими специалистами в этой области. Один из признанных экспертов в области нейронных сетей Андрей Карпатый заявил, что, возможно, те нейросети, которые мы сейчас обучаем, уже в некотором смысле обладают сознанием. Конечно, у него нашлись ехидные противники, которые сказали, что они в некотором смысле ещё и немного беременны. 

С сознанием вопрос в том, что мы понимаем под этим. Если это осознание своего существования, бытия, места в мире, то есть такая эволюционная концепция, что подобное ощущение — это побочный эффект социальности. Когда появились организмы, которые стали жить группами, возникла необходимость в психической модели других особей, чтобы предсказывать их поведение. А дальше эта модель оказалась замкнута на себя. Наша психика создала модель себя, как другого. Наше сознание и есть эта модель, саморефлективная часть нашей нейросети, которая пытается посмотреть на саму себя изнутри глазами извне. 

Возможно, она появится и у искусственных нейронных сетей. Но кажется, что для этого нужна некоторая специфика, то есть это, наверное, обучение в мультиагентных средах, где от них тоже потребуется создание модели другого, а затем себя. 

Если стремиться к созданию такого рода сущности, то, я думаю, что рано или поздно мы научимся это делать. Но пока нет, потому что необходимое количество ещё не накоплено. А так, переход количества в качество мы много раз наблюдали в случае нейронных сетей, когда простое горизонтальное масштабирование модели приводит к линейному росту метрик качества решения разных задач. Проще говоря, увеличиваем нейросеть вдвое, и она становится вдвое умнее. А иногда даже к появлению у сетей новых, ранее не наблюдавшихся способностей (последнее явление называется эмерджентностью).

Мы видели массу красивых демонстраций этого. Эволюция глубокого обучения началась с одной из них, когда в 2012-м году свёрточная сеть, которую мы сейчас знаем под названием AlexNet, научилась распознавать картинки лучше, чем другие модели, а уже в 2015-м году нейросети превзошли в этой задаче уровень людей. Человечество очень быстро получило сверхчеловеческие метрики. Лучшие модели сейчас дают меньше 2% ошибки при 5% у людей.

Report Page