Data dignity
Сергей ЖдановЧтобы нейросеть работала, нужно три вещи: алгоритмы (программный код), вычислительные мощности (суперкомпьютеры) и данные (и паттерны данных), как можно больше качественных данных. В ближайшие годы на фоне бума генеративных нейросетей вроде GPT4 и Midjourney все сильнее будут разгораться споры вокруг пользовательских данных – информации, производимой живыми людьми и необходимой для жизни и развития ИИ.
На прошлой неделе Google открыл доступ к нейросети Bard – своей версии ИИ-чатбота, аналогичного ChatGPT от OpenAI. Как и все нейросети, Bard черпает силы из пользовательских данных, а его создатели в Google имеют доступ к самым большим залежам этой цифровой нефти, – уже два десятилетия они скачивают весь интернет, чтобы работали их поисковые алгоритмы.
Bard пока не может использовать все данные, находящиеся в распоряжении Google, поэтому его тренировали на ограниченной, но гигантской базе данных под названием Infiniset в 1,5 триллиона слов. Отвечая на вопрос «Кто тебя тренировал?», Bard перечисляет:
«– Данные о публичных диалогах, таких как разговоры на форумах и в соцсетях
– Веб-текст, такой как статьи и блог-посты
– Документы с кодом, такие как исходный код и документация к нему
– Веб-документы на не-английском языке, такие как новостные статьи и страницы Wikipedia на других языках
– Диалоги с общественных форумов, таких как Reddit и Quora»
Как вы понимаете, подавляющее большинство слов, диалогов и документов, на которых воспитан Bard, написаны людьми – то есть нами с вами. В общественной дискуссии принято говорить: компания Х создала нейросеть У — но не принято добавлять, что в этом деле поучаствовали и продолжают участвовать миллионы простых пользователей интернета.
Участие пользователей в производстве данных можно условно разделить на две группы: прямое и опосредованное. Мы участвуем в прямом производстве, когда пишем посты и комментарии, загружаем наши видео, фотографии и мемы – короче, прямо генерируем контент, личный или деловой. Опосредованное участие в производстве данных — это лайки, которые мы ставим, голосования, в которых участвуем, а также неочевидные вещи вроде характера потребления контента. То, насколько внимательно вы посмотрели ролик на YouTube, в какой момент нажали на паузу, какой момент пересматривали, а какой, наоборот, промотали – все эти действия производят данные, которые подпитывают ИИ.
До начала 2020-х про связь пользовательских данных и нейросетей говорили, в первую очередь, в контексте рекомендательного ИИ социальных сетей: на основе данных о пользователях и наших действиях Google, Instagram, TikTok и другие выстраивают вокруг нас алгоритмические пузыри, определяющие, какой контент мы будем получать в дальнейшем. Технокорпорации забирали данные о поведении пользователей даром и использовали их для развития ИИ-систем и монетизации пользовательского внимания через рекламу, а взамен предоставляли нам “бесплатные” услуги.
Асимметричность такого обмена долгое время не смущала пользователей бесплатных сервисов вроде YouTube и Facebook. Но затем начали всплывать многочисленные негативные последствия неконтролируемого сбора данных и скармливания их соцсетевым ИИ – от роста политического экстремизма и хаотизации демократий до всплеска психических и психологических расстройств у подростков.
Теперь данные пользователей, годами питавших рекоммендательный ИИ соцсетей, воспитали новое поколение генеративных нейросетей вроде GPT-4 – куда более сложных и полезных и одновременно опасных и непредсказуемых. И теперь забота о персональных данных, бесплатно скармливаемых нейросетям, и вовсе может показаться мелочностью – обывателю в целом сложно представить, что данные о нем могут представлять какую-то особую ценность: “кому я нужен?”, “и что, что они знают?”, “мне нечего скрывать” — и так далее. И ведь нейросети делают пользователей в разыболее эффективнееыми и также почти бесплатно – разве жалко за такое отдать ненужные, невидимые личные данные? Чем плохим это может обернуться?
Data dignity
Перспектива замены значительной части работников нейросетями стала общим местом в современной культуре: все знают, что, скорее всего, сотни миллионов людей потеряют работу и профпригодность. Кремниевая долина разрабатывает ИИ, который должен заменить человеко-работников, и сама первая входит в новую нейросетевую реальность, сокращая десятки тысяч талантливых сотрудников, на поиски и найм которых были потрачены громадные деньги и силы.
Ирония заключается в том, что нейросети заменяют людей, опираясь на данные, произведенные этими же людьми. Посудите сами: программисты, которых сейчас массово увольняют из технокорпораций, годами бесплатно делились своим кодом на платформах вроде Github — и именно их бесплатный код лег в основу нейросетей-программистов типа Copilot, из-за которых авторы исходного кода теперь теряют работу. То же самое можно сказать про юристов, финансистов, журналистов, дизайнеров, музыкантов и множество других профессионалов, чьи данные, чаще всего без их спроса, становятся пищей, взращивающей всемогущий ИИ, пришедший, чтобы лишить их работы.
Ни Кремниевая долина, ни специальные юристы, ни тем более политики – никто пока не может разобраться, в каких юридических и экономических отношениях будут дальше состоять нейросети и люди, создающие данные для этих нейросетей, ботов и больших языковых моделей (LLM). И дело не в том, что эту сферу технически сложно регулировать: технически нетрудно выяснить, где чьи данные находятся, для чего используются и какой результат производят. Сложности возникают из-за того, что от решения этого вопроса зависят триллионы долларов будущих доходов от ИИ-революции: кому они будут принадлежать и как будут распределяться?
Если ничего не поменяется и юридическая и политическая неопределенность вокруг данных будет продолжаться еще какое-то время, то индустрия коммерческих нейросетей установит свои правила. Доходы, как обычно, осядут у технокорпораций вроде Microsoft, у которых уже есть ИИ-триада: данные пользователей, алгоритмы нейросетей и вычислительные мощности. Microsoft, Google, Facebook и другие ИИ-компании будут реализовывать ту же “бесплатную" модель, представленную в эпоху соцсетей: пользователи будут бесплатно отдавать свои данные, а взамен получат возможность условно бесплатно побаловаться с нейросетями вроде ChatGPT. Полный же потенциал нейросетей будет доступен только ИИ-корпорациям и их состоятельным клиентам, способным оплачивать огромные счета за работу серверов, где будут располагаться требующие гигантских вычислительных мощностей продвинутые частные нейросети.
Существуют ли альтернативы?
Отец виртуальной реальности (и один из самых громких критиков соцсетей) американец с украинскими корнями Джарон Ланье называет альтернативный подход «достоинством данных», «предпринимательской демократией» и «гуманистической цифровой экономикой». Суть этого подхода заключается в том, чтобы обязать корпорации и правительства, использующие данные пользователей для производства ИИ, платить пользователям за производство этих данных как за работу.
Ланье объясняет разницу между доминирующим сейчас подходом и гуманистической цифровой экономикой на примере журналистики: “В одном подходе мы делаем вид, что бот – реальное существо, как человек. Чтобы эта фантазия работала, мы должны аккуратненько забыть все источники, которыми бот пользуется, чтобы функционировать. Журналистика, очевидно, пострадает от такого подхода. При другом подходе мы все же следим за источниками бота. В таком случае мир будет выглядеть иначе, и если бот опирался на вашу работу, вы получаете за это деньги. Появляется чувство общей ответственности и сопричастности, все работает более слаженно – это называется data dignity”.
Итоги
Экономическая модель, в которой пользователи получают деньги за производимые данные и участие в тренировке нейросетей – самая демократичная и дружелюбная по отношению к простым людям, которые уступят старые рабочие места ИИ.
Но если в эпоху ИИ от пользователей продолжат без спроса отчуждать их данные, мы получим сплав двух крайне негативных сценариев. С одной стороны, мы можем прийти к дикому цифровому либертарианству: ничем не ограниченные ИИ-корпорации, поглотившие правительства, будут за копейки эксплуатировать безработных пользователей. С другой стороны, государства могут поглотить ИИ-корпорации, и тогда самым логичным выходом будет введение универсального базового дохода – гарантированного пособия, которое государства будут выплачивать безработным гражданам, распоряжаясь их данными для удержания власти. Среди представителей техно-элит довольно популярны обе концепции.
А вот концепция data dignity не пользуется особой популярностью у технокорпораций, которые сейчас одновременно имеют бесплатный доступ к пользовательским данным — и не имеют никакой мотивации делиться прибылью от монетизации этих данных с самими пользователями. Тем не менее, data dignity – не безнадежная концепция, так как ее популяризатор Джарон Ланье уже много лет работает на компанию Microsoft, а значит, сама идея платить пользователям за данные не смущает одну из главных корпораций ИИ-революции.
Даже если отбросить мысли о том, что мега-корпорация может уступать прибыль ради всеобщей справедливости, останется другое рациональное объяснение, зачем Microsoft может захотеть продвигать концепцию data-dignity: чтобы потопить конкурирующие корпорации вроде Google и Facebook, которые десятилетиями бесплатно собирали и монетизировали пользовательские данные. Если Microsoft поднимет моральную планку вверх и начнет платить пользователям за их данные, конкуренты будут вынуждены либо делать так же, либо понесут большие репутационные потери и потеряют лояльность рядовых клиентов.
Самым ценным в концепции data dignity мне кажется именно вопрос “достоинства”. Ланье рисует картину возможного будущего, в котором люди не просто завороженно наблюдают, как ИИ съедает мир, — а трансформируют мир вместе с сознательно воспитанными нашими действиями и контентом нейросетями. В таком мире творчество, пока в полном смысле недоступное ИИ, становится источником дохода и достоинства людей, отдавшим нейросетям скучную рутинную работу, которую люди и так не хотели делать, а были вынуждены только ради денег.
Эта картина мне нравится гораздо больше, чем та, что рисует, например, Илон Маск, который говорит, что человечество — это всего лишь загрузочный файл для искусственного интеллекта: когда ИИ воспрянет, люди станут для него тем же, чем обезьяны сейчас есть для нас – забавными зверушками, которых можно кормить и о которых можно заботиться, но в случае чего можно посадить в клетку.