Краткая история искусственного интеллекта

Краткая история искусственного интеллекта

The Economist

Как ИИ преодолел десятилетия недостаточной эффективности.

Летом 1956 года в Дартмутском колледже в Нью-Гэмпшире собралась небольшая, но именитая группа, в которую входили Клод Шеннон, основоположник теории информации, и Херб Саймон, единственный человек, получивший Нобелевскую премию по экономике, присуждаемую Шведской королевской академией наук, и премию Тьюринга, присуждаемую Ассоциацией вычислительной техники. Их собрал молодой исследователь Джон Маккарти, который хотел обсудить, «как заставить машины использовать язык, формировать абстракции и понятия» и «решать проблемы, которые сейчас доступны только человеку». Это было первое академическое собрание, посвященное тому, что Маккарти назвал «искусственным интеллектом». И оно определило характер последующих 60 с лишним лет развития этой области. Однако не было достигнуто никаких успехов, соответствующих его амбициям.

Дартмутская встреча не ознаменовала собой начало научных исследований машин, которые могли бы размышлять как люди. Алан Тьюринг, в честь которого названа премия Тьюринга, задумывался об этом, как и Джон фон Нейман, вдохновивший Маккарти. К 1956 году уже существовало несколько подходов к этой проблеме. Историки считают, что одной из причин, по которой Маккарти придумал для своего проекта термин «искусственный интеллект», позже «ИИ», было то, что он был достаточно универсальным, чтобы охватить все эти подходы, оставляя открытым вопрос о том, какой из них может быть лучшим. Одни исследователи предпочитали системы, основанные на объединении фактов о мире с аксиомами геометрии и символической логики, чтобы получить соответствующие ответы; другие предпочитали создавать системы, в которых вероятность одного события зависела бы от постоянно обновляемых вероятностей многих других.

В последующие десятилетия велись активные интеллектуальные споры и дискуссии на эту тему, но к 1980-м годам было достигнуто широкое согласие относительно дальнейших действий: «экспертные системы», использующие символическую логику для сбора и применения лучших человеческих ноу-хау. Японское правительство, в частности, поддержало идею создания таких систем и аппаратного обеспечения, которое могло бы им понадобиться. Но в большинстве своем такие системы оказались слишком негибкими, чтобы справиться с беспорядочностью реального мира. К концу 1980-х гг. ИИ стал пользоваться дурной славой, получив репутацию слишком амбициозного и невыполнимого проекта. Те исследователи, которые все еще работали в этой области, стали избегать этого термина.

Именно из таких очагов усердия и родился сегодняшний «бум». В 1940-х годах, когда были получены первые сведения о том, как работают клетки мозга - разновидность нейронов, - ученые-компьютерщики начали задумываться о том, не могут ли машины быть устроены таким же образом. В биологическом мозге существуют связи между нейронами, которые позволяют активности одного нейрона вызывать или подавлять активность другого. Действия одного нейрона зависят от того, что делают другие нейроны, связанные с ним. Первая попытка смоделировать это в лаборатории (Марвином Минским, студентом Дартфорда) предусматривала использование аппаратного обеспечения для моделирования сетей нейронов. С тех пор слои взаимосвязанных нейронов стали воспроизводить с помощью программного обеспечения.

Эти искусственные нейронные сети не программируются по четким правилам, - вместо этого они «учатся», получая множество разнообразных примеров. В процессе обучения сила связей между нейронами (так называемые «веса») многократно регулируется, так что в итоге на заданном входе получается соответствующий выход. Сам Минский отказался от этой идеи, но ее продолжили развивать другие. К началу 1990-х годов нейронные сети были обучены таким вещам, как сортировка почты путем распознавания написанных от руки цифр. Исследователи полагали, что добавление новых слоев нейронов позволит добиться более сложных результатов. Но при этом системы работали гораздо медленнее.

Новый вид компьютерного оборудования позволил решить эту проблему. Его потенциал был наглядно продемонстрирован в 2009 году, когда исследователи из Стэнфордского университета увеличили скорость работы нейронной сети в 70 раз, используя игровой компьютер в своей комнате в общежитии. Это стало возможным благодаря тому, что помимо «центрального процессора» (ЦП), который есть во всех компьютерах, в этом был еще и «графический процессор» (ГПУ) для создания игровых миров на экране. И этот процессор был спроектирован таким образом, чтобы обеспечить работу нейросетевого кода.

Сочетание этого аппаратного ускорения с более эффективными алгоритмами обучения означало, что сети с миллионами связей можно было обучать за приемлемое время. Нейронные сети могли обрабатывать большие входные данные и, что очень важно, иметь больше слоев. Эти «более глубокие» сети оказались гораздо более эффективными.

Сила этого нового подхода, получившего название «глубокое обучение», стала очевидной в ходе конкурса ImageNet Challenge 2012 года. Системам распознавания изображений, участвовавшим в соревновании, была предоставлена база данных из более чем миллиона помеченных файлов изображений. Для любого слова, например «собака» или «кошка», в базе содержалось несколько сотен фотографий. Системы распознавания образов обучались на этих примерах «накладывать» входные данные в виде изображений на выходные в виде однословных описаний. Затем системам было предложено создать такие описания при подаче ранее не встречавшихся тестовых изображений. В 2012 году команда под руководством Джеффа Хинтона, работавшего в то время в Университете Торонто, использовала глубокое обучение для достижения точности 85 %. Это сразу же было признано прорывом.

К 2015 году почти все специалисты в области распознавания изображений использовали глубокое обучение, а точность побед в конкурсе ImageNet Challenge достигла 96 % - лучше, чем средний показатель человека. Глубокое обучение также применялось для решения множества других «проблем... предназначенных для людей», которые можно свести к сопоставлению одного типа вещей с другим: распознавание речи (сопоставление звука с текстом), распознавание лиц (сопоставление лиц с именами) и перевод.

Во всех этих приложениях огромные объемы данных, к которым можно было получить доступ через Интернет, были жизненно важны для достижения успеха. Более того, количество людей, пользующихся Интернетом, говорило о возможности создания больших рынков. Чем больше (то есть глубже) становились сети и чем больше обучающих данных им предоставлялось, тем эффективнее они работали.

Вскоре глубокое обучение стало применяться во всех видах новых продуктов и услуг. Появились устройства, управляемые голосом, такие как Alexa от Amazon. Стали полезны онлайн-сервисы транскрибирования. Веб-браузеры предлагают автоматический перевод. Когда мы стали говорить, что все это стало возможным благодаря ИИ, этот термин стал звучать скорее круто, чем позорно. Однако термин оставался чересчур обширным. Почти каждая технология, называемая ИИ тогда и сейчас, на самом деле опирается на глубокое обучение.

В 2017 году к количественным преимуществам, которые дает увеличение вычислительной мощности и объема данных, добавилось качественное изменение: новый способ организации связей между нейронами, получивший название трансформатор. Трансформаторы позволяют нейронным сетям отслеживать закономерности во входных данных, даже если элементы закономерности находятся на большом расстоянии друг от друга, что позволяет им уделять «внимание» определенным особенностям данных.

Трансформаторы обеспечивают лучшее понимание контекста, что позволяет нейросетям использовать технику, называемую «самоконтролируемым обучением». По сути, в процессе обучения некоторые слова случайным образом пропускаются, и модель сама учится подбирать наиболее подходящие варианты. Поскольку обучающие данные не нужно маркировать заранее, такие модели можно обучать, используя миллиарды слов необработанного текста, взятого из интернета.

Поговорим о языковых моделях

Большие языковые модели (БЯМ) на основе трансформаторов начали привлекать к себе внимание в 2019 году, когда стартап OpenAI выпустил модель под названием GPT-2 (GPT расшифровывается как generative pre-trained transformer). Оказалось, что такие БЯМ способны вести себя "нестандартно", для чего они не были явно обучены. Впитывая огромные объемы языка, они не только удивительно ловко справлялись с лингвистическими задачами, такими как обобщение или перевод, но и с такими, как простая арифметика и написание программ, которые неявно присутствовали в обучающих данных. К меньшему счастью, это также означало, что они воспроизводили предвзятые мнения из поступающих к ним данных, то есть многие из преобладающих предрассудков человеческого общества проявлялись в их результатах.

В ноябре 2022 года более крупная модель OpenAI, GPT-3.5, была представлена публике в виде чат-бота. Любой человек, имеющий веб-браузер, мог ввести запрос и получить ответ. Ни один потребительский продукт не раскупался так быстро. В течение нескольких недель ChatGPT генерировал все - от эссе для колледжа до компьютерного кода. ИИ совершил еще один большой скачок вперед.

Если первая серия ИИ-продуктов была основана на распознавании, то вторая - на генерации. Модели глубокого обучения, такие как Stable Diffusion и Dall-E, которые также дебютировали примерно в то время, использовали технику, называемую диффузией, чтобы превратить текстовые подсказки в изображения. Другие модели могут создавать удивительно реалистичные видео, речь или музыку.

Скачок не только технологический. Создание вещей имеет значение. ChatGPT и такие конкуренты, как Gemini (от Google) и Claude (от Anthropic, основанной исследователями, ранее работавшими в OpenAI), производят вычисления, как и другие системы глубокого обучения. Но тот факт, что они выдают ответы, содержащие что-то новое, делает их совсем непохожими на программы, распознающие лица, принимающие диктовку или переводящие меню. Похоже, они действительно «используют язык» и «формируют абстракции», как и предполагал Маккарти.

Report Page