Psychological AI: Designing Algorithms Informed by Human Psychology
Психометрика и психоскептикаСегодня мы продолжим тему использования ИИ в психологии, но немного под другим углом: есть ли польза от психологических моделей и знаний о закономерностях работы мышления, восприятия, внимания для моделирования алгоритмов работы ИИ? Именно такими вопросами задался Gerd Gigerenzer в своей статье «Psychological AI: Designing Algorithms Informed by Human Psychology», вышедшей в 2024 году в журнале “Perspectives on Psychological Science”.
В последние десятилетия искусственный интеллект демонстрирует впечатляющие успехи. Однако парадокс заключается в том, что эти достижения почти не используют знания психологии. Исторически ключевые достижения ИИ строились не на моделировании человеческого мышления. Deep Blue, например, побеждал за счёт большой вычислительной мощности, а не благодаря моделированию когнитивных стратегий шахматистов. Google Flu Trends (GFT) анализировал миллионы поисковых запросов, но совершенно игнорировал психологию прогнозирования. Даже современные языковые модели опираются на статистику последовательностей слов, а не на психологию языка, семантику или прагматику.
Подобная ситуация сохраняется и на уровне образования будущих специалистов: большинство учебников по машинному обучению описывают статистические методы, редко затрагивая психологию мышления или принятия решений. Частично это связано с распространённым заблуждением, будто логика и байесовская рациональность - универсальный эталон человеческого мышления. В действительности же многие реальные задачи не сводимы к небольшому стабильному набору вероятностей.
Границы ИИ: стабильные и нестабильные миры
Для того, чтобы подчеркнуть ограничения работы ИИ и его отличия от человеческого мышления, Gigerenzer напоминает о важности различия между ситуациями риска (ситуации, где известен список всех возможных будущих состояний и всех возможных последствий этих состояний, для которых известны либо объективные, либо субъективные вероятности этих состояний) и ситуациями неопределённости (состояние, в котором невозможно перечислить все возможные будущие события, оценить их последствия или задать корректные вероятности, потому что сама структура мира может меняться непредсказуемо). Современный ИИ особенно успешен в задачах риска, когда у нас есть пусть и огромное, но известное число вариантов решений. Но когда речь идёт о ситуациях нестабильности (прогноз поведения, социальные процессы или эпидемии), такие системы часто ошибаются.
Отсюда формулируется принцип стабильного мира: сложные модели на больших данных работают хорошо только там, где мир стабилен. Человеческий интеллект же эволюционировал для принятия решений в ситуации неопределённости, поэтому именно в этой области, нестабильных, плохо определённых задач, и раскрывается потенциал психологического ИИ (Psychological AI).
Программа Психологического ИИ
Психологический искусственный интеллект (psychological AI) — это направление в разработке алгоритмов, которое использует принципы, теории и эмпирические результаты психологии для конструирования вычислительных моделей. В отличие от традиционного ИИ, который почти полностью опирается на статистические методы, большие данные или схемы работы нейронных сетей, пришедшие из нейробиологии (например, Lindsay (2021) утверждал, что сверточные нейронные сети были вдохновлены организацией клеток в зрительной коре), психологический ИИ интегрирует знания о когнитивных процессах, эвристиках, особенностях памяти, социальных механизмах и поведенческих закономерностях человека. Его задача не имитировать человеческое мышление, не анализировать постфактум сходство поведения людей и алгоритмов и не заимствовать структуру мозга как модель. Психологический ИИ - это использование теорий о человеческом мышлении при проектировании алгоритмов, чтобы сделать их:
· более эффективными в условиях неопределённости,
· более устойчивыми к неожиданным изменениям среды,
· более прозрачными и интерпретируемыми,
· менее склонными к переобучению.
Для доказательства полезности психологического ИИ Gigerenzer приводит в пример два кейса. Подробнее остановимся на одном из них.
Google Flu Trends - предсказание гриппа
Чтобы определить, где и как именно распространяется грипп, инженеры Google применили методы анализа больших данных, пытаясь предсказывать долю обращений к врачам по поводу гриппа на ежедневной или недельной основе. При создании Google Flu Trends (GFT) они проанализировали около 50 миллионов поисковых запросов и выделили из них 45 переменных, которые затем объединили в алгоритм (Ginsberg и др., 2009). Модель обучали на данных за 2003–2007 годы и тестировали на данных 2007–2008 годов.
Однако после вспышки свиного гриппа весной 2009 года GFT в течение нескольких месяцев стабильно занижал прогнозы обращений к врачам. Алгоритм «выучил» типичную сезонность - высокие показатели зимой и низкие летом, тогда как динамика свиного гриппа оказалась совершенно иной. Чтобы исправить ситуацию, инженеры Google решили не упрощать, а наоборот усложнить модель, увеличив число переменных примерно до 160 (Cook и др., 2011). Тем не менее дополнительная сложность не повысила точность: обновлённая версия уже систематически завышала прогнозы: в 100 из 108 недель с августа 2011 по сентябрь 2013 года, иногда превышая реальные значения более чем на 50% (Butler, 2013). Вновь посчитав модель недостаточно сложной, инженеры обновили её ещё раз в 2013 году (Copeland и др., 2013). После очередного обновления в 2014 году GFT окончательно закрыли через год.
Проблема в том, что распространение гриппа не является частью ситуации риска со стабильными условиями. Katsikopoulos и др. (2022) предложили более простой алгоритм, основанный на эвристике недавности, характерной для человеческого мышления и давно известной из психологических исследований.
Эвристика недавности - склонность человека придавать большее значение самой свежей информации и опираться на неё при принятии решений, одновременно игнорируя более “старые” данные. Традиционно в ряде исследований недавность считали когнитивным искажением, поскольку в стабильной среде она действительно может приводить к ошибкам. Но в нестабильных условиях, где условия меняются непрогнозируемо, недавность становится экологически рациональной, то есть помогает принимать более точные решения.
На основе эвристики недавности, Katsikopoulos и др. (2022) предположили, что предсказания должны строиться не на основе всех данных, а на основе “свежих” данных о посещениях, например, что доля обращений к врачу по поводу гриппа на этой неделе будет лучше предсказываться данными о посещениях на прошлой неделе.
Интуитивно понятно, что такой алгоритм легко приспосабливается к внезапным изменениям, вроде вспышки свиного гриппа, тогда как модели, опирающиеся на большие данные, часто оказываются слишком инерционными. Эта более простая модель показала лучшие результаты: средняя ошибка составила 9%, тогда как для сложной модели, используемой GFT - 20%. Другие метрики ошибок дали аналогичные результаты: алгоритм, созданные на основе эвристики недавности ошибался примерно вдвое реже (Katsikopoulos и др., 2022a). Более того, это преимущество сохранялось ежегодно с 2007 по 2015 год и во всех трёх обновлённых версиях GFT. В этом случае относительно небольшие, но “свежие” данные оказалась результативнее большого и полного массива данных.
Эвристику недавности можно комбинировать с big data-подходом GFT для создания гибридных алгоритмов, хотя при этом неизбежно страдает прозрачность. Потенциал эвристики недавности подтверждается и в других областях, характеризующихся неопределённостью. В экономике Dosi и др. (2020) показали, что она лучше прогнозирует спрос в нестабильных и турбулентных рыночных условиях, чем сложные макроэкономические модели. Эвристика также используется в алгоритмах предсказания поведения пользователей смартфонов, которое само по себе нестабильно и может меняться со временем (Sarker и др., 2019). Artinger и др. (2023) сформулировали общие условия, при которых эвристика недавности предсказывает будущие события не хуже алгоритмов, интегрирующих весь объём данных, и показали, что при выполнении этих условий прогнозы спортивных событий и преступности столь же точны, как у более сложных моделей (например, random forest) и при этом куда более прозрачны.
Психологический ИИ против мифа о компромиссе “точность vs интерпретируемость”
Многие модели машинного обучения, используемые для принятия решений в областях с высокими ставками, например, в здравоохранении, представляют собой «чёрные ящики». Они либо слишком сложны, чтобы их могли понять пользователи, либо являются коммерческой тайной, либо и то и другое одновременно. Например, GFT подвергался критике за отсутствие прозрачности: переменные, использованные в модели, не были раскрыты публично, как и детали трёх её обновлений (Lazer и др., 2014). Непрозрачные алгоритмы встречают сопротивление и тормозят массовое внедрение ИИ по нескольким причинам. Врачи, например, могут колебаться, следовать ли рекомендациям по лечению, если алгоритм - “чёрный ящик” и не позволяет понять основания принятия того или иного решения.
В ответ на эту проблему принятия и возникла область explainable AI (XAI). Однако в большинстве случаев сам “чёрный ящик” сохранялся, а объяснения пытались строить с помощью другой модели, созданной постфактум. Кроме того, полученные таким образом объяснения могут как соответствовать, так и не соответствовать тому, что модель на самом деле делает (Ghassemi и др., 2021).
Распространено убеждение, что точные модели обязательно должны быть сложными и непрозрачными. Gigerenzer не согласен с этим и говорит, что этот миф опровергается в многочисленных исследованиях:
- В прогнозировании гриппа и риска рецидива простые модели превосходили сложные.
- Обзор 97 исследований, сравнивающих простые и сложные методы прогнозирования, показал, что усложнение методов в среднем увеличивает ошибку предсказания на 27% (Green, Armstrong, 2015).
- В ситуациях нестабильности высокая интерпретируемость может прямо улучшать точность.
Gigerenzer предлагает новую стратегию explainable AI (XAI). В частности, вместо того, чтобы пытаться объяснять непрозрачные и сложные алгоритмы, исследователям следует сначала проверить, не предоставляет ли психологический ИИ прозрачное и столь же точное решение. Если это так, как в случаях прогнозирования распространения гриппа, проблема объяснимости фактически исчезает.
Автор подчеркивает, что в машинном обучении растёт объём исследований, посвящённых более простым и понятным алгоритмам (например, simple decision trees). Простые алгоритмы с большей вероятностью будут понятными и одновременно защищают модели от переобучения. Создание легко интерпретируемых алгоритмов должно стать стандартным первым шагом их следует использовать как базовый ориентир, чтобы эмпирически проверять, действительно ли усложнение моделей существенно повышает точность (Katsikopoulos и др., 2020).
В целом, Gigerenzer уверен в том, что психология способна давать идеи, которые позволяют:
- создавать устойчивые алгоритмы для неопределённых условий,
- сохранять интерпретируемость,
- получать точность выше, чем у сложных моделей на больших данных.
Он считает, что эвристические принципы, на которые люди опираются при работе в условиях неопределённости, могут быть полезными для создания понятных и точных алгоритмов.
Статья:
Gigerenzer, G. (2024). Psychological AI: Designing algorithms informed by human psychology. Perspectives on Psychological Science, 19(5), 839-848.
Ссылки на другие упомянутые статьи:
Ghassemi, M., Oakden-Rayner, L., & Beam, A. L. (2021). The false hope of current approaches to explainable artificial intelligence in health care. Lancet Digital Health, 3(11), e745–e750
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google Flu: Traps in big data analysis. Science, 343, 1203–1205
Sarker, I. H., Colman, A., & Han, J. (2019). RecencyMiner: Mining recency-based personalized behavior from contextual Smartphone data. Journal of Big Data, 6, Article 49. https://doi.org/10.1186/s40537-019-0211-6
Dosi, G., Napoletano, M., Roventini, A., Stiglitz, J. E., & Treibich, T. (2020). Rational heuristics? Expectations and behaviors in evolving economies with heterogeneous interacting agents. Economic Inquiry, 58(3), 1487–1516
Butler, D. (2013). When Google got flu wrong: US outbreak foxes a leading web-based method for tracking seasonal flu. Nature, 494, 155–157
Artinger, F., Gigerenzer, G., Kozodoi, N., & von Wangenheim, F. (2023, April 5). Recency: Prediction with a single data point. SSRN. https://ssrn.com/abstract=4410707
Cook, S., Conrad, C., Fowlkes, A. L., & Mohebbi, M. H. (2011). Assessing Google Flu Trends performance in the United States during the 2009 H1N1 pandemic. PLOS ONE, 6(8), Article e23610. https://doi.org/10.1371/journal.pone.0023610
Katsikopoulos, K., S¸ims¸ek, Ö., Buckmann, M., & Gigerenzer, G. (2022). Transparent modeling of influenca incidence: Big data or a single data point from psychological theory? International Journal of Forecasting, 38, 613–619.
Katsikopoulos, K., S¸ims¸ek, Ö., Buckmann, M., & Gigerenzer, G. (2020). Classification in the wild. MIT Press
Lindsay, G. W. (2021). Convolutional networks as a model of the visual system: Past, present, and future. Journal of Cognitive Neuroscience, 33, 2017–2031
Green, K. C., & Armstrong, J. S. (2015). Simple versus complex forecasting: The evidence. Journal of Business Research, 68, 1678–1685