The Mixed Subjects Design: Treating Large Language Models as Potentially Informative Observations (David Broska, Michael Howes, and Austin van Loon, 2025)
Когнитивная психометрикаСегодня наш пост посвящен интересной и очень популярной сейчас теме – использованию больших языковых моделей (Large Language Models, LLM) в социальных науках. В начале 2025 года вышел довольно интересный препринт (The Mixed Subjects Design: Treating Large Language Models as Potentially Informative Observations David Broska, Michael Howes, and Austin van Loon) на эту тему. Авторы говорят о том, что в последние годы LLM, такие как ChatGPT, начинают активно использоваться в социальных науках — от генерации гипотез до проведения поведенческих экспериментов. Однако до сих пор остаётся открытым вопрос: можно ли использовать такие модели (вернее, данные, сгенерированные такими моделями и имитирующие ответы или поведение реальных участников) вместо людей в исследованиях, и если да, то как корректно это делать?
На практике LLM уже достаточно активно используют как замену респондентов: они дешёвые, быстрые, не устают и не требуют этического одобрения. Точное предсказание, а не наблюдение человеческого поведения может служить экономически эффективной и почти мгновенно доступной альтернативой непосредственному наблюдению. Такой подход к изучению социальных явлений известен как “silicon sampling” (Argyle et al., 2023).
Исследователи, которые сейчас используют данные, сгенерированные LLM для имитации человеческого поведения, опираются — явно или неявно — на то, что авторы называют допущением взаимозаменяемости, а именно на том, что данные, полученные от LLM, соответствуют человеческому поведению или ответам, полученным в опросе. Логика этого подхода заключается в том, чтобы рассматривать «кремниевых участников» так, будто они являются человеческими участниками. Это допущение дает корректные выводы только в том случае, если предсказанные ответы хотя бы в среднем дают ту же оценку параметра, что и данные от реальных людей.
К сожалению, накапливаются свидетельства того, что LLM неточно отражают человеческое поведение (например, Bisbee et al., 2024; Park et al., 2024; Takemoto, 2024). В частности, авторы препринта обращают внимание на следующие недостатки, выявленные в предыдущих исследованиях:
- Коэффициенты регрессии, рассчитанные на основе данных от LLM, могут быть смещёнными — то есть отличаться от тех, что получены на данных от людей. Это может привести к завышению эффекта или даже к противоположным по знаку выводам.
- LLM чаще воспроизводят ответы, типичные для развитых западных стран , чем для других регионов мира. Были также замечены гендерные и социально-экономические перекосы (например, эссе от LLM больше напоминают сочинения абитуриентов-мужчин из богатых районов) (Alvero et al., 2024). На более фундаментальном уровне до сих пор не ясно, в каких условиях можно доверять предсказаниям LLM без валидации с реальными участниками — оценки эффекта, полученные только от LLM, могут не воспроизводиться при проверке на людях.
- Предсказания LLM могут не только отличаться по значению от оценок с участием людей, но и казаться ложно точными. Одна из причин — ограниченная вариативность ответов LLM по сравнению с людьми. Это ведёт к тому, что стандартные ошибки коэффициентов оказываются заниженными. Таким образом, доверительные интервалы становятся слишком узкими, но центрируются на неправильных значениях. Это аналогично проблеме анализа «больших данных» из нерепрезентативных источников, где можно получить «точно неправильный» результат.
Даже в тех случаях, когда LLM действительно точно предсказывают поведение, отсутствуют универсальные процедуры, метрики и стандарты, позволяющие оценить, насколько приближение достаточно точно для использования в статистическом анализе. В настоящее время взаимозаменяемость предсказанного и наблюдаемого поведения оценивается эмпирически — в каждом конкретном случае. В результате silicon sampling дает минимальные практические выгоды, поскольку данные от реальных участников всё равно приходится собирать в достаточном объеме, чтобы подтвердить допущение взаимозаменяемости. Некоторые исследователи, таким образом, предлагают ограничить использование LLM-предсказаний предварительными этапами исследования, например, пилотными исследованиями с участием LLM для оценки предполагаемых размеров эффекта.
Чтобы учесть все указанные выше недостатки, авторы статьи предлагают новый подход — Mixed Subjects Design, или «смешанный дизайн участников». Суть подхода в том, чтобы включать как людей, так и ИИ в выборку, но не считать их равнозначными, а учитывать, что ИИ может давать информативные, но не идеальные ответы.
Путем сбора данных как от людей, так и от LLM можно определить, насколько LLM могут быть полезны для оценки параметров. Авторы демонстрируют, как реализовать этот подход с помощью Prediction-Powered Inference (PPI). PPI позволяет исследователям объединять наблюдаемое поведение человека с предсказаниями от LLM или других алгоритмов. В отличие от silicon sampling и простых методов импутации, PPI не предполагает, что предсказания точны, но обеспечивает корректные точечные оценки с более узкими доверительными интервалами по сравнению с оценками, основанными только на данных от людей. Таким образом, смешанный дизайн с PPI может предложить множество преимуществ silicon sampling, избегая его ограничений, мешающих использовать его в подтверждающих исследованиях.
Prediction-Powered Inference
PPI — это общий статистический подход для объединения выборки наблюдаемых данных (("золотого стандарта") с предсказанными сгенерированными данными для оценки широкого класса параметров. Этот подход корректирует оценку, полученную только по наблюдаемым данным, чтобы улучшить точность оценки параметров.
PPI вводит поправку для оценки параметров, рассчитанных на наблюдаемых данных, с учетом оценки параметров на сгенерированных данных и корреляции между наблюдаемыми и сгенерированными данными. Авторы расширяют идеи Angelopoulos и др. (2024), чтобы определить PPI-корреляцию — меру взаимозаменяемости человеческих и искусственных испытуемых. Более высокая корреляция означает большую точность оценки параметров. Также они предлагают учитывать корреляцию при расчёте эффективного объёма выборки. В отличие от silicon sampling, предполагающего, что общий объём выборки составляет n + N (число реальных + число сгенерированных данных), смешанный дизайн с PPI использует эффективный размер выборки, который рассчитывается с учетом корреляции между реальными и сгенерированными данными (технические детали можно посмотреть в препринте).
Реализация смешанного дизайна
Обычно реализация смешанного дизайна с PPI включает два этапа. Сначала исследователи проводят пилотное исследование с небольшой выборкой, чтобы найти оптимальное соотношение размеров выборок людей и LLM с помощью анализа мощности. Затем проводится подтверждающее исследование с этими размерами выборки для оценки параметров с помощью PPI.
Пилотное исследование предполагает создание шаблонов prompt’ов для LLM и продумывание «персонажей» для испытуемых (какими характеристиками должны обладать испытуемые, например, пол, возраст, СЭС и т.п.). Кроме того, для экспериментального дизайна в prompt также необходимо прописывать экспериментальные условия. Необходимо учесть, что люди и «силиконовые участники» должны быть набраны из одной и той же популяции.
Если в простом виде описать реализацию PPI, то этот подход может выглядеть так:
1) Собираются данные от людей (размеченные — есть и X, и Y, то есть предикторы и зависимая переменная (ответ)).
·2) Генерируются предсказания от LLM:
- Labeled data (размеченные данные) - на тех же входных данных (X), на которых уже есть человеческие ответы — это «пересекающаяся часть»,
- Unlabeled data - на новых данных (X), где человеческих ответов нет.
·3) Рассчитывается корреляция между ответами людей и предсказаниями LLM на пересекающихся примерах. Она отражает насколько хорошо LLM моделирует человеческое поведение.
·4) Затем строится специальная формула корректировки, в зависимости от того, какие параметры оцениваются. Например, корректированное среднее будет равно среднему, рассчитанному на наблюдаемой выборке реальных участников минус взвешенная разница средних, предсказанных на размеченных и неразмеченных данных.
Важные замечания
Использование LLM в социальных науках вызывает вопросы прозрачности и воспроизводимости. Поэтому авторы рекомендуют публиковать prompts и код взаимодействия с LLM, а также указывать точную версию модели и параметры.
Также они отмечают, что у смешанного дизайна есть ограничения, общие с классическими исследованиями с участием людей. Например, смещение в оценке по людям передаётся в PPI-оценку. Также есть вопросы внешней валидности — например, если часть популяции недостижима. Главная цель смешанного дизайна — снижение затрат при сохранении точности.
Авторы предлагают направления для будущих исследований. Во-первых, по их мнению, следует развивать PPI — например, расширять использование этого подхода за пределы линейных моделей (например, на survival-анализ). Также можно комбинировать несколько моделей предсказания для повышения точности. Во-вторых, они предлагают увеличение предсказательной силы при генерации «силиконовых участников», включая дополнительные данные — биографии, посты в социальных сетях и т. д.(это все должно быть включено в промпты).
В-третьих, они отмечают, что использование смешанного дизайн может позволить проводить масштабные исследования, которые были бы слишком дорогими, если бы опирались только на людей. Особенно это важно для проверок множественных гипотез, которые требуют огромных выборок.
Что вы думаете по этому поводу? Может у вас есть уже опыт использования данных «силиконовых участников»? Делитесь своими мыслями и опытом!
Препринт:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5133034
Упомянутые источники:
Angelopoulos, A. N., Duchi, J. C., & Zrnic, T. (2023). Ppi++: Efficient prediction-powered inference. arXiv preprint arXiv:2311.01453.
Alvero, A. J., Lee, J., Regla-Vargas, A., Kizilcec, R. F., Joachims, T., & Antonio, A. L. (2024). Large language models, social demography, and hegemony: comparing authorship in human and synthetic text. Journal of Big Data, 11(1), 138.
Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J. R., Rytting, C., & Wingate, D. (2023). Out of one, many: Using language models to simulate human samples. Political Analysis, 31(3), 337-351.
Bisbee, J., Clinton, J. D., Dorff, C., Kenkel, B., & Larson, J. M. (2024). Synthetic replacements for human survey data? the perils of large language models. Political Analysis, 32(4), 401-416.
Park, P. S., Schoenegger, P., and Zhu, C. (2024). Diminished diversity-of-thought in a standard large language model. Behavior Research Methods, 56(6):5754–5770.
Takemoto, K. (2024). The moral machine experiment on large language models. Royal Society open science, 11(2), 231393.