"The Bestceller Code"

“Код бестселлера”. Введение

Эта научно-популярная книга посвящена очень важному направлению в современных гуманитарных исследованиях: цифровой гуманитаристике. Это новое направление, которое появилось несколько лет назад; только с переводом текстов в цифровой вид стали возможны такие исследования. Это очень перспективно; использование компьютерного анализа текстов даёт нам новые возможности по изучению читательского опыта, для количественных методов в гуманитарных науках, для выявления закономерностей, ускользающих от взгляда исследователей на текстах небольшого размера.

В русском языке нет устоявшегося перевода для Digital Humanities, поэтому в тексте будут расхождения и иногда я буду использовать английский термин.

Digital humanities - это изучение памятников культуры с помощью компьютерных технологий, прежде всего - изучение текстов. Для литературоведения это значит вот что: человек за свою жизнь прочитывает конечное количество книг. Компьютер в состоянии прочитать в десятки тысяч раз больше и на большом количестве данных заметить такие закономерности, которые невозможно выявить на отдельных произведениях или на небольшом количестве произведений.

Основа цифрового анализа текстов - компьютерная лингвистика. Чтобы запрограммировать компьютер на чтение и понимание текста и поиск закономерностей, нужно сначала научить его понимать текст, написанный на естественном языке. Это не так просто, как кажется. Помимо разбора грамматической структуры - деление на части речи, число, падежи - сложность в том, что значение слова часто определяется контекстом (произнесите про себя фразу “Он увидел их сем(ью) своими глазами”), и в тексте невозможно установить значение слова, не учитывая соседние предложения или не используя какую-то внетекстовую информацию.

С точки зрения компьютера литературное произведение - это набор слов, и для того, чтобы он был правильно понят, в алгоритм вводится внешняя информация - разметка, метаданные. И на основе этой информации - внутритекстовой и внетекстовой - уже строится анализ текста. Конечно, можно использовать такой алгоритм и для исследования небольшого количества текстов, но лучше всего этот метод работает на больших данных, на собраниях текстов - корпусе.

Именно на этом подходе и строится “Код бестселлера”. Исследователи взяли несколько десятков тысяч параметров, взяли 20 000 романов из списка бестселлеров New York Times и прогнали их тексты через свой алгоритм, учитывающий эти параметры. Их целью было выяснить, есть ли такие характеристики, которые гарантированно сделают книгу бестселлером, и на основании этих характеристик научить свою модель определять, станет ли проанализированная книга бестселлером или нет. Исследование длилось пять лет; в конце концов у Арчер и Джокерса всё получилось. Их модель научилась рассчитывать вероятность попадания книги в бестселлеры New Yorks Times, и её предсказания совпадали с реальностью.

Это исследование является своего рода эталоном для цифровой гуманитаристики, наработки Арчер и Джокерса, можно развить во множестве направлений.

Параметры, по которым авторы анализировали тексты, разбиты на четыре группы:

Тема

Сюжет/конфликт/тональность (sentiment) произведения

Стиль

Герои и их агентивность.

Из этих групп самой для меня нераскрытой осталась sentiment, но об этом - в следующей статье.

@Sence_catcher

"The Bestceller Code"

Report Page