Школа Digital Humanities

Школа Digital Humanities

Библиотечная крыса

Наш тьюториал был анонсирован как “моделирование сюжета”, но на представлении оказалось, что кураторы поменяли тему и теперь это будет исследование читательского поведения на букмейте.

Я заявлялась на Стилометрию русской прозы, но не смогла пройти мимо такого шанса, у меня аж поджилки задрожали, когда я услышала тему - и мне повезло! Одна из слушательниц этого семинара захотела пойти на стилометрию, и мы с ней поменялись.


У Павла и Ксении были данные о читателях букмейта за 2015 год.

Что это были за данные?

Каждый раз, когда читатель касается экрана, находясь в приложении - по сути, “переворачивает” страницу, его действие записывается и записывается время, которое он провёл на этой странице. Это было названо сессией.

“Страница” - фрагмент текста объёмом 1000 символов.

Для упрощения расчёта данные были усреднены: была вычислена средняя скорость “среднего читателя” на странице, исходя из этого были определены два типа сессий:

  • Нормальная - скорость перелистывания страницы примерно равна средней скорости чтения, то есть при такой скорости мы считаем, что читатель нормально читает книгу;
  • Пролистывание - скорость перелистывания значительно выше средней скорости, мы считаем, что при такой скорости читатель не читает текст, а пролистывает, не глядя.

Также у нас был показатель “нетипичное время чтения” - он тоже был усреднённый, то есть мы считали, что есть типичное время (например, с 21 до 23 вечера), а есть нетипичное - например, с часа до 3 ночи. Гипотеза была такова, что если читателя очень захватила книга, он будет дочитывать и в нетипичное время, чтобы узнать, чем закончилось дело.

Пользователи, хоть и были усреднённые, различались по типу подписки и по полу.

Были выбраны пять романов:

Герой нашего времени

Мастер и Маргарита

Анна Каренина

Война и мир

Преступление и наказание

Нашей задачей было выяснить, как содержание текста влияет на поведение читателя.

Тексты наших романов были разбиты на те самые страницы по 1000 символов и каждой странице были сопоставлены данные о поведении читателей.


У нас было несколько гипотез, от чего может зависеть читательский интерес и как можно определить содержание текста.

1. Герои. Какие герои действуют на какой странице, как их наличие, отсутствие и взаимодействие влияет на читательский интерес.

2. Тональность текста: какая эмоция преобладает на странице.

3. Стилистика: длинные/короткие предложения, длинные/короткие слова, количество придаточных и т.п. Всё то, что называется словом “удобочитаемость”.

4. Тема произведения.

5. Семантическая разметка по word2vec.

Все предложенные типы анализа взяты из книги Мэтью Джокерса “Код бестселлера”, кстати, она совсем недавно вышла на русском!


Мне и моему напарнику достался анализ тональности.

За основу мы взяли словарь, разработанный лабораторией Линис: http://linis-crowd.org/

Он устроен так: каждому слову присвоен “индекс эмоциональности” - 0, +1 (положительная эмоция), -1 (отрицательная эмоция). Нули мы отбросили сразу, были ещё -2, видимо, это показатель силы отрицания, но мы решили этим пренебречь и оценивали только положительные и отрицательные эмоции.

Мы написали скрипт на питоне, который сравнивал каждую страницу текста с имеющимся словарём, и если в тексте находились слова из словаря, подсчитывал, сколько “положительных” слов и сколько “отрицательных” слов было на каждой странице. Разница между этим количеством показывала общую тональность страницы.

Вот график распределения тональности по страницам (можно приблизить и рассмотреть):


Дальше мы наложили наши показатели на данные о читательском поведении.

Составили матрицу читательского поведения, вот она


И оказалось, что корелляции слишком слабы, чтобы быть хоть как-то показательными. Таким образом, по нашему анализу получилось, что пролистывает читатель страницу или читает - не зависит от тональности страницы.

Анализ распределения героев и диалогов по страницам дал примерно тот же результат.

Коллеги на семинаре по анализу мотива пользовались теми же фрагментами по 1000 знаков при анализе текстов, и были некоторые интересные совпадения между тональностью и мотивами, но это нужно смотреть подробнее.

Какие тут можно сделать выводы:

  1. Общая проблема словарей эмоций и метода анализа тональности в том, что слово само по себе не несёт достаточной эмоции, чтобы однозначно интерпретировать её. Например, любовь: явно эмоция, но какая? Положительная или отрицательная? (дьявольская любовь) Нужен контекст, чтобы более точно интерпретировать, какие именно эмоции содержатся на странице.
  2. Читатель был слишком усреднённый. Распределение по группам, а также взаимосвязи с общим количеством прочитанного, предпочитаемым жанрам и тп. дадут более ясную картину. Индивидуальные интересы читателя более показательны и больше влияют на поведение, чем средний читатель.
  3. Слишком мелкая разбивка по фрагментам. Когда мы читаем книгу, мы не делим её механически на страницы по 1000 знаков, нужно анализировать смысловые сегменты книги (главы, подглавки).

Что можно сделать ещё:

  1. Соотнести данные о тональности по страницам с разбиением по мотивам - этим занимались наши коллеги в соседнем семинаре.
  2. Соотнести данные по тональности с героями - какие герои с какой эмоцией ассоциируются.
  3. Проанализировать поведение читателя на более крупных смысловых фрагментах.
  4. Проанализировать читаемость, стиль, короткие/длинные предложения и соотнести их с данными о поведении читателя.

Какие ещё показатели читательского поведения можно и нужно анализировать, исходя из функционала букмейта:

  1. Дочитал/не дочитал книгу;
  2. Количество оставленных отзывов (а в перспективе - и смысловой их анализ);
  3. Оценка книги: выставил/не выставил и какую (и опять же, распределение по негативным/позитивным);
  4. Цитаты: сколько цитировал и что;
  5. Долгие перерывы между чтением одной и той же страницы - бросание/возвращение к тексту, соотнести их с данными о дочитанности книг;
  6. Перелистывание страниц назад, возвращение к одним и тем же фрагментам текста.

Также очень интересно было бы проанализировать статистику читаемости по жанрам и сопоставить это со статистикой самиздата.


В общем, перед методами цифрового анализа гуманитарных произведений открываются блестящие научные перспективы. Самое главное - та информация, которую мы сможем получить, совершенно была невозможна ранее: как подсчитать, сколько действительно дочитывает Войну и Мир, или выяснить с достоверностью - действительно ли девочки пропускают войну, а мальчики - балы :) Такой анализ очень много может сказать о восприятии литературы, о стилистических тенденциях (большие данные действительно меняют картину), о месте книги в современном обществе и отчасти о состоянии умов. Очень многие подобные исследования могут иметь коммерческие последствия: например, составление рекомендательного сервиса.


В заключение хочу попросить - если вы осилили этот текст (спасибо!), поделитесь своими соображениями со мной? Что понравилось, что нет, с чем согласны, с чем нет.

Личка указана в профиле канала.

Спасибо!