Генерализация данных - часть 0.1
Eugene IstominБерем книгу Б.Н. Малиновского "История вычислительной техники в лицах".
Понимаем, что уже 4-ый раз перечитываем - но контекст ооочень туго входит - история "разлома" десятков проектов рассказана очень ярко, но вот даты-люди-события - .... каша, в общем, в голове )
Но тут встречаем Наталию (интересная история, да? Как оказалось, у меня сейчас в технологической проработке Elixir-Telegram-бот Надя и семантический обработчик Наташа).
Аккуратно её просим нам помочь - и вуаля :)

Первое - простое. Эта книга про 1950-60 годы

Это - охваченность интересуемого времени. В этой книге ничего не рассказано о событиях раньше 1855 года

В середине книги дана большая выборка по уникальным событиям - то есть у автора тут история-на-истории, отсылка-на-отсылке

Список упоминаемых организаций

30 часто употребляемых фамилий
.....мммм... а нельзя ли "по-графичнее", что ли? =)
Можно =)

50 наиболее часто упоминающихся фамилий

50 наиболее часто упоминающихся организаций
А теперь, морталити:
1) создаём осознанную, человеко-понимаемую выборку по годам

2) разбиваем все страницы на "50"-страничные куски (аналогично 1 шагу)
3) Создаём запрос вида "дай мне уникальные вхождения по страницам"
Что получаем: "как-бы трёхмерный график" на плоскости

То есть, мы можем для каждого 50-страничного "куска" выделить, какие годы в него входили, отрисовать это всё на одном графике - и понять:
1) момент 1946 - 1952 отлично описан на первых 50 страницах
2) момент 1953 - 1962 - с сотой по 150-тую
Перестроив на основе этой гипотезы график - получаем "снимок" книги по пересечению "яркость освещения временного промежутка на страницах книги".

С воодушевлением, для проекта ConTextMe.