Генерализация данных - часть 0.1

Eugene IstominNovember 01, 2017

Генерализация данных - часть 0.1

Берем книгу Б.Н. Малиновского "История вычислительной техники в лицах".

Понимаем, что уже 4-ый раз перечитываем - но контекст ооочень туго входит - история "разлома" десятков проектов рассказана очень ярко, но вот даты-люди-события - .... каша, в общем, в голове )

Но тут встречаем Наталию (интересная история, да? Как оказалось, у меня сейчас в технологической проработке Elixir-Telegram-бот Надя и семантический обработчик Наташа).
Аккуратно её просим нам помочь - и вуаля :)

Первое - простое. Эта книга про 1950-60 годы

Это - охваченность интересуемого времени. В этой книге ничего не рассказано о событиях раньше 1855 года

В середине книги дана большая выборка по уникальным событиям - то есть у автора тут история-на-истории, отсылка-на-отсылке

Список упоминаемых организаций

30 часто употребляемых фамилий

.....мммм... а нельзя ли "по-графичнее", что ли? =)

Можно =)

50 наиболее часто упоминающихся фамилий

50 наиболее часто упоминающихся организаций

А теперь, морталити:

1) создаём осознанную, человеко-понимаемую выборку по годам

2) разбиваем все страницы на "50"-страничные куски (аналогично 1 шагу)

3) Создаём запрос вида "дай мне уникальные вхождения по страницам"

Что получаем: "как-бы трёхмерный график" на плоскости

То есть, мы можем для каждого 50-страничного "куска" выделить, какие годы в него входили, отрисовать это всё на одном графике - и понять:

1) момент 1946 - 1952 отлично описан на первых 50 страницах

2) момент 1953 - 1962 - с сотой по 150-тую

Перестроив на основе этой гипотезы график - получаем "снимок" книги по пересечению "яркость освещения временного промежутка на страницах книги".

С воодушевлением, для проекта ConTextMe.

Report content on this page