Генерализация данных - часть 0.1

Генерализация данных - часть 0.1

Eugene Istomin


Берем книгу Б.Н. Малиновского "История вычислительной техники в лицах".

Понимаем, что уже 4-ый раз перечитываем - но контекст ооочень туго входит - история "разлома" десятков проектов рассказана очень ярко, но вот даты-люди-события - .... каша, в общем, в голове )


Но тут встречаем Наталию (интересная история, да? Как оказалось, у меня сейчас в технологической проработке Elixir-Telegram-бот Надя и семантический обработчик Наташа).
Аккуратно её просим нам помочь - и вуаля :)


Первое - простое. Эта книга про 1950-60 годы


Это - охваченность интересуемого времени. В этой книге ничего не рассказано о событиях раньше 1855 года


В середине книги дана большая выборка по уникальным событиям - то есть у автора тут история-на-истории, отсылка-на-отсылке


Список упоминаемых организаций


30 часто употребляемых фамилий


.....мммм... а нельзя ли "по-графичнее", что ли? =)

Можно =)


50 наиболее часто упоминающихся фамилий


50 наиболее часто упоминающихся организаций



А теперь, морталити:


1) создаём осознанную, человеко-понимаемую выборку по годам

2) разбиваем все страницы на "50"-страничные куски (аналогично 1 шагу)

3) Создаём запрос вида "дай мне уникальные вхождения по страницам"

Что получаем: "как-бы трёхмерный график" на плоскости




То есть, мы можем для каждого 50-страничного "куска" выделить, какие годы в него входили, отрисовать это всё на одном графике - и понять:

1) момент 1946 - 1952 отлично описан на первых 50 страницах

2) момент 1953 - 1962 - с сотой по 150-тую


Перестроив на основе этой гипотезы график - получаем "снимок" книги по пересечению "яркость освещения временного промежутка на страницах книги".




С воодушевлением, для проекта ConTextMe.


Report Page