Числа сами себя не посчитают

Числа сами себя не посчитают

Insider.uz
Эмиль Фахреев, учредитель и исполнительный директор РА «Скарларис Медиа», финансист, айтишник, международный тренер и специалист по визуализации данных.

Журналистика данных — это отдельное направление в современной журналистике. Ее задача — создание материала на основе обработки и анализа данных. Ее развитие имеет прямое отношение к развитию технологий, способствующих обработке больших объемов, данных и их хранению. Основное отличие направления от привычных журналистских статей — использование хронологических графиков, интерактивных карт, диаграмм и другой инфографики. Это помогает визуализировать и понятно донести до читателей большие объемы информации.

- Эмиль, где Узбекистан находится на шкале по открытости данных?

- На очень хорошей позиции. Мы вошли в ТОП-10 стран, которые предоставляют миру наибольшее количество открытых данных.   Сегодня Узбекистан представляет 52 источника, транслирующие эти данные. Этот необычный взлет в рейтинге объясняется тем, что мы долгое время были закрытой страной, статистика была неверной даже для внутреннего использования. И тут, за каких-то пару лет мы открыли миру множество позиций, по которым они могут нас читать. Понятно, что это не могло не отразиться на рейтинге. Мы из каменного века шагнули в третье тысячелетие двумя шагами.

США — 642 источника.

Франция — 353 источника.

Испания — 309 источников.

Канада — 121 источник.

Великобритания — 105 источников.

Австралия — 102 источника.

Германия — 81 источник.

Италия — 59 источников.

Узбекистан — 52 источника.

Австрия — 51 источник.

Open Data Inception — это полный список из более чем 2600 порталов открытых данных, разработанных Open Data Soft.

- Какие темы больше всего интересуют тех, кто пользуется сведениями о нас?

-Если говорить о внутреннем майнинге данных, то это чаще всего это статистика для дипломных работ и других научных изысканий. Мир интересует инвестиционный климат: это недвижимость, строящиеся объекты, бизнес, геология, сырье и так далее. Все, что помогает сформировать картину для инвестиций. На сайте data.gov.uz  эти данные предоставляют 132 узбекистанские организации.

Часть открытых ресурсов:

Портал открытых данных Узбекистана

Единый портал государственных услуг

Реестр юридических лиц (поиск по ИНН)

Фондовая биржа

База обсуждения НПА

Открытый бюджет

База законодательства

Официальная статистика по стране

Госзакупки

Реестры по здравоохранению 

Статистика по здравоохранению 

Банк судебных решений

-Насколько правдоподобно?

- Достаточно правдоподобно, и динамика растет. За точностью и оперативностью стоит Узинфоком и ГосСтат, на них лежит ответственность за пополнение сайт сведениями.  

Существуют четыре основные категории типов данных. Открытые, чувствительные, персональные, поведенческие.  Часть из них собирают коммерческие структуры, чтобы строить стратегии продвижения, часть находится в закрытом доступе, это персональные данные, которые нельзя разглашать, часть в частично закрытом доступе. Например, криминальная статистика может не содержать в себе некоторых сведений, - разбивку преступлений по районам, например. Это из соображений этики. Так же к чувствительным данным относятся религия, гендер, раса и многое другое, что предназначено только для внутреннего использования профильных институтов.

- Чем можно объяснить любовь к графикам? Люди хотят видеть наглядное изображение некоего неравенства или динамику роста?

- Дата-журналистика достаточно старый предмет, журналисты всегда пользовались статистикой, для написания статей. Отдельной дисциплиной она стала году в 2010, когда появилась возможность машинного построения и визуализации графиков для любого пользователя. Инструменты стали более понятными и легкими. Но именно сейчас это стало актуальным, поскольку большинство людей не читают дальше заголовка, к сожалению. Мозг обрабатывает картинку в 60000 раз быстрее, чем текст. Покажите одной картинкой, например, количество разводов в прошлом и в текущем году, этого достаточно, чтобы у человека сложилось впечатление, что институт семьи разрушается.

- Это не очень хорошо, с точки зрения популярности фейков. Одна картинка может дать неверное представление о чем то, и разрушить потом эти данные сложно.

- Безусловно. Правила фактчекинга – проверять информацию как минимум в трех источниках, работает только для СМИ, большинство людей вряд ли будут перепроверять информацию. Запомнят то, что дали.

Например, недавно Никита Макаренко опубликовал пост о том, что в Твиттере ходит картинка расположения военных американских баз вокруг Ирана. Две из них оказались в Чирчике и Ханабаде, где уже десять лет нет никакой базы. В Чирчике никогда и не было.

https://t.me/makarenko_channel

Но мы знаем, что это неправда, у нас есть возможность по двум неточностям определить график как фейковый. У других людей этой возможности может не быть.  Но от недобросовестной журналистики и фейк-мейкеров мы уже не избавимся. В эпоху социальных сетей, когда каждый может выдать новость это нереально. 

Поэтому надо надеяться только на собственную возможность соображать логически, если не хочешь быть обманутым. И очень серьезно надо относиться к инфографике, как к информации, которая входит в мозг мгновенно. 

- То есть фейк ньюс нашли новый эффективный способ сеять неразумное и недоброе?

-Именно так. Инфографика похожа на тексты опинион-лидеров. То есть многие говорят о каком то событии, но только информация от тех, кто умеет правильно преподносить факты и задевать эмоции - выстреливает. Привлекает внимание. Инфографика - это картинка-восклицательный знак. Она кричит, а эмоции продвигают любые идеи. 

Тем более, надо учесть, что дата-майнинг сейчас это не занятие для избранных. Видео, как сбили украинский самолет в Иране, появилось в сети очень оперативно и быстро. Сайт BellingCat связался с автором и подтвердил его подлинность, на основе мета-данных. Что это за сайт? В основном он публикует инсайдерские данные, которые были либо украдены, либо проданы.

Технология обмана совершенствуется с каждым днем. Старые методы уже могут не сработать, но появляются новые.  Samsung в прошлом году презентовала нейросеть, которая может оживить и озвучить фотографию, и ее будет сложно отличить от оригинала. Другими словами, сейчас, чтобы кого-либо “подставить”, достаточно будет лишь фотографии.

К сожалению, большинство людей, как и в прежние времена, живет эмоциями и не задействует логические участки мозга.  

 - Опасный инструмент для манипулирования. Так может лучше все закрыть и спрятать, пока все не научились?

- Нет, открытые данные это развитие демократических институтов. Это тот самый случай, когда правительство сигнализирует, что у него нет секретов от своих граждан. Что все, что вам интересно, находится в открытом доступе, и любую информацию можно перепроверить. Например, в развитых странах можно узнать даже количество открыток, подписанных мэрией на новый год своим сотрудникам. И сколько денег налогоплательщиков они на это потратили. Чем больше открытости, тем меньше поводов для манипулирования мнением.

- Насколько запаздывают наши данные? Запаздывать - это нормально?

- Наши данные выдаются каждый квартал, некоторые из них и ежемесячно и это оперативно. Например, сведения у Всемирного банка о нашей стране -  более чем двухгодичной давности, а у нас многое выкладывается каждый квартал. Помнишь статистику на Новый год? Сколько мальчиков и девочек родилось 1 января? Это очень оперативные данные. Мы сейчас, уже можем смотреть данные за третий квартал 2019 года. За многими сведениями вообще можно наблюдать в режиме реального времени, и скорость подачи будет только увеличиваться.

- Но только не хокимиат. На запросы они молчат месяцами.

- Тут дело не только в оперативности, но и в наличии специалистов и самой системы сбора данных. То есть хокимиат принимает запрос, но не знает, что с ним делать, кому адресовать и у кого брать сведения. Возможно, нет централизованной системы сбора информации. Многое зависит от конкретных департаментов, у которых находятся эти сведения, а возможно, некоторые из них и не считают ничего. Возможно существует какие-то негласные запреты на распространение определенных данных. Но все это временное явление, рано или поздно наладится. Желательно, чтобы пораньше.

- Какую глобальную выгоду можно извлечь из дата-майнинга для журналистов?

- Как я уже сказал, развитие демократии. Такой долгосрочный прицел. Например, на одном из аргентинских ресурсов стали публиковать информацию о благосостоянии чиновников. Была подсчитана вся их недвижимость, машины, активы. Наглядная картинка к росту коррупции в стране. Это был очень сильный момент, который чуть не  спровоцировал  революцию. Народ потребовал  от чиновников умерить свои аппетиты. Имидж многих борцов за справедливость пошатнулся.

Есть украинская часть сервиса CityScale основанная на открытых данных OpenStreetMap, которая прекрасно заполнена. Открытые карты -  это глобальный ресурс, который заполняют сами пользователи. В Украине она очень плотная, там есть все, от недвижимости до остановок, от криминальных сводок до демографии. Такую же карту можно заполнять и нам. Быстрее всего это освоит бизнес, как только кто-нибудь начинает заполнять свои точки, например, девелопер новостройки, то конкуренты ненадолго дадут ему это преимущество. Сложнее с социальными данными. Но они тоже начнут заполняться.

https://www.cityscale.com.ua/index.htm

На основе этих сведений можно делать отличные журналистские расследования, понимать, что и как происходит. Брать доказательства и подтверждения своим выкладкам.

- А какова твоя глобальная цель? Ты учишь дата-майнингу бесплатно, в рамках проекта.

- Прежде всего, если хочешь сам  научиться, учи.  Это очень большая, интересная лично для меня тема. И второе, сформировать комьюнити, которое будет уметь пользоваться открытыми данными и всеми нужными инструментами, от таблиц exсel до специальных приложений и сайтов.   Это не очень сложно, все знания распространяются по принципу пандемии, когда кто-то знает, а ты нет. А это как раз таки тот самый путь к цивилизованной стране, в которой мне хочется жить. Как и всем остальным. 


13-15 января в отеле Хилал ( Чиланзар Ц кв. Ул.Катартал 28 ) будет проходить тренинг по визуализации данных. Записаться и узнать подробности можно по ссылке приглашению:

Начало регистрации 9:30

https://t.me/dj_Tashkent

Геолокация