Data-журналист

Data-журналист

Взгляд изнутри

Как я поменял работу и ушел в data-журналистику

Привет, меня зовут Борис и я дата-журналист. В предпенсионном возрасте (41 год) я радикально поменял сферу деятельности, разобрался с основами статистики и анализа данных, научился писать код и облекать свои выводы в человекопонятную форму.

С юности во мне была тяга к исследованиям. Я не только поступил, но и закончил истфак МГУ с красным дипломом. Потом одумался и попытался сделать нормальную карьеру. Сначала — стереотипным сисадмином в толстом благоухающем свитере. Но быстро эволюционировал в проджект-менеджера и интернет-маркетолога, занимался созданием сайтов, SEO и контекстной рекламой. Стал прилично выглядеть, зарабатывать неплохие деньги, спать по 8 часов в день, ходить в спортзал и завел кучу непрофильных хобби.

Однако что-то было не так, подобно Джону Коннору из провальной франшизы я жил с ощущением, что рожден для чего-то большего. Когда меня спрашивали, чем я занимаюсь, мялся и говорил: «Ищу себя, а зарабатываю… так, в Интернете, всяким». Поэтому все предсказуемо закончилось в один момент: я обнулился до того, как это стало мейнстримом — на самом деле, меня выгнали.

Несколько лет я действительно «искал себя», точнее, новую, «идеальную» для себя профессию. Пытался фотографировать, водить экскурсии, освоить разработку мобильных приложений на Java. Параллельно сменил десяток работ: от курьера и госслужащего до корректора и эксель-аналитика.

В сторону журналистики я смотрел давно, проходил какие-то бесплатные курсы, что-то писал. Но в классической профессии мне не хватало основательности. В 2019 году спонтанно записался на курс Нетологии по визуализации данных. У меня были свободные деньги, 75 вечеров, 2 скидки от Нетологии и бесконечное множество сомнений и скепсиса. В итоге, не пожалел.

Во-первых, курс читали, как я теперь понимаю, одни из лучших русскоязычных специалистов по визуализации — Александр Богачев, Вадим Шмыгов и Надежда Адрианова.

Во-вторых, я, наконец-то, понял, что хочу заниматься журналистикой данных. Курс не дал всех нужных мне навыков, но заложил основы и показал направление.

Я начал несколько больших проектов. Опыта мне не хватило, поэтому 75% (3 из 4) так и умерли, не родившись. Пока я над ними работал на Нетологии появился курс «Журналистика данных». Посмотрев, что там дают и кто преподает, скрипя зубами достал «гробовые» деньги (тем более, я уже завещал свой труп науке).

В итоге, на курсе я сделал совершенно другой проект, который не стыдно показать, и который опубликовала Strelka Mag. Это «часть сделки»: кроме лекций и домашек, мы должны сделать материал, который «возьмет» большое СМИ. Мои сокурсники, например, опубликовались в Проекте.Медиа.

Что такое data-журналистика и чем мы занимаемся

Есть уже классическое определение data-журналистики, взятое из англоязычной литературы: «истории, рассказанные на данных». Оно не то чтобы неверное, оно слишком буквально переведенное, а потому непонятное для неподготовленного человека.

«Истории» (story) — это и репортаж, и повествование, и отдельное наблюдение или вывод. «Рассказанные на данных» — не означает обязательного повествования по всем законам драмы. Карта истории московских домов или шумового загрязнения — это тоже журналистика данных. Многочасовое исследование на выходе иногда превращается в одну-единственную лаконичную диаграмму. И это тоже журналистика данных и тоже «рассказанная на данных».

Наконец, «данные» — это самое простое и однозначное понятие и в анализе, и в журналистике, но большинство людей о нем не знает. Данные в нашем случае — машиночитаемое описание объектов по каким-либо признакам. Грубо говоря, это таблица в «плоском» формате, то есть по строкам которой лежат объекты, например, регионы, по столбцам — признаки или показатели, например, потребление сахара на душу населения по годам.

Потребление сахара на душу населения

Первая и часто главная задача дата-журналиста — найти данные, проверить на корректность и ошибки. Прописная истина анализа: «мусор на входе, мусор — на выходе». Данные по потреблению сахара — это пример хороших данных. В большинстве случаев мы имеем дело с «грязными» данными, то есть неполными, некорректно собранными, с кучей ошибок. Например, реестр объектов культурного наследия МинКульта с формальной стороны — образцовый датасет, но внутри там бардак и хаос: куча дублей, ошибок, нет единой унифицированной системы написания дат (XIX век может обозначаться как XIX, 19 в., XIX-й век и т.п.). Одних данных просто нет, а другие не выкладываются, хотя должны, в таком случае их можно запросить. Третьи не обрабатываются и не агрегируются в нужном разрезе. Например, преступность по муниципальным районам или данные по количеству автодорог федерального и регионального значения по тем же муниципалитетам. В этом случае нам придется собирать и агрегировать их самим. Некоторые данные просто не собираются или собираются не в том виде, не с той периодичностью и так далее.

Кроме государственных открытых данных, есть гигантский пласт общедоступных и коммерческих данных. Общедоступные лежат вокруг нас — в Интернете и офлайне: это комментарии, аккаунты социальных сетей, тексты и остальное. Первый этап — придумать, как собрать эти данные или найти того, кто их собрал. Коммерческие — это петабайты данных о нас, которые собирают все кому не лень. Иногда можно договорится и что-то получить для исследования.

Второй этап вытекает из первого нужно очистить и привести данные к машиночитаемому виду. По сути, большую часть времени дата-журналист занимается именно этим, тащит все, что плохо и хорошо лежит и стирает. В этом плане мы ничем не отличаемся от обычного аналитика или енота.

Иногда, но не так часто, очищенные данные нужно дополнительно агрегировать и анализировать. Обычно это самый простой анализ (exploration data analysis, EDA): посмотреть среднее значение, медиану, как меняется переменная со временем и так далее. Мы редко строим регрессионные модели или просто используем критерий Т-стьюдента.



Хотя, на мой взгляд, методы машинного обучения, особенно обработка естественного языка, полезны и в журналистике. Более того «ML-журналистика», назовем ее так, будет интересна и обычному читателю, а не только гикам и ботанам.

Последний этап — визуализация и текст. Никакой самый сложный анализ не заменит собственно журналистику. Материал делается для читателя и должен быть максимально простым и читабельным. Вся техническая часть сокращается и прячется в секретный раздел, читателю остаются красивые картинки, броские заголовки и выводы.

Все-таки мы журналисты

Несмотря на все, что я сказал выше, мы не сильно отличаемся от обычных журналистов. В идеале, я занимаюсь только поиском и анализом данных: не беру дурацкие интервью, даже в страшном сне не читаю пресс-релизы, не обращаю внимания на слухи и тому подобное. Пока я так и делаю, но это не значит, что так и будет дальше.

Откройте издания, которые любят и ценят дата-журналистику — Важные истории, Медиа.Зону, Новую газету, Проект.Медиа. Это прежде всего качественная журналистика, с красивой и понятной графикой, аккуратными выводами. Там нет ни страшных бокс-плотов, ни сложных моделей, ни псевдо-дегуманизации текста.

Приведу два примера, работы, которые я считаю образцовыми:

  1. Материал Дады Линделл о постоянном перекладывании асфальта в Москве.
    Исследовательница выгрузила данные по ремонтам дорог, наложила их на карту и подтвердила то, что мы давно подозревали — в Москве ремонтируют одни и те же дороги, хотя никаких формальных оснований для этого нет. Дальше идет уже «нормальная» журналистика: почему так происходит и что с этим делать.
  2. Работа Любови Поповец «Меню русской литературы». Это хороший пример развлекательной журналистики данных. Авторка взяла тексты классической русской литературы и сделала частотный анализ, то есть нашла наиболее часто упоминаемые блюда. А дальше, как говорят редакторы, «красиво упаковала» данные, то есть «снизошла» до обычной журналистики.

Как научиться журналистике данных

Я выбрал самый простой и короткий способ — курс Нетологии «Дата-журналистика».

Рассуждал так:
— Мне за 40, я гуманитарий, работал совершенно в других сферах;
— Нужно получить новые навыки и быстро войти в профессию;
— Если я пойду на курс, назад дороги не будет, свернуть я уже никуда не смог;
— В итоге я, наконец-то, сделаю полноценный материал, который можно опубликовать в медиа.

Были сомнения:
— Это первый поток, а первый блин всегда всмятку (к счастью, обошлось без блинов);
— Не справлюсь с Python (оказалось, все просто);
— Может, как-то самому потихоньку («потихоньку», это как раз было бы к пенсии).

Не скажу, что курс идеален, есть куда развиваться. Но в этом плане Нетологию можно только похвалить. Всегда следят за качеством, улучшают программу, если на какой-то теме народ спотыкается, добавляют на следующий поток часы, а на текущем организуют дополнительные занятия. У нас в общей сложности было 5 занятий по Python и Tableau. Одно из них, специально для журналистов, по парсингу.

Главное, курс Нетологии по «Журналистике данных» единственный полноценный негосударственный курс. После окончания которого вы даже получаете диплом государственного образца. Других больших курсов скорее всего не будет лет 5-10. Хороших дата-журналистов, которые еще и преподают, не так много. И они все уже на курсе Нетологии.

Наверное, можно получить все навыки самостоятельно. Сейчас море информации: бесплатные курсы, лекции, мастер-классы, книги. Особенно если вы бог-сатана в тайм-менеджменте, то есть можете организовывать свое время так, чтобы успевать все, умеете сами себе ставить дедлайны и соблюдать их, не бросать задачи на середине.

Есть еще магистратура в Вышке. Но высшее образование в этой сфере немного устарело в плане профессиональных навыков. В вузах слишком много ненужной бюрократии и ненужных предметов. Конечно, если вы молоды, у вас есть 2 свободных года и не надо кормить 40 кошек, то это тоже хороший способ освоить профессию. Но если вы старше 25, лучше идите на курсы.

Какие навыки нужны дата-журналисту

  1. Критическое мышление. Как говорил старина Карл Маркс: «Во всем сомневайся».
  2. Умение гуглить, спрашивать и договариваться. Как и всем журналистом, только мы ищем сырые данные, поэтому иногда придется еще и парсить (автоматизировано собирать данные с сайтов).
  3. Основы статистики и анализа данных (на базовом уровне).
  4. Основы баз данных. Скорее всего, вам никогда не придется писать сложные SQL-запросы, но вы должны понимать как хранятся данные и как устроены базы данных в общих чертах.
  5. Эксель или Гугл-таблицы. Формулы для работы с текстом, ВПР (поисковая функция в таблицах) для базового статистического анализа.
  6. Продвинутые инструменты — Python, Tableau, Qlik Sense — не обязательны. Но рано или поздно вы к ним придете, они сильно упрощают работу.
  7. Визуализация. Журналистика данных, в каком-то смысле, выросла из инфографики. Без красивых и понятных графиков вы не выживите.
  8. Сторителлинг. К сожалению, анализ и диаграммы сами по себе увлекательный текст не напишут.

Что делать, чтобы стать дата-журналистом

Прежде всего, сделайте простое упражнение: придумайте сходу 10 материалов, которые вы хотели бы сделать; проверьте, делал ли кто-то материал на эту тему; попробуйте найти нужные данные (или понять, где они могут быть); посчитайте, сколько времени и ресурсов займет каждый материал.

Возможно, после этого упражнения вы передумаете. Если нет, то рекомендую курс Нетологии «Журналистика данных» или хотя бы его главную часть — «Дата-сторителлинг».

Что читать, чтобы стать дата-журналистом

Про критическое мышление и культуру данных:
— Дарелл Хафф, «Как лгать при помощи статистики». Если вы еще не читали эту древнюю книгу (первое издание вышло в 1954), вы просто обязаны это сделать.
— Ханс Рослинг, «Фактологичность», 2020.

Про статистику и анализ:
— Сара Бослаф «Статистика для всех», 2015.
— Владимир Савельев, «Статистика и котики», 2017.

По визуализации:
— Александр Богачев, «Графики, которые убеждают всех», 2020.

Для общего развития:
«Системный блок» — журнал про цифровые технологии в гуманитарных исследованиях. Журнал делает и републикует материалы, которые можно отнести к журналистике исследования. Несмотря на все усилия, портал больше для гиков.

Что смотреть, чтобы стать дата-журналистом

Канал Инфокультуры на YouTube: кейсы про открытые данные, ML в журналистике и работе НКО.

Если вы решите учить Python или R (язык программирования для анализа данных), разобраться с машинным обучением хотя бы в теории, рекомендую повторить школьную математику за 9-10 классы. Матанализ вам не нужен, но будет не лишним вспомнить про теорию вероятностей, теорему Пифагора, математическую (булеву) логику и что такое функция. Писать код можно и без этого, но с математикой становится понятнее.

Будущее журналистики данных

Реальный спрос на аналитику данных есть, но пока ограниченный. Штатных вакансий мало, чаще ищут дизайнеров инфографики. Скорее есть интерес: редакции ищут новые форматы, хотя не все понимают, что такое журналистика данных, зачем она нужна и почему она столько стоит. Найти проект под себя можно. Правда, за полгода, помимо «мелкой» инфографики и смежной работы, нашел немного. Приложил руку к двум большим материалам «Москвича Mag», сделал пару проектов «в стол» и сейчас делаю проект для одного нового медиа. Но, стоит учесть, это были не совсем полноценные полгода: надо было закрыть долги по старой работе, и месяц я отдыхал из-за коронавируса.

Уверен, что в ближайшие пару лет журналистика данных станет новым стандартом и спрос вырастет. Кроме того, меняется сам рынок. «Старые» медиа (газеты и журналы) теснят новые — телеграмм-каналы и блогеры. Появилась гражданская журналистика, которую напрямую поддерживают читатели. Наши навыки могут быть востребованы и в стартапах, и в проектах НКО, и много где еще. Если мне интересен сам проект, то нет разницы, для кого я его буду делать — для газеты, телеграмм-канала или НКО.

Однако не стройте иллюзий: денег в медиа меньше, чем в «большом» IT. Мы никогда не будем получать столько, сколько сеньоры и даже продвинутые мидлы в Data Science или BI-аналитике. Я к этому отношусь спокойно, мне важнее получать удовольствие от работы и делать то, что мне интересно.


Подписывайтесь на канал "Взгляд изнутри" и делитесь статьей с друзьями

Report Page