Data-журналист

Как я поменял работу и ушел в data-журналистику

Привет, меня зовут Борис и я дата-журналист. В предпенсионном возрасте (41 год) я радикально поменял сферу деятельности, разобрался с основами статистики и анализа данных, научился писать код и облекать свои выводы в человекопонятную форму.

С юности во мне была тяга к исследованиям. Я не только поступил, но и закончил истфак МГУ с красным дипломом. Потом одумался и попытался сделать нормальную карьеру. Сначала — стереотипным сисадмином в толстом благоухающем свитере. Но быстро эволюционировал в проджект-менеджера и интернет-маркетолога, занимался созданием сайтов, SEO и контекстной рекламой. Стал прилично выглядеть, зарабатывать неплохие деньги, спать по 8 часов в день, ходить в спортзал и завел кучу непрофильных хобби.

Однако что-то было не так, подобно Джону Коннору из провальной франшизы я жил с ощущением, что рожден для чего-то большего. Когда меня спрашивали, чем я занимаюсь, мялся и говорил: «Ищу себя, а зарабатываю… так, в Интернете, всяким». Поэтому все предсказуемо закончилось в один момент: я обнулился до того, как это стало мейнстримом — на самом деле, меня выгнали.

Несколько лет я действительно «искал себя», точнее, новую, «идеальную» для себя профессию. Пытался фотографировать, водить экскурсии, освоить разработку мобильных приложений на Java. Параллельно сменил десяток работ: от курьера и госслужащего до корректора и эксель-аналитика.

В сторону журналистики я смотрел давно, проходил какие-то бесплатные курсы, что-то писал. Но в классической профессии мне не хватало основательности. В 2019 году спонтанно записался на курс Нетологии по визуализации данных. У меня были свободные деньги, 75 вечеров, 2 скидки от Нетологии и бесконечное множество сомнений и скепсиса. В итоге, не пожалел.

Во-первых, курс читали, как я теперь понимаю, одни из лучших русскоязычных специалистов по визуализации — Александр Богачев, Вадим Шмыгов и Надежда Адрианова.

Во-вторых, я, наконец-то, понял, что хочу заниматься журналистикой данных. Курс не дал всех нужных мне навыков, но заложил основы и показал направление.

Я начал несколько больших проектов. Опыта мне не хватило, поэтому 75% (3 из 4) так и умерли, не родившись. Пока я над ними работал на Нетологии появился курс «Журналистика данных». Посмотрев, что там дают и кто преподает, скрипя зубами достал «гробовые» деньги (тем более, я уже завещал свой труп науке).

В итоге, на курсе я сделал совершенно другой проект, который не стыдно показать, и который опубликовала Strelka Mag. Это «часть сделки»: кроме лекций и домашек, мы должны сделать материал, который «возьмет» большое СМИ. Мои сокурсники, например, опубликовались в Проекте.Медиа.

Что такое data-журналистика и чем мы занимаемся

Есть уже классическое определение data-журналистики, взятое из англоязычной литературы: «истории, рассказанные на данных». Оно не то чтобы неверное, оно слишком буквально переведенное, а потому непонятное для неподготовленного человека.

«Истории» (story) — это и репортаж, и повествование, и отдельное наблюдение или вывод. «Рассказанные на данных» — не означает обязательного повествования по всем законам драмы. Карта истории московских домов или шумового загрязнения — это тоже журналистика данных. Многочасовое исследование на выходе иногда превращается в одну-единственную лаконичную диаграмму. И это тоже журналистика данных и тоже «рассказанная на данных».

Наконец, «данные» — это самое простое и однозначное понятие и в анализе, и в журналистике, но большинство людей о нем не знает. Данные в нашем случае — машиночитаемое описание объектов по каким-либо признакам. Грубо говоря, это таблица в «плоском» формате, то есть по строкам которой лежат объекты, например, регионы, по столбцам — признаки или показатели, например, потребление сахара на душу населения по годам.

Первая и часто главная задача дата-журналиста — найти данные, проверить на корректность и ошибки. Прописная истина анализа: «мусор на входе, мусор — на выходе». Данные по потреблению сахара — это пример хороших данных. В большинстве случаев мы имеем дело с «грязными» данными, то есть неполными, некорректно собранными, с кучей ошибок. Например, реестр объектов культурного наследия МинКульта с формальной стороны — образцовый датасет, но внутри там бардак и хаос: куча дублей, ошибок, нет единой унифицированной системы написания дат (XIX век может обозначаться как XIX, 19 в., XIX-й век и т.п.). Одних данных просто нет, а другие не выкладываются, хотя должны, в таком случае их можно запросить. Третьи не обрабатываются и не агрегируются в нужном разрезе. Например, преступность по муниципальным районам или данные по количеству автодорог федерального и регионального значения по тем же муниципалитетам. В этом случае нам придется собирать и агрегировать их самим. Некоторые данные просто не собираются или собираются не в том виде, не с той периодичностью и так далее.

Кроме государственных открытых данных, есть гигантский пласт общедоступных и коммерческих данных. Общедоступные лежат вокруг нас — в Интернете и офлайне: это комментарии, аккаунты социальных сетей, тексты и остальное. Первый этап — придумать, как собрать эти данные или найти того, кто их собрал. Коммерческие — это петабайты данных о нас, которые собирают все кому не лень. Иногда можно договорится и что-то получить для исследования.

Второй этап вытекает из первого — нужно очистить и привести данные к машиночитаемому виду. По сути, большую часть времени дата-журналист занимается именно этим, тащит все, что плохо и хорошо лежит и стирает. В этом плане мы ничем не отличаемся от обычного аналитика или енота.

Иногда, но не так часто, очищенные данные нужно дополнительно агрегировать и анализировать. Обычно это самый простой анализ (exploration data analysis, EDA): посмотреть среднее значение, медиану, как меняется переменная со временем и так далее. Мы редко строим регрессионные модели или просто используем критерий Т-стьюдента.

Хотя, на мой взгляд, методы машинного обучения, особенно обработка естественного языка, полезны и в журналистике. Более того «ML-журналистика», назовем ее так, будет интересна и обычному читателю, а не только гикам и ботанам.

Последний этап — визуализация и текст. Никакой самый сложный анализ не заменит собственно журналистику. Материал делается для читателя и должен быть максимально простым и читабельным. Вся техническая часть сокращается и прячется в секретный раздел, читателю остаются красивые картинки, броские заголовки и выводы.

Все-таки мы журналисты

Несмотря на все, что я сказал выше, мы не сильно отличаемся от обычных журналистов. В идеале, я занимаюсь только поиском и анализом данных: не беру дурацкие интервью, даже в страшном сне не читаю пресс-релизы, не обращаю внимания на слухи и тому подобное. Пока я так и делаю, но это не значит, что так и будет дальше.

Откройте издания, которые любят и ценят дата-журналистику — Важные истории, Медиа.Зону, Новую газету, Проект.Медиа. Это прежде всего качественная журналистика, с красивой и понятной графикой, аккуратными выводами. Там нет ни страшных бокс-плотов, ни сложных моделей, ни псевдо-дегуманизации текста.

Приведу два примера, работы, которые я считаю образцовыми:

Материал Дады Линделл о постоянном перекладывании асфальта в Москве.
Исследовательница выгрузила данные по ремонтам дорог, наложила их на карту и подтвердила то, что мы давно подозревали — в Москве ремонтируют одни и те же дороги, хотя никаких формальных оснований для этого нет. Дальше идет уже «нормальная» журналистика: почему так происходит и что с этим делать.
Работа Любови Поповец «Меню русской литературы». Это хороший пример развлекательной журналистики данных. Авторка взяла тексты классической русской литературы и сделала частотный анализ, то есть нашла наиболее часто упоминаемые блюда. А дальше, как говорят редакторы, «красиво упаковала» данные, то есть «снизошла» до обычной журналистики.

Как научиться журналистике данных

Я выбрал самый простой и короткий способ — курс Нетологии «Дата-журналистика».

Рассуждал так:
— Мне за 40, я гуманитарий, работал совершенно в других сферах;
— Нужно получить новые навыки и быстро войти в профессию;
— Если я пойду на курс, назад дороги не будет, свернуть я уже никуда не смог;
— В итоге я, наконец-то, сделаю полноценный материал, который можно опубликовать в медиа.

Были сомнения:
— Это первый поток, а первый блин всегда всмятку (к счастью, обошлось без блинов);
— Не справлюсь с Python (оказалось, все просто);
— Может, как-то самому потихоньку («потихоньку», это как раз было бы к пенсии).

Не скажу, что курс идеален, есть куда развиваться. Но в этом плане Нетологию можно только похвалить. Всегда следят за качеством, улучшают программу, если на какой-то теме народ спотыкается, добавляют на следующий поток часы, а на текущем организуют дополнительные занятия. У нас в общей сложности было 5 занятий по Python и Tableau. Одно из них, специально для журналистов, по парсингу.

Главное, курс Нетологии по «Журналистике данных» — единственный полноценный негосударственный курс. После окончания которого вы даже получаете диплом государственного образца. Других больших курсов скорее всего не будет лет 5-10. Хороших дата-журналистов, которые еще и преподают, не так много. И они все уже на курсе Нетологии.

Наверное, можно получить все навыки самостоятельно. Сейчас море информации: бесплатные курсы, лекции, мастер-классы, книги. Особенно если вы бог-сатана в тайм-менеджменте, то есть можете организовывать свое время так, чтобы успевать все, умеете сами себе ставить дедлайны и соблюдать их, не бросать задачи на середине.

Есть еще магистратура в Вышке. Но высшее образование в этой сфере немного устарело в плане профессиональных навыков. В вузах слишком много ненужной бюрократии и ненужных предметов. Конечно, если вы молоды, у вас есть 2 свободных года и не надо кормить 40 кошек, то это тоже хороший способ освоить профессию. Но если вы старше 25, лучше идите на курсы.

Какие навыки нужны дата-журналисту

Критическое мышление. Как говорил старина Карл Маркс: «Во всем сомневайся».
Умение гуглить, спрашивать и договариваться. Как и всем журналистом, только мы ищем сырые данные, поэтому иногда придется еще и парсить (автоматизировано собирать данные с сайтов).
Основы статистики и анализа данных (на базовом уровне).
Основы баз данных. Скорее всего, вам никогда не придется писать сложные SQL-запросы, но вы должны понимать как хранятся данные и как устроены базы данных в общих чертах.
Эксель или Гугл-таблицы. Формулы для работы с текстом, ВПР (поисковая функция в таблицах) для базового статистического анализа.
Продвинутые инструменты — Python, Tableau, Qlik Sense — не обязательны. Но рано или поздно вы к ним придете, они сильно упрощают работу.
Визуализация. Журналистика данных, в каком-то смысле, выросла из инфографики. Без красивых и понятных графиков вы не выживите.
Сторителлинг. К сожалению, анализ и диаграммы сами по себе увлекательный текст не напишут.

Что делать, чтобы стать дата-журналистом

Прежде всего, сделайте простое упражнение: придумайте сходу 10 материалов, которые вы хотели бы сделать; проверьте, делал ли кто-то материал на эту тему; попробуйте найти нужные данные (или понять, где они могут быть); посчитайте, сколько времени и ресурсов займет каждый материал.

Возможно, после этого упражнения вы передумаете. Если нет, то рекомендую курс Нетологии «Журналистика данных» или хотя бы его главную часть — «Дата-сторителлинг».

Что читать, чтобы стать дата-журналистом

Про критическое мышление и культуру данных:
— Дарелл Хафф, «Как лгать при помощи статистики». Если вы еще не читали эту древнюю книгу (первое издание вышло в 1954), вы просто обязаны это сделать.
— Ханс Рослинг, «Фактологичность», 2020.

Про статистику и анализ:
— Сара Бослаф «Статистика для всех», 2015.
— Владимир Савельев, «Статистика и котики», 2017.

По визуализации:
— Александр Богачев, «Графики, которые убеждают всех», 2020.

Для общего развития:
— «Системный блок» — журнал про цифровые технологии в гуманитарных исследованиях. Журнал делает и републикует материалы, которые можно отнести к журналистике исследования. Несмотря на все усилия, портал больше для гиков.

Что смотреть, чтобы стать дата-журналистом

Канал Инфокультуры на YouTube: кейсы про открытые данные, ML в журналистике и работе НКО.

Если вы решите учить Python или R (язык программирования для анализа данных), разобраться с машинным обучением хотя бы в теории, рекомендую повторить школьную математику за 9-10 классы. Матанализ вам не нужен, но будет не лишним вспомнить про теорию вероятностей, теорему Пифагора, математическую (булеву) логику и что такое функция. Писать код можно и без этого, но с математикой становится понятнее.

Будущее журналистики данных

Реальный спрос на аналитику данных есть, но пока ограниченный. Штатных вакансий мало, чаще ищут дизайнеров инфографики. Скорее есть интерес: редакции ищут новые форматы, хотя не все понимают, что такое журналистика данных, зачем она нужна и почему она столько стоит. Найти проект под себя можно. Правда, за полгода, помимо «мелкой» инфографики и смежной работы, нашел немного. Приложил руку к двум большим материалам «Москвича Mag», сделал пару проектов «в стол» и сейчас делаю проект для одного нового медиа. Но, стоит учесть, это были не совсем полноценные полгода: надо было закрыть долги по старой работе, и месяц я отдыхал из-за коронавируса.

Уверен, что в ближайшие пару лет журналистика данных станет новым стандартом и спрос вырастет. Кроме того, меняется сам рынок. «Старые» медиа (газеты и журналы) теснят новые — телеграмм-каналы и блогеры. Появилась гражданская журналистика, которую напрямую поддерживают читатели. Наши навыки могут быть востребованы и в стартапах, и в проектах НКО, и много где еще. Если мне интересен сам проект, то нет разницы, для кого я его буду делать — для газеты, телеграмм-канала или НКО.

Однако не стройте иллюзий: денег в медиа меньше, чем в «большом» IT. Мы никогда не будем получать столько, сколько сеньоры и даже продвинутые мидлы в Data Science или BI-аналитике. Я к этому отношусь спокойно, мне важнее получать удовольствие от работы и делать то, что мне интересно.

Подписывайтесь на канал "Взгляд изнутри" и делитесь статьей с друзьями