Будьте друзьями с tidy data
Иллюстрированная история о том, почему tidy data в языке R - такая мощная концепция в анализе данных. Почему же tidy data позволяет делать Ваш код более эффективным, качественным и читаемым?

Во-первых, что вообще такое tidy data? Это способ организовать данные с помощью специальной прямоугольной структуры. В этой структуре каждая переменная имеет свой собственный столбец, а каждое измерение - свою собственную строку.

Hadley Wickham описал такую стандартизированную структуру в стиле Льва Толстого. Лев Толстой описывал семьи так: “Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”. Аналогичное верно и про tidy data: “Стандартная структура tidy data Значит, что все датасеты похожи. Однако, каждый грязный датасет грязен по-своему”.


Аккуратные данные позволяют Вам быть эффективными за счет использования существующих инструментов, которые специально были спроектированы для этого. Использование стандартных библиотек позволяет не тратить время на изобретение велосипеда при анализе каждого нового датасета.

Tidy data позволяет выстраивать коммуникации между людьми. Вы, Ваши коллеги и все профессиональное коммьюнити использует одинаковые инструменты и мыслит схожими паттернами. Это сильно облегчает работу всем участникам процесса.
Tidy data также облегчает процесс повторного воспроизведения результатов, полученных ранее. Кроме того, совместное применение инструментов, которые предполагают работу с аккуратными данными, позволяет выстраивать крайне эффективные рабочие процессы. А когда у Вас вдруг появляется необходимость заново запустить Ваш код на новых данных - Вы можете сделать это совершенно безболезненно.

Владение инструментами для работы с tidy data открывает для Вас целый большой мир датасетов. Они становятся более “доступными”, потому что Вы можете применять к ним знакомые Вам инструменты. Это ощущение уверенности и возможность легкой коммуникации с коллегами - одни из самых крутых вещей в концепции tidy data.

Будьте друзьями с tidy data!

Подробнее про tidy data Вы можете почитать в первоисточниках - например, в книге и статье от Hadley Wickham.
Источник: здесь.
Иллюстрации: Allison Horst.