Что такое Big Data (Большие данные)?

Что такое Big Data (Большие данные)?


Сегодня большинство из нас уже слышали фразу Big Data.

Впервые услышав, не знакомые с термином люди думают, что видимо речь о большом объеме данных (в прямом смысле этого слова), но главный критерий больших данных — это не объем, а уровень структурированности. Большими данными называют не объем данных, а метод их обработки.

Признаки больших данных:

Volume: действительно большие (хотя размер зависит от доступных ресурсов для их обработки).

Variety: слабо структурированные и разнородные.

Velocity: обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь об онлайновых сервисах).

Термин Big Data стал широко использоваться лет 10 назад, когда Клиффорд Линч, редактором журнала Nature, подготовил в 2008 г. специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству». 

Одна из причин развития Big Data - рост объема информации в цифровом мире. Переломный момент 2003 год, за который было создано информации больше, чем за все предыдущее время. С тех пор информации стало в тысячи раз больше. Ваш телефон также обладает огромным весом для Data Scientist-а - ваши фото, местонахождения и др. 

Немного статистики, по данным Google, в 2008 году компания обрабатывала 20 петабайт данных в день. Сегодня аналогичный результат достигается меньше чем за 8 минут. За последний год эта цифра достигла 636 эксабайтов! На это было потрачено 554 524 478 мегаватт-часов. Очень много, не так ли? 

При работе с большими данными надо задаваться вопросом, какие есть закономерности в данных? 

Представьте, что перед вами стол, на котором 50 стопок по 500 бумаг в каждой — отчеты, чертежи, заявления. А вам нужны только заявления. Вручную перебирать 25 тысяч бумаг жизни не хватит. Поэтому вы перебираете одну стопку. Обнаруживаете закономерность: в среднем каждая третья бумага — это отчет. Поэтому из остальных 49 стопок вы просто достаете каждую третью бумагу. Точность не очень высокая, зато быстро. Это традиционный метод анализа.

А по методу больших данных мы бы также перебрали первую стопку, но учитывали еще автора каждой бумаги, цветные они или черно-белые, дату написания и еще кучу менее очевидных параметров. Потом мы проанализировали бы из первой стопки только отчеты и увидели, что 70% из них за авторством Иванова. А Иванов — руководитель отдела. Значит, отчеты пишут по большей части руководители отделов. По всем этим параметрам можно сортировать бумаги в остальных 49 стопках, добившись таким образом большей точности.

Сейчас эта наука очень активно развивается, Big Data еще называют нефтью 21 века.


В следующих постах мы:

Изучим как использовать большие данные;

Рассмотрим big data кейсы;

Погрузимся в технические аспекты.

Cсылки на источники:

http://blogs.teradata.com/data-points/business-highlights-in-big-data-history/

https://rb.ru/opinion/big-data-pomozhet/

https://www.nature.com/collections/wwymlhxvfs