Кто такой этот Hadoop?

Evgeny halltape

HDFS (Hadoop Distributed File System) [part1]

Об этой теме пишут очень сложно. Распишу доступно и на пальцах.

HDFS это распределенное хранение файлов. Представьте файл размером 1 гигабайт. Пусть это будет таблица Excel для простоты. Допустим у нас комп, в котором нет столько места и еще Excel тормозит из-за большого размера файла. Но зато у нас есть свой дата центр с несколькмими стойками, где расположены сервера (тупо HDD диски, соединенные между собой). И в каждой стойке (шкафу) таких серверов несколько.

HDFS может взять наш файл, разбить его на одинаковые блоки и распихать по серверам. Например наш 1 гигабайт пусть поделится на блоки по 128Мб каждый. Получится ровно 8 блоков. Если бы это было 1.2Гб, то получилось бы 9 блоков по 128Мб и последний блок 48Мб. Последний блок всегда принимает тот вес, который остается!

Также каждый из блоков реплицируется (копируется) столько раз, сколько мы ему укажем. Возьмем наши 8 блоков и каждый из них скопируем дважды. Т.е. каждый блок имеет еще две свои копии. Закрепили? Сейчас объясню зачем это надо.

Дальше HDFS берет первые наши три блока-близнеца и записывает первый блок на сервер в первой стойке, второй блок записывает на соседнюю стойку, а третий блок записывает на эту же стойку, только в соседний сервер внутри шкафа. И так со всеми блоками от файла. Все распределяется по шкафам.

И тогда, если в первую стойку влетит КАМАЗ, то очевидно она выйдет из строя и данные пропадут. Но у нас они есть на второй стойке и мы ничего на самом деле не потеряли. Можно это назвать неким бэкапом.

На самом деле на этом суть HDFS не заканчивается, впереди Map Reduce, обращения к NameNode, DataNode, алгоритм проверки целостности блоков и так далее. Но это я либо напишу в следующих постах, либо лучше почитайте сами:) на пальцах это уже не просто

Кто такой этот Hadoop?

Report Page