Настройка отказоустойчивого HDFS

Для настройки отказоустойчивого HDFS необходимо иметь установленный ZooKeeper сервис.

HDFS High availability + Auto Failover

HDFS High availability

Считаем, что ZooKeeper уже установлен.

Идем в Clusters→HDFS, там ищем кнопку Actions и выбираем “Enable high availability”.

У нас будет два узла, отвечающие за роль NameNode, между которыми настроен HA+Failover на базе Zookeeper. NameNodes отвечают за координацию данных, находящихся в нашей распределенной файловой системе HDFS. Именно NameNodes владеют деревом директорий и следят за файлами, распределенными по нашему кластеру. Сами по себе, NameNode-узлы не хранят данные. JournalNode необходима нам в случае, если мы реализуем High Availability на базе QJM (Quorum Journal Manager), суть которого состоит в том, что для синхронизации между Active и Stanbdy NameNode используются выделенные виртуальные машины (JournalNode), содержащие списки изменений в HDFS. Логи этих изменений доступны обоим NameNode, соответственно в любом из случаев failover-а мы достигаем синхронизации наших NameNode-узлов.

В результате будем иметь Active и Standby NameNodes.

[Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. :/var]$ ls /dfs/

dn js nn snn

[Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. :~]$ ls /dfs/

dn js nn

Для ручного переключения идем в Clusters→HDFS→Instances и жмем “Federation and High Availability”, далее в Actions переходим в Manual Failover.

unix-way