Для настройки отказоустойчивого HDFS необходимо иметь установленный ZooKeeper сервис.
HDFS High availability + Auto Failover
Считаем, что ZooKeeper уже установлен.
Идем в Clusters→HDFS, там ищем кнопку Actions и выбираем “Enable high availability”.
У нас будет два узла, отвечающие за роль NameNode, между которыми настроен HA+Failover на базе Zookeeper. NameNodes отвечают за координацию данных, находящихся в нашей распределенной файловой системе HDFS. Именно NameNodes владеют деревом директорий и следят за файлами, распределенными по нашему кластеру. Сами по себе, NameNode-узлы не хранят данные. JournalNode необходима нам в случае, если мы реализуем High Availability на базе QJM (Quorum Journal Manager), суть которого состоит в том, что для синхронизации между Active и Stanbdy NameNode используются выделенные виртуальные машины (JournalNode), содержащие списки изменений в HDFS. Логи этих изменений доступны обоим NameNode, соответственно в любом из случаев failover-а мы достигаем синхронизации наших NameNode-узлов.
В результате будем иметь Active и Standby NameNodes.
[Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. :/var]$ ls /dfs/
dn js nn snn
[Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. :~]$ ls /dfs/
dn js nn
Для ручного переключения идем в Clusters→HDFS→Instances и жмем “Federation and High Availability”, далее в Actions переходим в Manual Failover.