ARENADATA Hadoop

Аналитическая платформа с открытым кодом

Описание и состав дистрибутива

ARENADATA HADOOP 2.1.0

Arenadata Hadoop – первый российский дистрибутив Hadoop. Он прошел сертификацию ODPi, а значит, полностью совместим со всеми продуктами, поддерживающими данный стандарт. В состав дистрибутива Arenadata Hadoop входят последние актуальные версии всех наиболее популярных инструментов, некоторые из которых были существенно доработаны, что гарантирует минимальное количество ошибок ПО, самый полный существующий функционал каждого инструмента и корректную интеграцию инструментов между собой. Кроме того, в состав Arenadata Hadoop включены инструменты для реализации корпоративных моделей безопасности (Apache Knox, Apache Ranger), управления данными и метаданными кластера (Apache Atlas). Все это дает возможность утверждать, что Arenadata Hadoop – один из наиболее полных и готовых к реальному использованию дистрибутивов Hadoop.

Полная версия документации размещена на странице: docs.arenadata.io.

Все компоненты ADH 2.1.0 являются наиболее стабильными версиями официальных релизов продуктов Apache Software Foundation. Arenadata оставляет за собой лишь право добавления необходимых изменений и патчей для обеспечения стабильного функционирования компонентов и их интеграции.

Состав и версии компонентов ADH 2.1.0:
  • Apache HDFS 3.1.2
  • Apache YARN 3.1.2
  • Apache MapReduce2 2.8.5
  • Apache Tez 0.9.2
  • Apache Hive 3.1.1
  • Apache HBase 2.0.2
  • Apache Phoenix 5.0.0
  • Apache ZooKeeper 3.4.14
  • Apache Spark 2.3.2
  • Apache Livy 0.6.0
  • Apache Zeppelin 0.8.1

Дополнительные компоненты, включенные в состав дистрибутива:

  • Bigtop-groovy 2.4.10
  • Bigtop-jsvc 1.10.15
  • Bigtop-tomcat 6.0.45
  • Bigtop-utils 1.3.0
  • extjs 2.2
  • fping 3.10
  • libconfuse 2.7
  • lzo 2.06
  • lzo-devel 2.06
  • lzo-minilzo 2.06
  • mysql-connector-java 5.1.25
  • net-tools 2.0
  • numactl-libs 2.0.9
  • pdsh 2.3.1
  • perl-Crypt-DES 2.05
  • perl-Net-SNMP 6.0.1
  • rrdtool 1.4.8
  • rrdtool-devel 1.4.8
  • snappy 1.1.0
  • snappy-devel 1.1.0

Каждый архив содержит скрипт «setup_repo.sh» для создания YUM репозитория и проверки прав доступа в автоматическом режиме.

Конфигурация кластера Hadoop

Кластеры Hadoop и Hbase имеют два типа машин:

  • Master – HDFS NameNode, YARN ResourceManager и HBase Мастер;
  • Slave – HDFS узлы DataNode, YARN NodeManagers и Hbase RegionServers.

DataNodes, NodeManagers и Hbase RegionServers могут быть расположены совместно или для коалокации данных. Кроме того, для управления кластером Hbase необходимо использование отдельного компонента Zookeeper.

Рекомендуется разделять главные узлы («admin nodes») и подчиненные узлы по следующим причинам:

  • нагрузка на подчиненных узлах должна быть изолирована от мастеров;
  • подчиненные узлы часто требуют технического обслуживания ввиду большой нагрузки как на процессор, так и на дисковую подсистему.

Для целей разработки и тестирования есть возможность развернуть Hadoop на одном узле (при условии, что все мастера и подчиненные процессы находятся на той же машине).

Конфигурация из двух узлов требует разделения NameNode и ResourceManager на главном узле и DataNode и NodeManager на подчиненном узле.

Кластеры из трех или более машин, как правило, используют один узел для NameNode, один для ResourceManager и все остальные компоненты как подчиненные узлы.

Кластер высокой доступности использует первичный и вторичный NameNode, также возможно использование первичного и вторичного ResourceManager.

Средний и большой кластер Hadoop состоит из двухуровневой или трехуровневой архитектуры и построен на серверах, размещенных в отдельных стойках. Каждая стойка серверов взаимосвязана с другими с помощью 1 или 10 GbE через один или несколько коммутаторов.

Аппаратные рекомендации для узлов кластера Hadoop

Конфигурация серверов в зависимости от типа нагрузки представлена в таблице:

Тип сервера Рабочая нагрузка / Тип кластера Хранение Процессор (# ядра) Память (ГБ) Сеть
Slaves Сбалансированная нагрузка Двенадцать 2-3 ТБ диски 8 128 -256 1 GB onboard, 2x10 GBE mezzanine/external
Вычисления / нагрузка на процессор, память Двенадцать 1-2 ТБ диски 10 128-256 1 GB onboard, 2x10 GBE mezzanine/external
Хранение / нагрузка на дисковую подсистему Двенадцать 4 + диски ТБ 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external
NameNode Сбалансированная нагрузка Четыре или более 2-3 ТБ RAID 10 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external
Resource Manager Сбалансированная нагрузка Четыре или более 2-3 ТБ RAID 10 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external

Подготовка окружения для установки Arenadata Ambari

Минимальные системные требования, необходимые для установки Arenadata Ambari, представлены в таблице:

Операционная система (ОС)

Поддерживаются следующие 64-разрядные ОС:

  • Red Hat Enterprise Linux (RHEL) v7.x;
  • CentOS v7.x

Установщик использует множество пакетов из базовых репозиториев ОС. Если нет полного набора базовых репозиториев ОС, доступных для всех компьютеров во время установки, могут возникнуть проблемы.

В случае возникновения проблем с недоступными базовыми хранилищами ОС, необходимо обратиться к системному администратору для обеспечения проксирования или зеркалирования этих дополнительных репозиториев.

Браузер

Мастер установки Ambari работает как веб-приложение на основе браузера. Поэтому необходимо наличие машины, способной использовать графический браузер для применения данного веб-инструмента.

Минимальные требуемые версии браузера:

  • Internet Explorer 9.0 (устаревшая версия);
  • Firefox 18;
  • Google Chrome 26;
  • Safari 5;

На платформе рекомендуется обновить браузер до последней, стабильной версии (кроме Internet Explorer 9.0).

Програмное обеспечение

На всех узлах кластера необходимо установить следующие компоненты:

  • YUM и rpm (RHEL / CentOS);
  • Zypper и php_curl (SLES);
  • Scp, curl, unzip, tar и wget;
  • OpenSSL (v1.01, build 16 или новее);
  • Python v2.7.
Java

Поддерживаются следующие среды выполнения Java:

  • Oracle JDK 1.8 64-разрядный: минимум JDK 1.8.64

Во время установки необходимо выбрать JDK 1.8, поскольку ADH 1.6 несовместим с JDK 1.7.

База данных При установке ADH Stack с Hive требуется реляционная база данных MariaDB 5.X