ARENADATA Hadoop

Аналитическая платформа с открытым кодом

Описание и состав дистрибутива

ARENADATA HADOOP 1.5.2

Arenadata Hadoop – первый российский дистрибутив Hadoop. Он прошел сертификацию ODPi, а значит, полностью совместим со всеми продуктами, поддерживающими данный стандарт. В состав дистрибутива Arenadata Hadoop входят последние актуальные версии всех наиболее популярных инструментов, некоторые из которых были существенно доработаны, что гарантирует минимальное количество ошибок ПО, самый полный существующий функционал каждого инструмента и корректную интеграцию инструментов между собой. Кроме того, в состав Arenadata Hadoop включены инструменты для реализации корпоративных моделей безопасности (Apache Knox, Apache Ranger), управления данными и метаданными кластера (Apache Atlas), реализации ETL\ELT-потоков данных (Apache Flink, Apache NiFi). Все это дает возможность утверждать, что Arenadata Hadoop – один из наиболее полных и готовых к реальному использованию дистрибутивов Hadoop.

Полная версия документации размещена на странице: docs.arenadata.io.

Все компоненты ADH 1.5.2 являются наиболее стабильными версиями официальных релизов продуктов Apache Software Foundation. Arenadata оставляет за собой лишь право добавления необходимых изменений и патчей для обеспечения стабильного функционирования компонентов и их интеграции.

Состав и версии компонентов ADH 1.5.2:

  • Apache Ambari 2.6.1
  • Apache HDFS 2.8.1
  • Apache YARN 2.8.1
  • Apache MapReduce 2.8.1
  • Apache Zookeeper 3.4.10
  • Apache Tez 0.9.0
  • Apache Hive 2.3.0
  • Apache HBase 1.3.1
  • Apache Phoenix 4.11.0
  • Apache Pig 0.17.0
  • Apache Sqoop 1.4.6
  • Apache Flume 1.8.0
  • Apache Oozie 4.3.0
  • Apache Atlas 0.8.1
  • Apache NiFi 1.3.0
  • Apache Apex 3.6.0
  • Apache Flink 1.3.2
  • Apache Kafka 1.0.0
  • Apache Knox 0.12.0
  • Apache Mahout 0.13.0
  • Apache Ranger 0.7.1
  • Apache Ranger KMS 0.7.1
  • Apache Solr 6.6.0
  • Apache Spark 2.2.0
  • Apache Zeppelin 0.7.3
  • Apache Giraph 1.1.0
  • Apache Slider 0.92.0

Дополнительные компоненты, включенные в состав дистрибутива:

  • Hue 3.11.0
  • Bigtop-groovy 2.4.10
  • Bigtop-jsvc 1.10.15
  • Bigtop-tomcat 6.0.45
  • Bigtop-utils 1.3.0
  • extjs 2.2
  • fping 3.10
  • grafana 4.3.1
  • libconfuse 2.7
  • lzo 2.06
  • lzo-devel 2.06
  • lzo-minilzo 2.06
  • mysql-connector-java 5.1.25
  • net-tools 2.0
  • numactl-libs 2.0.9
  • pdsh 2.3.1
  • perl-Crypt-DES 2.05
  • perl-Net-SNMP 6.0.1
  • rrdtool 1.4.8
  • rrdtool-devel 1.4.8
  • snappy 1.1.0
  • snappy-devel 1.1.0

Каждый архив содержит скрипт «setup_repo.sh» для создания YUM репозитория и проверки прав доступа в автоматическом режиме.

Конфигурация кластера Hadoop

Кластеры Hadoop и Hbase имеют два типа машин:

  • Master – HDFS NameNode, YARN ResourceManager и HBase Мастер;
  • Slave – HDFS узлы DataNode, YARN NodeManagers и Hbase RegionServers.

DataNodes, NodeManagers и Hbase RegionServers могут быть расположены совместно или для коалокации данных. Кроме того, для управления кластером Hbase необходимо использование отдельного компонента Zookeeper.

Рекомендуется разделять главные узлы («admin nodes») и подчиненные узлы по следующим причинам:

  • нагрузка на подчиненных узлах должна быть изолирована от мастеров;
  • подчиненные узлы часто требуют технического обслуживания ввиду большой нагрузки как на процессор, так и на дисковую подсистему.

Для целей разработки и тестирования есть возможность развернуть Hadoop на одном узле (при условии, что все мастера и подчиненные процессы находятся на той же машине).

Конфигурация из двух узлов требует разделения NameNode и ResourceManager на главном узле и DataNode и NodeManager на подчиненном узле.

Кластеры из трех или более машин, как правило, используют один узел для NameNode, один для ResourceManager и все остальные компоненты как подчиненные узлы.

Кластер высокой доступности использует первичный и вторичный NameNode, также возможно использование первичного и вторичного ResourceManager.

Средний и большой кластер Hadoop состоит из двухуровневой или трехуровневой архитектуры и построен на серверах, размещенных в отдельных стойках. Каждая стойка серверов взаимосвязана с другими с помощью 1 или 10 GbE через один или несколько коммутаторов.

Аппаратные рекомендации для узлов кластера Hadoop

Конфигурация серверов в зависимости от типа нагрузки представлена в таблице:

Тип сервера Рабочая нагрузка / Тип кластера Хранение Процессор (# ядра) Память (ГБ) Сеть
Slaves Сбалансированная нагрузка Двенадцать 2-3 ТБ диски 8 128 -256 1 GB onboard, 2x10 GBE mezzanine/external
Вычисления / нагрузка на процессор, память Двенадцать 1-2 ТБ диски 10 128-256 1 GB onboard, 2x10 GBE mezzanine/external
Хранение / нагрузка на дисковую подсистему Двенадцать 4 + диски ТБ 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external
NameNode Сбалансированная нагрузка Четыре или более 2-3 ТБ RAID 10 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external
Resource Manager Сбалансированная нагрузка Четыре или более 2-3 ТБ RAID 10 8 128-256 1 GB onboard, 2x10 GBE mezzanine/external

Подготовка окружения для установки Arenadata Ambari

Минимальные системные требования, необходимые для установки Arenadata Ambari, представлены в таблице:

Операционная система (ОС)

Поддерживаются следующие 64-разрядные ОС:

  • Red Hat Enterprise Linux (RHEL) v7.x;
  • CentOS v7.x

Установщик использует множество пакетов из базовых репозиториев ОС. Если нет полного набора базовых репозиториев ОС, доступных для всех компьютеров во время установки, могут возникнуть проблемы.

В случае возникновения проблем с недоступными базовыми хранилищами ОС, необходимо обратиться к системному администратору для обеспечения проксирования или зеркалирования этих дополнительных репозиториев.

Браузер

Мастер установки Ambari работает как веб-приложение на основе браузера. Поэтому необходимо наличие машины, способной использовать графический браузер для применения данного веб-инструмента.

Минимальные требуемые версии браузера:

  • Internet Explorer 9.0 (устаревшая версия);
  • Firefox 18;
  • Google Chrome 26;
  • Safari 5;

На платформе рекомендуется обновить браузер до последней, стабильной версии (кроме Internet Explorer 9.0).

Програмное обеспечение

На всех узлах кластера необходимо установить следующие компоненты:

  • YUM и rpm (RHEL / CentOS);
  • Zypper и php_curl (SLES);
  • Scp, curl, unzip, tar и wget;
  • OpenSSL (v1.01, build 16 или новее);
  • Python v2.7.
Java

Поддерживаются следующие среды выполнения Java:

  • Oracle JDK 1.8 64-разрядный: минимум JDK 1.8.64

Во время установки необходимо выбрать JDK 1.8, поскольку ADH 1.5 несовместим с JDK 1.7.

База данных

Ambari требует реляционной базы данных для хранения информации о конфигурации кластера и топологии. При установке ADH Stack с Hive или Oozie – для них также требуется реляционная база данных.

    Ambari:
    • PostgreSQL 8;
    • PostgreSQL 9.1.13+, 9.3;
    • MariaDB 5.5
    • Oracle 11gr2, 12c.

По умолчанию Ambari устанавливает инстанс PostgreSQL на хост сервера Ambari. При этом использование данного инстанса PostgreSQL, MySQL или Oracle необязательно. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.5.1».

    Hive:
    • PostgreSQL 8;
    • PostgreSQL 9.1.13+, 9.3;
    • MariaDB 5.5;
    • Oracle 11gr2, 12c.

По умолчанию (на RHEL / CentOS), Ambari устанавливает инстанс MySQL на хосте Hive Metastore. Также можно использовать указанный инстанс PostgreSQL, MySQL или Oracle. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.5.1».

    Oozie:
    • PostgreSQL 8;
    • PostgreSQL 9.1.13+, 9.3;
    • MariaDB 5.5;
    • Oracle 11gr2, 12c.

По умолчанию Ambari устанавливает инстанс Derby на хосте Oozie Server. При этом использование данного инстанса PostgreSQL, MySQL или Oracle необязательно. Дополнительная информация указана в пункте «Настройка сервера Ambari 2.5.1».

Инстанс Derby для рабочей среды не должен использоваться по умолчанию. Если планируется применение Derby для demo-версии, разработки или тестирования окружающей среды, перенос базы данных Oozie из Derby в новую базу данных доступен только в сообществе.

    Ranger:
    • PostgreSQL 9.1.13+, 9.3;
    • MariaDB 5.5;
    • Oracle 11gr2, 12c.

Для Ranger необходим указанный инстанс PostgreSQL, MySQL или Oracle.

Для базы данных Ambari, если используется существующая база данных Oracle, необходимо убедиться, что пользователь Oracle работает на порте, отличном от 8080. Это необходимо, чтобы избежать конфликта с портом Ambari, установленном по умолчанию.

Использование параметров базы данных Microsoft SQL Server или SQL Anywhere не поддерживается.