Arenadata Hadoop

Корпоративный дистрибутив для распределённой масштабируемой обработки данных

Arenadata Hadoop (ADH) — это полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Хранилище данных для широкого спектра вариантов использования

Большие данные необходимы компаниям, которые хотят улучшить клиентский сервис, усовершенствовать существующие бизнес-процессы и успешно построить новые, повысить финансовые показатели и опередить соперников в конкурентной борьбе. Чтобы все эти стремления стали частью реальности, неизбежно потребуется надёжный продукт, который позволит хранить, обогащать, обрабатывать поступающую из многочисленных источников информацию. С этой задачей отлично справляется Arenadata Hadoop, который успешно используется ведущими российскими компаниями и госсектором.
На продукт Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ
Номер регистрации 2019660896
Дата регистрации 15.08.2019
Продукт Arenadata Hadoop включён в единый реестр российских программ для электронных вычислительных машин и баз данных.
Номер реестровой записи 6355
Дата формирования 07.04.2020

Знакомые вам компоненты

В состав дистрибутива ADH входят наиболее актуальные версии популярных инструментов Big Data. Некоторые из них существенно доработаны для повышения стабильности кода, полноты функционала и корректных взаимных интеграций компонентов.

Arenadata Hadoop включает собственную систему управления, развёртывания и мониторинга Arenadata Cluster Manager, позволяющую устанавливать сервисы Hadoop и управлять ими как on-premise, так и в облаке.

Ключевые преимущества Arenadata Hadoop

скачать сейчас
Пакет утилит для полной офлайн-установки
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматических установки и настройки компонентов как на «голом железе», так и на виртуальных машинах (в облаке). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы
Собственная система управления
Мы предоставляем открытую систему автоматического развёртывания и управления Arenadata Cluster Manager. Она является Multi-cloud системой и может быть развёрнута на любой имеющейся инфраструктуре, включая публичные облака
Сборка на базе открытых проектов Apache
ADH является полностью open-source дистрибутивом Hadoop, поэтому нашим клиентам никогда не придётся столкнуться с такой проблемой, как vendor lock-in
Набор типовых пакетных сервисов по планированию, установке и аудиту системы
Вам не придётся самостоятельно проводить оценку оборудования, которое потребуется для решения поставленной задачи. Наши специалисты настроят Arenadata Hadoop (удалённо или on-site), а в последствии проведут аудит системы и помогут разработать шаги для решения ваших проблем.
Возможность влиять на развитие функционала системы
Если у нас построены взаимоотношения с заказчиком, и мы видим, что для решения бизнес-задач ему требуются дополнительные сервисы, то можем добавить их в нашу экосистему и взять на поддержку как полноценный компонент платформы. Такими примерами для нас стали Apache Flink, Zeppelin и Solr.
Документация
Оригинальная документация на русском и английском языках поможет облегчить процесс планирования, установки и настройки кластера Hadoop.

Вы можете остаться на открытой версии Hadoop

После того, как компания Cloudera приобрела Hortonworks, прекращена поддержка бесплатной версии системы управления Ambari, и всем предлагается перейти на коммерческий продукт Cloudera Data Platform.

Что делать клиентам, которые хотят остаться на открытой версии Hadoop? Либо пользоваться текущей бесплатной версией, которая поддерживается небольшим количеством энтузиастов, либо мигрировать на закрытую систему управления от Cloudera.

Arenadata предлагает третий путь. Мы разработали собственный универсальный оркестратор гибридного ландшафта Arenadata Cluster Manager, позволяющий устанавливать сервисы Hadoop и управлять ими как on-premise, так и в облаке. У нас уже есть опыт миграции с Hortonworks на Arenadata. Если вам интересна её методика, можем обсудить.

запросить детали

Состав компонентов текущей и будущих версий:

Arenadata Hadoop roadmap

Российское программное обеспечение

Arenadata Hadoop — российское программное обеспечение, зарегистрированное в Едином реестре российских программ для электронных вычислительных машин и баз данных Минцифры РФ
Его разработкой занимаются специалисты, рассредоточенные в различных регионах России: Москве, Санкт-Петербурге, Хабаровске.
Используя ADH, вы защищены от валютных рисков, поскольку цены на продукт представлены исключительно в рублях.
Документация к Arenadata Hadoop, техническая поддержка продукта и обучающие курсы предоставляются на русском языке

Используйте Arenadata Hadoop в облаке уже сейчас

Мы не ограничиваем наших клиентов в выборе типа инфраструктуры: Arenadata Hadoop одинаково эффективно будет работать как на bare-metal, так и в облаке. Вы можете воспользоваться востребованным сегодня сценарием — гибридной ИТ-инфраструктурой или Multi-clouds. Или же установить ADH распределённо на разные инфраструктуры, главное обеспечить между ними сетевую доступность.

Стоимость решения и лицензирование

Стоимость временной/постоянной лицензии и технической поддержки на продукт зависит от количества физических ядер, типа кластера (prod, test) и требуемого SLA (24х7, 8х5) и рассчитывается индивидуально.



запросить детали

FAQ

Чем Arenadata Hadoop отличается от ванильного Hadoop?

Под термином Hadoop, как правило, понимается не только распределённая файловая система HDFS и менеджер ресурсов YARN, но и целый набор инструментов для работы с большими данными. Собрать такой набор инструментов, чтобы они работали вместе, и обеспечивать их эксплуатацию — сложная инженерная задача. Однако с использованием Arenadata Cluster Manager (ADCM) это становится легко. Благодаря ADCM вы практически сразу получите сборку Arenadata Hadoop (ADH), которая состоит из самых последних и стабильных версий продуктов фонда Apache — экосистемы больших данных: HDFS, YARN, HBase, Spark, Hive, Sqoop, Solr, Impala. Кроме того, в отличие от «ванильного Hadoop», ADH имеет систему безопасности на основе Kerberos, Rangеr и Knox c возможностью интеграции со службой Active Directory предприятия. И, конечно, в составе продукта Arenadata есть система мониторинга для непрерывного отслеживания состояния компонентов ADH.

Какие отличия в редакциях Community и Enterprise?

Различия в компонентах:

Компоненты Enterprise Edition Community Edition
HDFS (NameNode/DataNode/HTTPFS) + +
Journal Nodes +
ZKFC +
YARN (Resource Manager/Node Manager) + +
Hive (Metastore/Server/Thrift) + + Impala + + + +
HBase (Master/Region Server/Thrift Server) + +
Phoenix Query Server + +
Tez/Tez UI + +
Sqoop/Metastore + +
Spark/History Server + +
Solr Server + +
Airflow + +
Flink (JobMaster/TaskMaster) + +
Zeppelin + +
Zookeeper + +
Impala + +
Clients (HDFS, YARN, Hive, Tez, HBase, Spark, Sqoop, Impala) + +
Ranger Admin +
Ranger UserSync +
Ranger Embedded Services (Zookeeper, Solr) +
Knox +
Kerberos +

Различия в функционале редакций Hadoop:

Возможности Enterprise Edition Community Edition
Развертывание сервисов и конфигурация + +
Работа в отказоустойчивом режиме YARN NodeManager, HBase Master, Hive Metastore + +
Наличие сервисов и системных метрик + +
Erasure Coding + +
Множественные NameNodes +
Работа в отказоустойчивом режиме NameNode (Active/Standby) +
Автоматическое переключение NameNode при падении +
Kerberos конфигурация (AD/MIT/FreeIPA) +
Поддержка сервисных политик доступа к данным (Ranger) +
Аудит обращений к данным (Ranger) +
Хранилище ключей и HDFS шифрование +
Поддержка единой защищенной точки доступа к сервисам +
Поддержка SSL +
В случае приобретения enterprise-редакции ПО у заказчиков Arenadata есть возможность воспользоваться дополнительными консалтинговыми услугами «DBA как услуга», «Технический аккаунт-менеджмент», «Аудит цифрового ландшафта» и Smart Start. Нашим клиентам не обязательно разворачивать и настраивать все компоненты платформы самостоятельно — инженеры Arenadata могут выполнить эти работы в полном объёме.

Кроме того, заказчикам enterprise-редакции наших продуктов мы обеспечиваем корпоративную техническую поддержку в режиме 24/7 или 8/5 в соответствии с согласованными стандартами SLA. В рамках договора фиксируется время первого ответа на обращение, гарантии по оперативной диагностике и устранению сбоев, развёрнутые консультации и помощь в установке обновлений.

Какие наиболее значимые функциональные особенности есть у Arenadata Hadoop?

  • Возможность хранения данных как в реляционном виде, так и в виде файлов в распределённой иерархической сетевой файловой системе.
  • Возможность обработки и хранения данных любых типов и форматов.
  • Высокая доступность для следующих сервисов: HDFS, YARN.
  • Наличие системы безопасности Arenadata Platform Security на базе Kerberos, Ranger и Knox с возможностью интеграции со службой Active Directory предприятия.
  • Наличие СУБД (Hive) для выполнения SQL запросов и анализа данных, хранящихся на HDFS.
  • Наличие версионной нереляционной распределённой базы данных (Hbase), работающей поверх HDFS.
  • Поддержка Apache Impala — распределенной системы исполнения SQL-запросов в экосистеме Hadoop.
  • Поддержка Flink — популярной распределённой платформы обработки потоков данных.
  • Наличие ADB Spark Connector, предоставляющего возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB — аналитической распределённой СУБД на базе МРР-системы с открытым исходным кодом Greenplum.

Какие возможности по масштабированию есть у Arenadata Hadoop?

  • Поддержка работы в кластере из множества серверов.
  • Линейная горизонтальная масштабируемость.
  • Возможность вынести аналитическую нагрузку за пределы основного кластера благодаря Impala.

Благодаря чему обеспечивается отказоустойчивость?

  • Нативная отказоустойчивость без доработок ПО.
  • Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hadoop?

  • Инструмент управления сервисами в кластере.
  • Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
  • Инструментарий пошаговой установки сервисов на любое количество хостов.
  • Настройка прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы, в том числе с использованием доменной авторизации по протоколу LDAP.
  • Пакет утилит для полной установки без доступа к интернету.
  • Установка, настройка и обновление кластеров Arendata Hadoop осуществляется с помощью универсального оркестратора гибридного ландшафта Arenadata Cluster Manager

Какие механизмы информационной безопасности реализованы в дистрибутиве?

Корпоративная версия Arenadata Hadoop интегрирована с системой централизованного управления политиками безопасности кластера Arenadata Platform Security (ADPS). ADPS включает следующие компоненты безопасности:
  • аутентификацию с использованием Kerberos, интеграцию с LDAP/Active Directory,
  • интеграцию с Apache Knox и Ranger для обеспечения безопасного доступа к кластерам Hadoop,
  • журналы и отчёты аудита.
Вместе эти компоненты ADPS обеспечивают комплексный подход к безопасности, включающий защиту периметра, управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает бизнесу защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера.

Какие форматы хранения поддерживаются?

Концепция «Озера данных», которую реализуют с использованием Hadoop, предполагает загрузку данных в кластер на начальном этапе с последующей обработкой. Поэтому в широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark, Hive, Impala, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации — это parquet и orc.

Какой максимальный объём данных можно хранить в Hadoop?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Что такое Hive?

Apache Hive — это распределённая система выполнения SQL-запросов в экосистеме Hadoop. В качестве слоя хранения она может использовать HDFS, что позволяет ей быть эффективной в отношении таких показателей, как цена хранения и стоимость аналитической обработки больших данных.

Что такое HBase?

HBase — это распределённая база данных с открытым исходным кодом, которая относится к категории «семейство столбцов» и представляет собой хранилище типа key-value. Оно позволяет поддерживать OLTP-нагрузку в инфраструктуре Hadoop. Сочетание с Apache Phoenix, который даёт возможность выполнять SQL-запросы и строить первичные и вторичные индексы, превращает его в инструмент стека SQL-on-Hadoop.

Что такое Spark?

Платформа параллельной обработки с открытым исходным кодом, которая имеет API для наиболее популярных языков программирования. Предназначена для выполнения задач инженерии данных, анализа данных и машинного обучения на кластере Hadoop.

Что такое Impala?

Распределённая система исполнения SQL-запросов в экосистеме Hadoop. Предназначена для массивно-параллельной обработки (МРР) больших объёмов данных в режиме реального времени. Позволяет выполнять интерактивные запросы к данным, хранящимся в HDFS. Impala разработана для простоты использования и интеграции с существующими инструментами BI и аналитики. Поддерживает стандартные SQL-запросы и JDBC/ODBC-драйверы для простой интеграции с широким спектром приложений.

Есть ли поддержка транзакции в Arenadata Hadoop?

В состав ADH входит распределённая система выполнения SQL-запросов Hive, которая поддерживает требования к транзакционной системе (ACID), как и любые другие распределённые реляционные СУБД.

Есть ли обработка транзакций в реальном времени?

Да, в ADH для таких целей есть HBase и Phoenix.

Есть ли индексы в Arenadata Hadoop?

Да. Индексы — это скорее атрибут OLTP-систем, чем OLAP. Поэтому их поддержка реализована в Phoenix, входящем в состав ADH.

Что можно использовать для машинного обучения?

Для машинного обучения наиболее подходящим решением является библиотека MLlib в составе Spark.

Что можно использовать для обработки графов?

Для выполнения графовой аналитики на больших данных подходящим решением является библиотека GraphX в составе Spark.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hadoop для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data Intensive, офлайн-моделей. И последнее — в составе Arenadata Hadoop есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Какие технические характеристики у Arenadata Hadoop?

Основными техническими характеристиками кластера Arenadata Hadoop являются:
  • количество дискового пространства, отведённого под файловую систему HDFS (определяется в терабайтах);
  • количество вычислительных ресурсов, выделенных для менеджера YARN (определяется в ядрах процессора и оперативной памяти).
Эти показатели зависят от количества узлов-обработчиков (Worker Node), которые входят в кластер, и наполнения отдельного, типового обработчика. Как правило, обработчик (Worker Node) — это отдельный, так называемый стоечный commodity-сервер с дюжиной и более дисков для HDFS в составе.

Какие требования к оборудованию?

Принцип построения Hadoop предполагает использование недорогих и однотипных серверов с большим количеством HDD-накопителей в режиме JBOD (подключение непосредственно в сервер). Это позволяет обеспечивать хранение более 50 Тб на одном сервере при низкой стоимости оборудования.

Какие ОС поддерживаются?

Arenadata Hadoop поддерживает Centos 7.x, RHEL 7.x, Alt Linux 8.4 SP (Альт 8 СП), Astra Linux 1.7 SE «Орёл».

Где я могу найти документацию по Hadoop?

Официальная документация по продукту ADH доступна на портале: https://docs.arenadata.io/ru/ADH/current/introduction/intro.html
Вы также можете ознакомиться с документацией к Apache Hadoop: https://hadoop.apache.org/docs/current/

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Получите консультацию по Arenadata Hadoop

Хотите узнать больше о возможностях Arenadata Hadoop, получить предложение на внедрение и поддержку? Заполните форму обратной связи. Вам оперативно ответят наши специалисты, готовые предоставить полноценную консультацию по созданию и поддержке Data Lake на базе Arenadata Hadoop.
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.