Arenadata Hadoop

Платформа для распределённой, масштабируемой обработки данных

Arenadata Hadoop (ADH) — это полноценный дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Хранилище данных для широкого спектра вариантов использования

Большие данные необходимы компаниям, которые хотят улучшить клиентский сервис, усовершенствовать существующие бизнес-процессы и успешно построить новые, повысить финансовые показатели и опередить соперников в конкурентной борьбе. Чтобы все эти стремления стали частью реальности, неизбежно потребуется надёжный продукт, который позволит хранить, обогащать, обрабатывать поступающую из многочисленных источников информацию. С этой задачей отлично справляется Arenadata Hadoop, который успешно используется ведущими российскими компаниями и госсектором.

Знакомые вам компоненты

В состав дистрибутива ADH входят последние актуальные версии всех наиболее популярных инструментов. Некоторые из них существенно доработаны, что гарантирует минимальное количество ошибок ПО, самый полный существующий функционал и корректную интеграцию компонентов между собой. Arenadata Hadoop включает собственную систему управления, развёртывания и мониторинга Arenadata Cluster Manager, позволяющую устанавливать сервисы Hadoop и управлять ими как on-premise, так и в облаке.

Ключевые преимущества Arenadata Hadoop

скачать сейчас
Пакет утилит для полной офлайн-установки
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматических установки и настройки компонентов как на «голом железе», так и на виртуальных машинах (в облаке). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы
Собственная система управления
Мы предоставляем открытую систему автоматического развёртывания и управления Arenadata Cluster Manager. Она является Multi-cloud системой и может быть развёрнута на любой имеющейся инфраструктуре, включая публичные облака
Сборка на базе открытых проектов Apache
ADH является полностью open-source дистрибутивом Hadoop, поэтому нашим клиентам никогда не придётся столкнуться с такой проблемой, как vendor lock-in
Набор типовых пакетных сервисов по планированию, установке и аудиту системы
Вам не придётся самостоятельно проводить оценку оборудования, которое потребуется для решения поставленной задачи. Наши специалисты настроят Arenadata Hadoop (удалённо или on-site), а в последствии проведут аудит системы и помогут разработать шаги для решения ваших проблем.
Возможность влиять на развитие функционала системы
Если у нас построены взаимоотношения с заказчиком, и мы видим, что для решения бизнес-задач ему требуются дополнительные сервисы, то можем добавить их в нашу экосистему и взять на поддержку как полноценный компонент платформы. Такими примерами для нас стали Apache Flink, Zeppelin и Solr.
Документация
Оригинальная документация на русском и английском языках поможет облегчить процесс планирования, установки и настройки кластера Hadoop.

Вы можете остаться на открытой версии Hadoop

После того, как компания Cloudera приобрела Hortonworks, прекращена поддержка бесплатной версии системы управления Ambari, и всем предлагается перейти на коммерческий продукт Cloudera Data Platform.

Что делать клиентам, которые хотят остаться на открытой версии Hadoop? Либо пользоваться текущей бесплатной версией, которая поддерживается небольшим количеством энтузиастов, либо мигрировать на закрытую систему управления от Cloudera.

Arenadata предлагает третий путь. Мы разработали собственный универсальный оркестратор гибридного ландшафта Arenadata Cluster Manager, позволяющий устанавливать сервисы Hadoop и управлять ими как on-premise, так и в облаке. У нас уже есть опыт миграции с Hortonworks на Arenadata. Если вам интересна её методика, можем обсудить.

запросить детали

Состав компонентов текущей и будущих версий:

Arenadata Hadoop roadmap

Российское программное обеспечение

Arenadata Hadoop — российское программное обеспечение, зарегистрированное в Едином реестре российских программ для электронных вычислительных машин и баз данных Минкомсвязи РФ
Его разработкой занимаются специалисты, рассредоточенные в различных регионах России: Москве, Санкт-Петербурге, Хабаровске.
Используя ADH, вы защищены от валютных рисков, поскольку цены на продукт представлены исключительно в рублях.
Документация к Arenadata Hadoop, техническая поддержка продукта и обучающие курсы предоставляются на русском языке

Используйте Arenadata Hadoop в облаке уже сейчас

Мы не ограничиваем наших клиентов в выборе типа инфраструктуры: Arenadata Hadoop одинаково эффективно будет работать как на bare-metal, так и в облаке. Вы можете воспользоваться востребованным сегодня сценарием — гибридной ИТ-инфраструктурой или Multi-clouds. Или же установить ADH распределённо на разные инфраструктуры, главное обеспечить между ними сетевую доступность.

Стоимость решения и лицензирование

Стоимость временной лицензии с вложенной технической поддержкой на продукт ADH зависит от количества физических ядер, типа кластера (prod, test) и требуемого SLA (24х7, 8х5).

Рассчитайте необходимое количество серверов заданной конфигурации для хранения и обработки указанного объема пользовательских данных в HDFS.

Калькулятор оборудования

Получить информацию о стоимости программного обеспечения или о возможности использования программного обеспечения на условиях открытой лицензии можно, заполнив форму обратной связи.

запросить детали

FAQ

Чем Arenadata Hadoop отличается от ванильного Hadoop?

Под термином Hadoop, как правило, понимается не только распределённая файловая система HDFS и менеджер ресурсов YARN, но и целый набор инструментов для работы с большими данными. Собрать такой набор инструментов так, чтобы они работали вместе, и обеспечивать их эксплуатацию — это сложная инженерная задача. Однако с использованием Arenadata Cluster Manager (ADCM) это становится легко. Благодаря ADCM вы практически сразу получите сборку Arenadata Hadoop (ADH), которая состоит из самых последних и стабильных версий продуктов фонда Apache – экосистемы больших данных: HDFS, YARN, HBase, Spark, Hive, Sqoop, Solr. Кроме того, в отличие от «ванильного Hadoop», ADH имеет систему безопасности на основе Kerberos и Rangеr c возможностью интеграции со службой Active Directory предприятия. И, конечно, в составе продукта Arenadata есть система мониторинга для непрерывного отслеживания состояния компонентов ADH.

Какие отличия в редакциях Community и Enterprise?

Какие наиболее значимые функциональные особенности есть у Arenadata Hadoop?

  • Возможность хранения данных как в реляционном виде, так и в виде файлов в распределённой иерархической сетевой файловой системе.
  • Возможность обработки и хранения данных любых типов и форматов.
  • Высокая доступность для следующих сервисов: HDFS, YARN.
  • Наличие СУБД (Hive) для выполнения SQL подобных запросов и анализа данных, хранящихся на HDFS.
  • Наличие версионной нереляционной распределённой базы данных (Hbase), работающей поверх HDFS.

Какие возможности по масштабированию есть у Arenadata Hadoop?

  • Наличие поддержки работы в кластере из множества серверов.
  • Линейная горизонтальная масштабируемость.

Благодаря чему обеспечивается отказоустойчивость?

  • Нативная отказоустойчивость без доработок ПО.
  • Возможность шардирования данных. Под шардированием подразумевается подход, при котором секции файлов и таблиц базы данных могут храниться на разных, физически и логически независимых серверах кластера.
  • Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hadoop?

  • Наличие инструмента управления сервисами в кластере.
  • Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
  • Наличие инструментария пошаговой установки сервисов на любое количество хостов.
  • Возможность настройки прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы. В том числе с использованием доменной авторизации по протоколу LDAP.
  • Наличие пакета утилит для полной установки без доступа к интернету.

Как всем этим управлять?

Управление жизненным циклом всех продуктов осуществляется с помощью Arenadata Cluster Manager. Этот оркестратор позволяет осуществлять установку, настройку и обновление кластеров Arenadata Hadoop.

Какие механизмы информационной безопасности реализованы в дистрибутиве?

Корпоративная версия Arenadata Hadoop интегрирована с подсистемой Arenadata Platform Security, которая поддерживает расширенную безопасность системы и данных. Это аутентификация с использованием Kerberos, интеграция с LDAP/Active Directory, поддержка авторизации доступа к объектам кластера с использованием Ranger, журналы и отчёты аудита.

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера. По умолчанию фактор репликации равен трём, однако вы можете использовать помехоустойчивое кодирование, существенно снизив коэффициент репликации, например до 1,5.

Какие форматы хранения поддерживаются?

Концепция «Озера данных», которую реализуют с использованием Hadoop, предполагает загрузку данных в кластер на начальном этапе с последующей обработкой. Поэтому в широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark и Hive, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации: сжатие, фильтр Блума, индексирование и сортировка. Это parquet и orc.

Какой максимальный объём данных можно хранить в Hadoop?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Hadoop — это DWH?

Hadoop имеет архитектуру, очень похожую на хранилище данных MPP, но с некоторыми очевидными отличиями. В отличие от хранилища данных, Hadoop реализует концепцию «Озера данных» — это хранилище, в котором данные хранятся в исходном, т. е. необработанном, формате, обычно в виде больших двоичных объектов или файлов.

Если говорить о конкретном дистрибутиве Arenadata Hadoop, то отличий ещё меньше. В состав дистрибутива входит одна из самых популярных распределённых аналитических СУБД Hive. Создание производственного DWH на базе Hive достаточно часто и успешно реализуется во многих компаниях.

Что такое Hive?

Apache Hive — это система управления базами данных на основе платформы Hadoop с открытым исходным кодом. Сегодня это одна из самых популярных распределённых СУБД с открытым исходным кодом. В качестве слоя хранения она может использовать HDFS, что позволяет ей быть эффективной в отношении таких показателей, как цена хранения и стоимость аналитической обработки больших данных. Hive поддерживает требования к транзакционной системе (ACID), что делает её исключительно близкой к классическим решениям, на которых строится DWH.

Есть ли обработка транзакций в реальном времени?

Да, в ADH для таких целей есть HBase и Phoenix.

Что такое HBase?

HBase — это распределённая база данных с открытым исходным кодом, которая относится к категории «семейство столбцов» и представляет собой хранилище типа «ключ-значение» (key-value). Оно позволяет поддерживать OLTP-нагрузку в инфраструктуре Hadoop. Сочетание с Apache Phoenix, который даёт возможность выполнять SQL-запросы и строить первичные и вторичные индексы, превращает его в инструмент стека SQL-on-Hadoop.

Есть ли поддержка транзакции в Arenadata Hadoop?

В состав Hadoop входит СУБД Hive, которая поддерживает требования к транзакционной системе (ACID), как и любые другие распределённые реляционные СУБД.

Есть ли индексы в Arenadata Hadoop?

Да. Индексы — это скорее атрибут OLTP-систем, чем OLAP. Поэтому их поддержка реализована в Apache Phoenix (входит в состав ADH).

Что такое Spark?

Платформа параллельной обработки с открытым исходным кодом, которая имеет API для наиболее популярных языков программирования. Предназначена для выполнения задач инженерии данных, анализа данных и машинного обучения на кластере Hadoop.

Что можно использовать для машинного обучения?

Для машинного обучения наиболее подходящим решением является библиотека MLlib в составе Apache Spark.

Что можно использовать для обработки графов?

Для выполнения графовой аналитики на больших данных подходящим решением является библиотека GraphX в составе Apache Spark.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hadoop для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data intensive, офлайн-моделей. И последнее — в составе Arenadata Hadoop есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Какие технические характеристики у Arenadata Hadoop?

Основными техническими характеристиками кластера Arenadata Hadoop являются:
  • количество дискового пространства, отведённого под файловую систему HDFS (определяется в терабайтах);
  • количество вычислительных ресурсов, выделенных для менеджера YARN (определяется в ядрах процессора и оперативной памяти).
Эти показатели зависят от количества узлов-обработчиков (Worker Node), которые входят в кластер, и наполнения отдельного, типового обработчика. Как правило, обработчик (Worker Node) — это отдельный, так называемый стоечный commodity-сервер с дюжиной и более дисков для HDFS в составе.

Где я могу найти документацию по Hadoop?

Ознакомиться с документацией можно здесь: https://hadoop.apache.org/docs/current/. Также на портале компании Arenadata есть раздел с документацией на русском языке: https://docs.arenadata.io/adh/.

Какие требования к оборудованию?

Принцип построения Hadoop предполагает использование недорогих и однотипных серверов с большим количеством HDD-накопителей в режиме JBOD (подключение непосредственно в сервер). Это позволяет обеспечивать хранение более 50 Тб на одном сервере при низкой стоимости оборудования. Подробнее можно почитать в руководстве по планированию кластера: https://docs.arenadata.io/adh/install/planning.html.

Какие ОС поддерживаются?

Arenadata Hadoop поддерживает CentOS 7.7 / RHEL 7.7.

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Получите консультацию по Arenadata Hadoop

Хотите узнать больше о возможностях Arenadata Hadoop, получить предложение на внедрение и поддержку? Заполните форму обратной связи. Вам оперативно ответят наши специалисты, готовые предоставить полноценную консультацию по созданию и поддержке Data Lake на базе Arenadata Hadoop.
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.