Система хранения и обработки неограниченного объёма данных

Arenadata Hadoop (ADH) — экосистема сервисов для хранения, обработки и анализа больших объёмов данных любого типа. Используется как основа для построения озёр данных, в том числе в проектах, связанных с машинным обучением и искусственным интеллектом.

Технологии, востребованные во всем мире

Arenadata Hadoop относится к категории «Системы управления базами данных (СУБД)», сегмент «Платформа Hadoop и СУБД на ней».

Экосистема Hadoop — де-факто стандарт для построения платформы данных корпоративного уровня. Тренд на цифровизацию и рост количества данных, с которыми постоянно работают корпорации
По оценке Gartner (Hype Cycle for Storage and Data Protection Technologies. Gartner, 2023), объём неструктурированных данных крупных корпораций вырастет в три раза в течение ближайших трёх лет.
, поддерживает устойчивый высокий спрос на системы такого класса.
Arenadata Hadoop лидирует в сегменте «Платформа Hadoop и СУБД на ней».
Согласно исследованию Фонда «Центр стратегических разработок» (ЦСР),
2024 год.

+14% в год

Рост сегмента «Платформа Hadoop и СУБД на ней»

+19% в год

Рост рынка СУБД

СУБД — одна из самых быстрорастущих категорий программного обеспечения. По оценке фонда ЦСР, рынок таких продуктов в России растёт в среднем на 19% в год. При этом темпы роста сегмента «Платформа Hadoop и СУБД на ней» в России составляют 14% в год, в ближайшие семь лет объём этого рынка увеличится в 2,5 раза.
 Согласно исследованию Фонда «Центр стратегических разработок» (ЦСР),
2024 год.

Целевые сценарии применения

Хранение и обработка больших объёмов данных любого типа:

  • Распределённая обработка данных.
  • Системы управления документами и контентом.
  • Хранение и регистрация событий.
  • Данные датчиков, каталоги товаров.
  • Резервное копирование других СУБД.

Построение озёр и фабрик данных:

  • Единый центр хранения всех данных компании.
  • Быстрое развёртывание «песочниц» для пилотных проектов и проверки статистических гипотез.
  • Работа со всеми аналитическими инструментами в единой среде.

Машинное обучение и искусственный интеллект:

  • Обучение моделей на основе больших данных.
  • Распределённое машинное обучение на основе Spark.
  • Эффективная эксплуатация моделей в SQL-среде с помощью встроенных функций MADlib.

Импортозамещение и разгрузка иностранных систем:

  • Миграция с иностранных систем (Oracle BDA, Cloudera и др.) с минимумом рисков и сохранением всех преимуществ.

Корпоративный дистрибутив для распределённой масштабируемой обработки данных

Arenadata Hadoop (ADH) — это корпоративный дистрибутив на основе Apache Hadoop, предназначенный для хранения, обработки и анализа больших объёмов неструктурированных и слабоструктурированных данных.

Он включает различные компоненты экосистемы Hadoop, такие как HDFS, MapReduce, YARN и другие проекты Apache.

В его состав также входят дополнительные инструменты, упрощающие развёртывание и управление, а также привносящие новые сценарии использования Hadoop в корпоративных средах.

Российский продукт

Свидетельство о государственной регистрации программы для ЭВМ

Номер регистрации

2019660895

Дата регистрации

15.08.2019

Включён в единый реестр российских программ для электронных вычислительных машин и баз данных

Номер реестровой записи

6481

Дата формирования

07.04.2020

Продукт Arenadata Hadoop внесен в государственный реестр сертифицированных средств защиты информации ФСТЭК России

Номер сертификата

4821

Дата формирования

13.06.2024

Техническая поддержка

Средний SLA службы технической поддержки.

Базовая

Премиальная

Расширенная

Средний SLA службы технической поддержки.

Дополнительная экспертиза для успеха проекта

Клиентам Arenadata необязательно разбираться в том, как устроены продукты компании и как реализовать проект на их основе с минимальными рисками и затратами.

Экспертиза вендора

Arenadata сопровождает заказчиков на всех этапах реализации проекта.

Наши эксперты предлагают оптимальные архитектурные и проектные решения, проводят аудиты, формируют рекомендации и консультируют по широкому кругу технических вопросов.

Экспертиза партнёров

У Arenadata более сотни партнёров, в числе которых облачные провайдеры, OEM-производители, разработчики ПО, системные интеграторы и консалтинговые организации.

Каждый из них обладает экспертизой по своему направлению и понимает, как работать с продуктами Arenadata. Наше программное обеспечение совместимо с продуктами многих вендоров, включая российские операционные системы, системы класса BI, АБС, NRT и AI.

Курсы по продуктам

В учебном центре Arenadata под руководством опытных преподавателей слушатели курсов учатся установке, настройке, конфигурированию и обслуживанию наших продуктов.

Альтернатива иностранным системам

Благодаря технической зрелости и функциональности продукты нашей компании замещают решения многих иностранных вендоров.

Технические возможности

01/

Универсальность

Обработка и хранение данных любых типов и форматов как в реляционном виде, так и в виде файлов в распределённой иерархической сетевой файловой системе.    

02/

Отказоустойчивость

Поддерживается режим высокой доступности с автоматическим управлением для сервисов HDFS, YARN, Flink, Airflow2.

03/

Система безопасности

Наличие системы безопасности Arenadata Platform Security на базе Kerberos, Ranger и Knox с возможностью интеграции со службой Active Directory или FreeIPA предприятия.

04/

Пакет утилит для полной офлайн-установки и настройки

Набор инструментов для автоматической установки и настройки компонентов как на физических серверах, так и в облаке.

05/

Простота управления

Оркестратор Arenadata Cluster Manager работает в автоматическом и полуавтоматическом режиме, является multi-cloud-системой и может быть развёрнут на любой имеющейся инфраструктуре.

06/

Индивидуальный подход

Наши клиенты могут влиять на планы по развитию Arenadata Hadoop, а мы готовы взять на поддержку полноценный компонент продукта.      

07/

Нет vendor lock-in

Предоставляем тиражируемый продукт, совместимый с upstream-версиями Open Source проектов, — без привязки к поставщику. 

Стоимость решения

Стоимость временной/постоянной лицензии и технической поддержки на продукт зависит от количества физических ядер, типа кластера (prod, test) и рассчитывается индивидуально.

запросить детали

Состав компонентов Arenadata Hadoop

Отличия от Hadoop

Качественная сборка совместимых компонентов

Hadoop — это множество сервисов, призванных взаимодействовать друг с другом. Дистрибутив Arenadata Hadoop включает последние и стабильные версии компонентов экосистемы больших данных Apache, они гарантированно совместимы и управляются из единого центра — Arenadata Cluster Manager.

Безопасность

Единая, интегрированная во все сервисы система безопасности Arenadata Platform Security на основе Kerberos, Ranger и Knox. Хранилище ключей и HDFS-шифрование. Поддержка единой защищённой точки доступа к сервисам. Поддержка SSL. Шифрование чувствительных данных в файлах конфигурации.

Дополнительные инструменты

Функции отказоустойчивости и аварийного восстановления, автоматизация управления и мониторинга, высокопроизводительные коннекторы для интеграции Arenadata Hadoop с другими продуктами Arenadata и внешними системами.

Документация

Для всех продуктов Arenadata создана и постоянно поддерживается в актуальном состоянии оригинальная интерактивная документация на русском и английском языках. Документация

Техническая экспертиза

Наша команда оценивает исправления багов, полученные от сообщества Hadoop, и определяет, какие из них следует включить в продукт, а также разрабатывает собственные сервисы. Все продукты Arenadata тщательным образом тестируются, а также проверяются на наличие уязвимостей и вредоносного кода.

Коннекторы

ADB Kafka Connector

Специализированный коннектор для параллельного обмена данными между Apache Spark в составе Arenadata Hadoop и Arenadata DB.

Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции. Входит в пакет поставки Arenadata Hadoop.

Документация

ADQM Spark Connector

Многофункциональный коннектор с поддержкой параллельных операций чтения-записи между Apache Spark в составе Arenadata Hadoop и Arenadata QuickMarts.

Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции. Входит в пакет поставки Arenadata Hadoop.

Документация

Хотите изучить базовые возможности Arenadata Hadoop?

Скачайте комьюнити-версию.

скачать

Нам доверяют

Остались вопросы?

Если вы не нашли ответа на свой вопрос, вы можете воспользоваться формой обратной связи.

хочу спросить

Чем Arenadata Hadoop отличается от Hadoop?

Под термином Hadoop, как правило, понимается не только распределённая файловая система HDFS и менеджер ресурсов YARN, но и целый набор инструментов для работы с большими данными. Собрать такой набор инструментов, чтобы они работали вместе, и обеспечивать их эксплуатацию — сложная инженерная задача. Однако c использованием Arenadata Cluster Manager (ADCM) это становится легко. Благодаря ADCM вы практически сразу получите сборку Arenadata Hadoop (ADH), которая состоит из самых последних и стабильных версий продуктов фонда Apache — экосистемы больших данных: HDFS, YARN, HBase, Spark, Hive, Sqoop, Solr, Impala. Кроме того, в отличие от Hadoop, ADH имеет систему безопасности на основе Kerberos, Rangеr и Knox c возможностью интеграции со службой Active Directory предприятия. И, конечно, в составе продукта Arenadata есть система мониторинга для непрерывного отслеживания состояния компонентов ADH.

Какие отличия в редакциях Community и Enterprise?

Различия в компонентах:

Компоненты Enterprise Edition Community Edition
HDFS (NameNode/DataNode/HTTPFS) + +
Journal Nodes +
ZKFC +
YARN (Resource Manager/Node Manager) + +
Hive (Metastore/Server/Thrift) + + Impala + + + +
HBase (Master/Region Server/Thrift Server) + +
Phoenix Query Server + +
Tez/Tez UI + +
Sqoop/Metastore + +
Spark/History Server + +
Solr Server + +
Airflow + +
Flink (JobMaster/TaskMaster) + +
Zeppelin + +
Zookeeper + +
Impala + +
Clients (HDFS, YARN, Hive, Tez, HBase, Spark, Sqoop, Impala) + +
Ranger Admin +
Ranger UserSync +
Ranger Embedded Services (Zookeeper, Solr) +
Knox +
Kerberos +
Различия в функционале редакций Hadoop:
Возможности Enterprise Edition Community Edition
Развертывание сервисов и конфигурация + +
Работа в отказоустойчивом режиме YARN NodeManager, HBase Master, Hive
Metastore
+ +
Наличие сервисов и системных метрик + +
Erasure Coding + +
Множественные NameNodes +
Работа в отказоустойчивом режиме NameNode (Active/Standby) +
Автоматическое переключение NameNode при падении +
Kerberos конфигурация (AD/MIT/FreeIPA) +
Поддержка сервисных политик доступа к данным (Ranger) +
Аудит обращений к данным (Ranger) +
Хранилище ключей и HDFS шифрование +
Поддержка единой защищенной точки доступа к сервисам +
Поддержка SSL +
В случае приобретения enterprise-редакции ПО у заказчиков Arenadata есть возможность воспользоваться дополнительными консалтинговыми услугами «DBA как услуга», «Технический аккаунт-менеджмент», «Аудит цифрового ландшафта» и Smart Start. Нашим клиентам не обязательно разворачивать и настраивать все компоненты платформы самостоятельно — инженеры
Arenadata могут выполнить эти работы в полном объёме.
Кроме того, заказчикам enterprise-редакции наших продуктов мы обеспечиваем корпоративную техническую поддержку в режиме 24/7 или 8/5 в соответствии с согласованными стандартами SLA.
В рамках договора фиксируется время первого ответа на обращение, гарантии по оперативной диагностике и устранению сбоев, развёрнутые консультации и помощь в установке обновлений.

Какие наиболее значимые функциональные особенности есть у Arenadata Hadoop?

  • Возможность хранения данных как в реляционном виде, так и в виде файлов в распределённой иерархической сетевой файловой системе.
  • Возможность обработки и хранения данных любых типов и форматов.
  • Высокая доступность для следующих сервисов: HDFS, YARN.
  • Наличие системы безопасности Arenadata Platform Security на базе Kerberos, Ranger и Knox с возможностью интеграции со службой Active Directory предприятия.
  • Наличие СУБД (Hive) для выполнения SQL запросов и анализа данных, хранящихся на HDFS.
  • Наличие версионной нереляционной распределённой базы данных (Hbase), работающей поверх HDFS.
  • Поддержка Apache Impala — распределенной системы исполнения SQL-запросов в экосистеме Hadoop.
  • Поддержка Flink — популярной распределённой платформы обработки потоков данных.
  • Наличие ADB Spark Connector, предоставляющего возможность высокоскоростного параллельного обмена данными между Apache Spark и Arenadata DB — аналитической распределённой СУБД на базе МРР-системы с открытым исходным кодом Greenplum.

Какие возможности по масштабированию есть у Arenadata Hadoop?

  • Поддержка работы в кластере из множества серверов.
  • Линейная горизонтальная масштабируемость.
  • Возможность вынести аналитическую нагрузку за пределы основного кластера благодаря Impala.

Благодаря чему обеспечивается отказоустойчивость?

  • Нативная отказоустойчивость без доработок ПО.
  • Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hadoop?

  • Инструмент управления сервисами в кластере.
  • Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
  • Инструментарий пошаговой установки сервисов на любое количество хостов.
  • Настройка прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы, в том числе с использованием доменной авторизации по протоколу LDAP.
  • Пакет утилит для полной установки без доступа к интернету.
  • Установка, настройка и обновление кластеров Arendata Hadoop осуществляется с помощью универсального оркестратора гибридного ландшафта Arenadata Cluster Manager

Какие механизмы информационной безопасности реализованы в дистрибутиве?

Корпоративная версия Arenadata Hadoop интегрирована с системой централизованного управления политиками безопасности кластера Arenadata Platform Security (ADPS). ADPS включает следующие компоненты безопасности:

  • аутентификацию с использованием Kerberos, интеграцию с LDAP/Active Directory,
  • интеграцию с Apache Knox и Ranger для обеспечения безопасного доступа к кластерам Hadoop,
  • журналы и отчёты аудита.

Вместе эти компоненты ADPS обеспечивают комплексный подход к безопасности, включающий защиту периметра, управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает бизнесу защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера.

Какие форматы хранения поддерживаются?

Концепция «Озера данных», которую реализуют с использованием Hadoop, предполагает загрузку данных в кластер на начальном этапе с последующей обработкой. Поэтому в широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark, Hive, Impala, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации — это parquet и orc.

Какой максимальный объём данных можно хранить в Hadoop?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Что такое Hive?

Apache Hive — это распределённая система выполнения SQL-запросов в экосистеме Hadoop. В качестве слоя хранения она может использовать HDFS, что позволяет ей быть эффективной в отношении таких показателей, как цена хранения и стоимость аналитической обработки больших данных.

Что такое HBase?

HBase — это распределённая база данных с открытым исходным кодом, которая относится к категории «семейство столбцов» и представляет собой хранилище типа key-value. Оно позволяет поддерживать OLTP-нагрузку в инфраструктуре Hadoop. Сочетание с Apache Phoenix, который даёт возможность выполнять SQL-запросы и строить первичные и вторичные индексы, превращает его в инструмент стека SQL-on-Hadoop.

Что такое Spark?

Платформа параллельной обработки с открытым исходным кодом, которая имеет API для наиболее популярных языков программирования. Предназначена для выполнения задач инженерии данных, анализа данных и машинного обучения на кластере Hadoop.

Что такое Impala?

Распределённая система исполнения SQL-запросов в экосистеме Hadoop. Предназначена для массивно-параллельной обработки (МРР) больших объёмов данных в режиме реального времени. Позволяет выполнять интерактивные запросы к данным, хранящимся в HDFS. Impala разработана для простоты использования и интеграции с существующими инструментами BI и аналитики. Поддерживает стандартные SQL-запросы и JDBC/ODBC-драйверы для простой интеграции с широким спектром приложений.

Что такое Smart Storage Manager (SSM)?

Инструмент для оптимизации хранения и управления данными, расширяющий возможности распределённой файловой системы HDFS.

Основные сценарии:

  • Асинхронная репликация данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем.
  • Оптимизация управления данными в зависимости от их востребованности (температуры).
  • Гибкая настройка включения Erasure Coding с помощью политик и правил.
  • Оптимизация потребления памяти при работе с небольшими файлами.

Что такое Kyuubi?

Распределённый многопользовательский шлюз для предоставления serverless SQL для DWH и DataLake.
Создаёт распределённые механизмы SQL-запросов поверх различных вычислительных платформ (Spark, Flink, Hive, Impala и др.), чтобы получать и обрабатывать большие наборы данных из разнородных источников.

Основные возможности:

  • Сквозная поддержка доступа нескольких пользователей через единую систему аутентификации и авторизации.
  • Высокая доступность (НА) enterprise-уровня благодаря балансировке нагрузки.
  • Поддержка разнородных рабочих нагрузок в рамках одной платформы, одной копии данных и одного интерфейса SQL.

Есть ли поддержка транзакции в Arenadata Hadoop?

В состав ADH входит распределённая система выполнения SQL-запросов Hive, которая поддерживает требования к транзакционной системе (ACID), как и любые другие распределённые реляционные СУБД.

Есть ли обработка транзакций в реальном времени?

Да, в ADH для таких целей есть HBase и Phoenix.

Есть ли индексы в Arenadata Hadoop?

Да. Индексы — это скорее атрибут OLTP-систем, чем OLAP. Поэтому их поддержка реализована в Phoenix, входящем в состав ADH.

Что можно использовать для машинного обучения?

Для машинного обучения наиболее подходящим решением является библиотека MLlib в составе Spark.

Что можно использовать для обработки графов?

Для выполнения графовой аналитики на больших данных подходящим решением является библиотека GraphX в составе Spark.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hadoop для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data Intensive, офлайн-моделей. И последнее — в составе Arenadata Hadoop есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Какие технические характеристики у Arenadata Hadoop?

Основными техническими характеристиками кластера Arenadata Hadoop являются:

  • количество дискового пространства, отведённого под файловую систему HDFS (определяется в терабайтах);
  • количество вычислительных ресурсов, выделенных для менеджера YARN (определяется в ядрах процессора и оперативной памяти).
Эти показатели зависят от количества узлов-обработчиков (Worker Node), которые входят в кластер, и наполнения отдельного, типового обработчика. Как правило, обработчик (Worker Node) — это отдельный, так называемый стоечный commodity-сервер с дюжиной и более дисков для HDFS в составе.

Какие требования к оборудованию?

Принцип построения Hadoop предполагает использование недорогих и однотипных серверов с большим количеством HDD-накопителей в режиме JBOD (подключение непосредственно в сервер). Это позволяет обеспечивать хранение более 50 Тб на одном сервере при низкой стоимости оборудования.

Где я могу найти документацию по Hadoop?

Официальная документация по продукту ADH доступна на портале: https://docs.arenadata.io/ru/ADH/current/introduction/intro.html

Вы также можете ознакомиться с документацией к Apache Hadoop: https://hadoop.apache.org/docs/current/

Ждём ваши вопросы!

Задать вопрос

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.