Гибридная платформа данных

Arenadata Hyperwave (ADH) — универсальная платформа на основе open-source компонентов и проприетарных решений, предназначенная для хранения, обработки и анализа данных вне зависимости от их структуры и объёма. ADH предоставляет набор инструментов и сервисов для реализации современных паттернов — от Data Lake до Lakehouse и Data Mesh
Прежнее название продукта — Arenadata Hadoop.

Arenadata Hyperwave изначально базировался на экосистеме Hadoop (HDFS, MapReduce, YARN, Hive, Spark и др.), но со временем эволюционировал, включив новые компоненты: Ozone, Trino, Iceberg, Kyuubi и др. Базовую функциональность хранения и обработки неструктурированных данных дополнили новые возможности: ACID-транзакции, федеративные запросы, автоматизированное хранение и расширенная безопасность.

С версии ADH 4.0.0 продукт избавился от жёстких зависимостей между сервисами и позволяет разворачивать кластеры с любым набором компонентов без обязательных Hadoop-сервисов. В связи с этим было решено сменить название, чтобы лучше отразить новые возможности и технологический стек.

Архитектурные паттерны
Современные аналитические и операционные задачи требуют принципиально разных подходов к хранению и обработке данных. Платформа Arenadata Hyperwave предлагает гибридную архитектуру, где вы сможете выбрать необходимый состав компонентов для реализации любых современных паттернов — от Data Lake до Lakehouse и Data Mesh.

Data Lake
Подход предполагает наличие выделенного хранилища данных для оперативной отчётности, отдельного решения для быстрых SQL-запросов и озера данных для дешёвого хранения исторических данных и удобной интеграции.
  • Интеграция данных: сбор и согласование данных из разнородных источников (IoT-датчики, веб-логи, финансовые транзакции) в едином озере

  • Аналитика логов: хранение «сырых» лог-файлов в озере данных и последующая их агрегация в КХД для корреляции событий и оповещений об инцидентах

  • Анализ больших данных: предварительная обработка и хранение «сырых» данных в озере, глубокий статистический и BI-анализ — в КХД

Lakehouse
Универсальная платформа, объединяющая мощность классического хранилища с гибкостью озера данных. Позволяет выполнять любые нагрузки – от батчевой аналитики до стриминговых вычислений и машинного обучения.
  • GenAI и LLM используют огромные объёмы данных. ADH предоставляет инструменты и инфраструктуру для их обработки и выполнения сложных запросов

  • Анализ больших данных (веб-активность, показания датчиков, финансовые данных и др.), ценный для понимания рыночных трендов

  • Обнаружение и предотвращение мошенничества (real-time): потоковая обработка транзакций и событий с низкой задержкой, применение ML-моделей на лету

  • Интеграция данных в едином хранилище помогает устранить разрозненность и обеспечить их согласованное представление

Data Mesh & Multitenancy
Data Mesh превращает данные в продукты, а платформа Arenadata Hyperwave обеспечивает инфраструктуру для этого подхода: доменные команды работают с изолированными данными через единый каталог, сохраняя автономность. Мультитенантность реализована на всех уровнях — от разделения на уровне хранилища и ресурсов, контроля доступа (Apache Ranger) до физического выделения кластера с необходимыми компонентами под отдельный домен. Это позволяет безопасно делить платформу между командами, партнёрами и окружениями, соблюдая compliance и оптимизируя затраты.
  • Корпоративные Data Mesh-инициативы: доменные команды развивают собственные хранилища в рамках единого каталога, сохраняя автономию и единообразие метаданных

  • Безопасное разделение среды — физическая или логическая изоляция кластеров под разные бизнес-юниты, партнёров или окружения (dev/prod)

  • Compliance и управление доступом: тонкая гранулярная настройка политик безопасности и аудита


Универсальная гибридная платформа для хранения, обработки и анализа данных любой структуры и объёма

Изначально Arenadata Hyperwave базировался на инструментах и компонентах экосистемы Hadoop (HDFS, MapReduce, YARN, Hive, Spark и др.). Со временем дистрибутив эволюционировал, включив новые компоненты: Ozone, Trino, Iceberg, Kyuubi и др. Базовую функциональность хранения и обработки неструктурированных данных дополнили новые возможности: ACID-транзакции, федеративные запросы, автоматизированное хранение и расширенная безопасность.

Начиная с версии ADH 4.0.0 продукт избавился от жёстких межкомпонентных зависимостей и позволяет разворачивать кластеры без обязательных Hadoop-сервисов, являясь современной платформой данных для гибридных нагрузок.

Российский продукт

Свидетельство о государственной регистрации программы для ЭВМ

Номер регистрации

2019660896

Дата регистрации

15.08.2019

Включён в единый реестр российских программ для электронных вычислительных машин и баз данных

Номер реестровой записи

6355

Дата формирования

07.04.2020

Продукт внесен в государственный реестр сертифицированных средств защиты информации ФСТЭК России

Номер сертификата

4821

Дата формирования

13.06.2024

Техническая поддержка

Средний SLA службы технической поддержки.

Базовая

Премиальная

Расширенная

Средний SLA службы технической поддержки.

Дополнительная экспертиза для успеха проекта

Клиентам Arenadata необязательно разбираться в том, как устроены продукты компании и как реализовать проект на их основе с минимальными рисками и затратами.

Экспертиза вендора

Arenadata сопровождает заказчиков на всех этапах реализации проекта.

Наши эксперты предлагают оптимальные архитектурные и проектные решения, проводят аудиты, формируют рекомендации и консультируют по широкому кругу технических вопросов.

Экспертиза партнёров

У Arenadata более сотни партнёров, в числе которых облачные провайдеры, OEM-производители, разработчики ПО, системные интеграторы и консалтинговые организации.

Каждый из них обладает экспертизой по своему направлению и понимает, как работать с продуктами Arenadata. Наше программное обеспечение совместимо с продуктами многих вендоров, включая российские операционные системы, системы класса BI, АБС, NRT и AI.

Курсы по продуктам

В учебном центре Arenadata под руководством опытных преподавателей слушатели курсов учатся установке, настройке, конфигурированию и обслуживанию наших продуктов.

Альтернатива иностранным системам

Благодаря технической зрелости и функциональности продукты нашей компании замещают решения многих иностранных вендоров.



Узнать подробнее


Технические возможности

  • Распределённое отказоустойчивое хранение больших данных
  • Доступно объектное хранилище с S3-совместимым интерфейсом
  • Поддержка колоночных форматов для аналитических нагрузок
  • Из коробки доступен табличный формат Iceberg с поддержкой ACID-транзакций
  • Горизонтальное масштабирование до экзабайт данных
  • Поддержка горячего/холодного хранения
  • Автоматизация управления хранением данных в аспектах организации многоуровневого хранения, репликации, управления сжатием, настройки политик Erasure Coding и др.
  • Multi Engine обработка данных
  • Единая платформа для пакетной и потоковой загрузки и аналитики
  • Доступные открытые и проприетарные коннекторы ко всем популярным системам
  • Интеграция с единым метастором
  • Федеративные распределённые запросы к разнородным источникам
  • Low-latency для OLAP-запросов поверх HDFS/Ozone/S3
  • Поддержка полнотекстового, векторного и геопространственного поиска
  • Единые веб-интерфейсы для доступа ко всей платформе
  • Интерактивная аналитика
  • Совместимость с BI-инструментами
  • Multitenant поддержка
  • Централизованное управление RBAC-политиками
  • Интеграция с LDAP/AD/Kerberos
  • Колоночное маскирование
  • Шифрование данных и чувствительных конфигураций
  • Трассировка всех операций и централизованный аудит системы
  • Сертификация для корпоративных сред
  • Распределённое отказоустойчивое хранение больших данных
  • Доступно объектное хранилище с S3-совместимым интерфейсом
  • Поддержка колоночных форматов для аналитических нагрузок
  • Из коробки доступен табличный формат Iceberg с поддержкой ACID-транзакций
  • Горизонтальное масштабирование до экзабайт данных
  • Поддержка горячего/холодного хранения
  • Автоматизация управления хранением данных в аспектах организации многоуровневого хранения, репликации, управления сжатием, настройки политик Erasure Coding и др.
OIBDAC, млрд руб.
CAGR123123
0,7
0,8
1,5
2,1
CAGR — среднегодовой темп роста
NIC (скорр. чистая прибыль), млрд руб.
CAGR’21–’23: +47%
0,6
CAGR — среднегодовой темп роста
NIC (скорр. чистая прибыль), млрд руб.
Долговая нагрузка отсутствует.
Чистый долг / OIBDA’23: (0,6x)

Стоимость решения

Стоимость временной/постоянной лицензии и технической поддержки на продукт зависит от количества физических ядер, типа кластера (prod, test) и рассчитывается индивидуально.

запросить детали

Состав компонентов Arenadata Hyperwave

ADH 3.2.4.3
ADH 3.3.6.1
ADH 3.3.6.2
ADH 4.0.0
ADH 4.1.0

Storage

HDFS

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH + cистема управления вычислительными ресурсами и планирования задач в кластере Hadoop

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH + cистема управления вычислительными ресурсами и планирования задач в кластере Hadoop

Released
ADH 3.2.4.3
3.2.4
ADH 3.3.6.1
3.3.6
ADH 3.3.6.2
3.3.6
ADH 4.0.0
3.3.6
In Development
ADH 4.1.0
3.4.2
3.2.4
3.3.6
3.3.6
3.3.6
3.4.2
Ozone

Масштабируемое распределённое объектное хранилище в экосистеме Hadoop

Масштабируемое распределённое объектное хранилище в экосистеме Hadoop

Released
ADH 3.2.4.3
ADH 3.3.6.1
ADH 3.3.6.2
1.4.1
ADH 4.0.0
1.4.1
In Development
ADH 4.1.0
2.0.0
1.4.1
1.4.1
2.0.0

Resource Management

YARN

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH + cистема управления вычислительными ресурсами и планирования задач в кластере Hadoop

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH + cистема управления вычислительными ресурсами и планирования задач в кластере Hadoop

Released
ADH 3.2.4.3
3.2.4
ADH 3.3.6.1
3.3.6
ADH 3.3.6.2
3.3.6
ADH 4.0.0
3.3.6
In Development
ADH 4.1.0
3.4.2
3.2.4
3.3.6
3.3.6
3.3.6
3.4.2

Coordination

ZooKeeper

Сервис для координации больших распределённых систем, широко используемый в кластерах Hadoop

Сервис для координации больших распределённых систем, широко используемый в кластерах Hadoop

Released
ADH 3.2.4.3
3.5.10
ADH 3.3.6.1
3.8.4
ADH 3.3.6.2
3.8.4
ADH 4.0.0
3.8.4
In Development
ADH 4.1.0
3.8.4
3.5.10
3.8.4
3.8.4
3.8.4
3.8.4

Service Management

SSM

Smart Storage Manager — инструмент для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др.

Smart Storage Manager — инструмент для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др.

Released
ADH 3.3.2.4
1.6.0
ADH 3.3.6.1
2.0.0
ADH 3.3.6.2
2.0.1
ADH 4.0.0
2.1.0
In Development
ADH 4.1.0
2.2.0
1.6.0
2.0.0
2.0.1
2.1.0
2.2.0

Data Access

Zeppelin

Веб-блокнот для поиска и визуализации, их обмена и взаимодействия с Hadoop и Spark

Веб-блокнот для поиска и визуализации, их обмена и взаимодействия с Hadoop и Spark

Released
ADH 3.2.4.3
0.11.1
ADH 3.3.6.1
0.11.1
ADH 3.3.6.2
0.11.1
ADH 4.0.0
0.11.2
In Development
ADH 4.1.0
0.11.2
0.11.1
0.11.1
0.11.1
0.11.2
0.11.2
Kyuubi

Распределённый многопользовательский SQL-шлюз для операций на корпоративных хранилищах и озёрах данных, простой и безопасный доступ к любому ресурсу кластера через единую точку входа

Распределённый многопользовательский SQL-шлюз для операций на корпоративных хранилищах и озёрах данных, простой и безопасный доступ к любому ресурсу кластера через единую точку входа

Released
ADH 3.3.4.3
1.8.1
ADH 3.3.6.1
1.9.0
ADH 3.3.6.2
1.9.0
ADH 4.0.0
1.10.1
In Development
ADH 4.1.0
1.10.2
1.8.1
1.9.0
1.9.0
1.10.1
1.10.2
HUE

Популярный веб-интерфейс для анализа данных: запрос, поиск и анализ имеющихся данных без потери контекста

Популярный веб-интерфейс для анализа данных: запрос, поиск и анализ имеющихся данных без потери контекста

Released
ADH 3.2.4.3
1.6.0
ADH 3.3.6.1
4.11.0
ADH 3.3.6.2
4.11.0
ADH 4.0.0
4.11.0
In Development
ADH 4.1.0
4.11.0
1.6.0
4.11.0
4.11.0
4.11.0
4.11.0

Data Processing

Hive

Инфраструктура хранилища данных для обобщения, запросов и анализа больших наборов данных, хранящихся в Hadoop

Инфраструктура хранилища данных для обобщения, запросов и анализа больших наборов данных, хранящихся в Hadoop

Released
ADH 3.2.4.3
3.1.3
ADH 3.3.6.1
4.0.0
ADH 3.3.6.2
4.0.0
ADH 4.0.0
4.0.0
In Development
ADH 4.0.0
4.0.1
3.1.3
4.0.0
4.0.0
4.0.1
4.0.1
Spark2

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Released
ADH 3.2.4.3
2.3.2
ADH 3.3.6.1
2.3.2
ADH 3.3.6.2
2.3.2
ADH 4.0.0
In Development
ADH 4.1.0
2.3.2
2.3.2
2.3.2
Spark3

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Released
ADH 3.2.4.3
3.4.2
ADH 3.3.6.1
3.5.1
ADH 3.3.6.2
3.5.1
ADH 4.0.0
3.5.4
In Development
ADH 4.1.0
3.5.6
3.4.2
3.5.1
3.5.1
3.5.4
3.5.6
Spark4

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Released
ADH 3.2.4.3
ADH 3.3.6.1
ADH 3.3.6.2
ADH 4.0.0
In Development
ADH 4.1.0
4.0.0
4.0.0
Impala

Распределённый сервис для быстрого и эффективного исполнения SQL-запросов на сверхбольших объёмах данных в экосистеме Hadoop

Распределённый сервис для быстрого и эффективного исполнения SQL-запросов на сверхбольших объёмах данных в экосистеме Hadoop

Released
ADH 3.2.4.3
4.4.0
ADH 3.3.6.1
4.4.0
ADH 3.3.6.2
4.4.0
ADH 4.0.0
4.4.0
In Development
ADH 4.1.0
4.5.0
4.4.0
4.4.0
4.4.0
4.4.0
4.5.0
Flink

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Released
ADH 3.2.4.3
ADH 3.3.6.1
1.19.1
ADH 3.3.6.2
1.19.1
ADH 4.0.0
1.20.1
In Development
ADH 4.1.0
1.20.2
1.19.1
1.19.1
1.20.1
1.20.2
Flink2

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Released
ADH 3.2.4.3
ADH 3.3.6.1
ADH 3.3.6.2
ADH 4.0.0
In Development
ADH 4.1.0
2.0.0
2.0.0
HBase

База данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop

База данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop

Released
ADH 3.2.4.3
2.4.17
ADH 3.3.6.1
2.5.8
ADH 3.3.6.2
2.5.8
ADH 4.0.0
2.5.8
In Development
ADH 4.1.0
2.6.3
2.4.17
2.5.8
2.5.8
2.5.8
2.6.3
Solr

Сервис, обеспечивающий распределённую индексацию, репликацию и балансировку нагрузки при запросах, автоматическое восстановление, централизованную настройку и др.

Сервис, обеспечивающий распределённую индексацию, репликацию и балансировку нагрузки при запросах, автоматическое восстановление, централизованную настройку и др.

Released
ADH 3.2.4.3
8.11.2
ADH 3.3.6.1
8.11.3
ADH 3.3.6.2
8.11.3
ADH 4.0.0
8.11.3
In Development
ADH 4.1.0
8.11.3
8.11.2
8.11.3
8.11.3
8.11.3
8.11.3
Sqoop

Инструмент для передачи данных между реляционными базами данных и кластерами Hadoop

Инструмент для передачи данных между реляционными базами данных и кластерами Hadoop

Released
ADH 3.2.4.3
1.4.7
ADH 3.3.6.1
1.4.7
ADH 3.3.6.2
1.4.7
ADH 4.0.0
In Development
ADH 4.1.0
1.4.7
1.4.7
1.4.7
Trino

Федеративный аналитический SQL-движок для обработки больших объёмов данных из разных источников

Федеративный аналитический SQL-движок для обработки больших объёмов данных из разных источников

Released
ADH 3.3.6.1
ADH 3.3.6.2
468
ADH 4.0.0
468
In Development
ADH 4.1.0
476
468
468
476

Orchestration

Airflow2

Сервис для программного создания, планирования и мониторинга выполнения сложных процессов обработки данных (workflows)

Сервис для программного создания, планирования и мониторинга выполнения сложных процессов обработки данных (workflows)

Released
ADH 3.2.4.3
2.6.3
ADH 3.3.6.1
2.6.3
ADH 3.3.6.2
2.6.3
ADH 4.0.0
2.6.3
In Development
ADH 4.1.0
2.6.3
2.6.3
2.6.3
2.6.3
2.6.3
2.6.3

Security

Knox

Шлюз для обеспечения безопасного доступа к кластерам Hadoop и другим системам больших данных

Шлюз для обеспечения безопасного доступа к кластерам Hadoop и другим системам больших данных

Released
ADH 3.2.4.3
2.4.0
ADH 3.3.6.1
2.4.0
ADH 3.3.6.2
2.4.0
ADH 4.0.0
2.4.0
In Development
ADH 4.1.0
2.4.0
2.4.0
2.4.0
2.4.0
2.4.0
2.4.0
Ranger

Система безопасности, обеспечивающая контроль доступа на основе политик и авторизацию для дата-приложений и аналитики в Hadoop

Система безопасности, обеспечивающая контроль доступа на основе политик и авторизацию для дата-приложений и аналитики в Hadoop

Released
ADH 3.2.4.3
1.18.1
ADH 3.3.6.1
2.5.0
ADH 3.3.6.2
2.5.0
ADH 4.0.0
2.6.0
In Development
ADH 4.1.0
2.6.0
1.18.1
2.5.0
2.5.0
2.6.0
2.6.0
Kerberos

Сетевой протокол аутентификации

Сетевой протокол аутентификации

Released
ADH 3.3.6.1
latest
ADH 3.3.6.2
latest
ADH 4.0.0
latest
In Development
ADH 4.1.0
latest
latest
latest
latest
latest

Cluster Management

ADCM

Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта

Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта

Released
ADH 3.2.4.3
latest
ADH 3.3.6.1
latest
ADH 3.3.6.2
latest
In Development
ADH 4.0.0
latest
Sheduled
ADH 4.1.0
latest
latest
latest
latest
latest
Released
ADH 3.2.4.3
ADH 3.3.6.1
ADH 3.3.6.2
ADH 4.0.0
In Development
ADH 4.1.0
Deprecated

Отличия от Open Source

Качественная сборка совместимых компонентов

Дистрибутив Arenadata Hyperwave включает последние стабильные версии компонентов экосистемы Apache Hadoop и ряд других open source инструментов и проприетарных решений. Все они гарантированно совместимы и управляются из единого центра — Arenadata Cluster Manager.

Самостоятельная сборка сопоставимой по функциональности платформы из исходников требует существенных вложений в RnD, либо будет выполнена без оглядки на совместимость, что скажется на стоимости эксплуатации и повлечёт за собой простои.

Безопасность

Единая, интегрированная во все сервисы Arenadata Hyperwave система безопасности Arenadata Platform Security на основе Kerberos, Ranger и Knox. Хранилище ключей и HDFS-шифрование. Поддержка единой защищённой точки доступа к сервисам. Поддержка SSL. Шифрование чувствительных данных в файлах конфигурации.

Дополнительные инструменты

Функции отказоустойчивости и аварийного восстановления, автоматизация управления и мониторинга, высокопроизводительные коннекторы для интеграции Arenadata Hyperwave с другими продуктами Arenadata и внешними системами.

Документация

Для всех продуктов Arenadata создана и постоянно поддерживается в актуальном состоянии оригинальная интерактивная документация на русском и английском языках. Документация

Техническая экспертиза

Наша команда оценивает исправления багов, полученные от сообщества open source разработчиков, и определяет, какие из них следует включить в продукт, а также создаёт собственные сервисы. Все продукты Arenadata тщательным образом тестируются, а также проверяются на наличие уязвимостей и вредоносного кода.

Коннекторы

ADB Spark Connector

Специализированный коннектор для параллельного обмена данными между Apache Spark в составе Arenadata Hyperwave и Arenadata DB. Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции.

Поставляется как часть сервиса Spark, входящего в состав платформы Arenadata Hyperwave.

Документация

ADQM Spark Connector

Многофункциональный коннектор с поддержкой параллельных операций чтения-записи между Apache Spark в составе Arenadata Hyperwave и Arenadata QuickMarts. Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции.

Поставляется как часть сервиса Spark, входящего в состав платформы Arenadata Hyperwave.

Документация

Trino ADB Connector

Специализированный коннектор с поддержкой параллельных операций чтения/записи данных в кластере ADB — распределённой аналитической СУБД на базе МРР-системы Greenplum. Эффективен при обработке больших наборов данных.

Поставляется как часть сервиса Trino, входящего в состав платформы Arenadata Hyperwave.

Документация

Хотите изучить базовые возможности Arenadata Hyperwave?

Скачайте комьюнити-версию

скачать

Нам доверяют

Остались вопросы?

Если вы не нашли ответа на свой вопрос, вы можете воспользоваться формой обратной связи.

хочу спросить

Что такое Arenadata Hyperwave и где Arenadata Hadoop?

Arenadata Hyperwave — новое название Arenadata Hadoop.

Arenadata Hyperwave изначально базировался на экосистеме Hadoop (HDFS, MapReduce, YARN, Hive, Spark и др.), но со временем эволюционировал, включив новые компоненты: Ozone, Trino, Iceberg, Kyuubi и др. Базовую функциональность хранения и обработки неструктурированных данных дополнили новые возможности: ACID-транзакции, федеративные запросы, автоматизированное хранение и расширенная безопасность.

С версии ADH 4.0.0 продукт избавился от жёстких зависимостей между сервисами и позволяет разворачивать кластеры с любым набором компонентов без обязательных Hadoop-сервисов. В связи с этим было решено сменить название, чтобы лучше отразить новые возможности и технологический стек.

Какие отличия в редакциях Community и Enterprise?

Различия в компонентах:

Компоненты Enterprise Edition Community Edition
HDFS (NameNode/DataNode/HTTPFS) + +
Journal Nodes +
ZKFC +
Ozone +
Smart Storage Manager +
YARN (Resource Manager/Node Manager) + +
Hive (Metastore/Server/Thrift) + +
HBase (Master/Region Server/Thrift Server) + +
Phoenix Query Server + +
Tez/Tez UI + +
Spark/History Server + +
Solr Server + +
Airflow + +
Flink (JobMaster/TaskMaster) + +
Zeppelin + +
Zookeeper + +
Impala + +
Clients (HDFS, YARN, Hive, Tez, HBase, Spark, Impala) + +
Ranger Admin +
Ranger UserSync +
Ranger Embedded Services (Zookeeper, Solr) +
Knox +
Kerberos +
ADB-Spark Connector +
ADQM-Spark Connector +
Различия в функционале редакций:
Возможности Enterprise Edition Community Edition
Развертывание сервисов и конфигурация + +
Наличие сервисов и системных метрик + +
Erasure Coding + +
Работа в отказоустойчивом режиме YARN NodeManager, HBase Master, Hive Metastore +
Множественные NameNodes +
Работа в отказоустойчивом режиме NameNode (Active/Standby) +
Автоматическое переключение NameNode при аварии +
Автоматизированное многотемпературное хранение +
Кросс-кластерная репликация данных с низкой нагрузкой на источник (CDC style) +
Kerberos конфигурация (AD/MIT/FreeIPA) +
Поддержка сервисных политик доступа к данным (Ranger) +
Аудит обращений к данным (Ranger) +
Хранилище ключей и HDFS шифрование +
Поддержка единой защищенной точки доступа к сервисам +
Поддержка SSL +
Поддержка российских ОС +

Какие возможности по масштабированию есть у Arenadata Hyperwave?

  • Поддержка работы в кластере из множества серверов.
  • Линейная горизонтальная масштабируемость.

Благодаря чему обеспечивается отказоустойчивость?

  • Нативная отказоустойчивость без доработок ПО.
  • Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hyperwave?

  • Инструмент управления сервисами в кластере.
  • Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
  • Инструментарий пошаговой установки сервисов на любое количество хостов.
  • Настройка прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы, в том числе с использованием доменной авторизации по протоколу LDAP.
  • Пакет утилит для полной установки без доступа к интернету.
  • Установка, настройка и обновление кластеров осуществляется с помощью универсального оркестратора гибридного ландшафта Arenadata Cluster Manager

Какие механизмы информационной безопасности реализованы в дистрибутиве?

Корпоративная версия Arenadata Hyperwave интегрирована с системой централизованного управления политиками безопасности кластера Arenadata Platform Security (ADPS). ADPS включает следующие компоненты безопасности:

  • аутентификацию с использованием Kerberos, интеграцию с LDAP/Active Directory,
  • интеграцию с Apache Knox и Ranger для обеспечения безопасного доступа к кластерам,
  • журналы и отчёты аудита.

Вместе эти компоненты ADPS обеспечивают комплексный подход к безопасности, включающий защиту периметра, управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает бизнесу защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера.

Какие форматы хранения поддерживаются?

В широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark, Hive, Impala, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации — это parquet и orc.

Какой максимальный объём данных можно хранить в HDFS?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Есть ли поддержка транзакции в Arenadata Hyperwave?

Arenadata Hyperwave поддерживает Apache Iceberg — открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции и предоставляет другие возможности работы с данными. Таблицы Iceberg работают аналогично SQL-таблицам и могут интегрироваться с вычислительными движками, такими как Spark, Hive, Impala и т.д.

Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.

Кроме того, в состав ADH входит распределённая система выполнения SQL-запросов Hive, которая поддерживает требования к транзакционной системе.

Есть ли индексы в Arenadata Hyperwave?

Да. Индексы — это скорее атрибут OLTP-систем, чем OLAP. Поэтому их поддержка реализована в Phoenix, входящем в состав ADH.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hyperwave для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data Intensive, офлайн-моделей. И последнее — в составе Arenadata Hyperwave есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Ждём ваши вопросы!

Задать вопрос

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.