Arenadata Hyperwave (ADH) - гибридное хранилище данных и построения Data Lake (Озёр данных)

Архитектурные паттерны

Современные аналитические и операционные задачи требуют принципиально разных подходов к хранению и обработке данных. Платформа Arenadata Hyperwave предлагает гибридную архитектуру, где вы сможете выбрать необходимый состав компонентов для реализации любых современных паттернов — от Data Lake до Lakehouse и Data Mesh.

Data Lake

Подход предполагает наличие выделенного хранилища данных для оперативной отчётности, отдельного решения для быстрых SQL-запросов и озера данных для дешёвого хранения исторических данных и удобной интеграции.

Интеграция данных: сбор и согласование данных из разнородных источников (IoT-датчики, веб-логи, финансовые транзакции) в едином озере
Аналитика логов: хранение «сырых» лог-файлов в озере данных и последующая их агрегация в КХД для корреляции событий и оповещений об инцидентах
Анализ больших данных: предварительная обработка и хранение «сырых» данных в озере, глубокий статистический и BI-анализ — в КХД

Lakehouse

Универсальная платформа, объединяющая мощность классического хранилища с гибкостью озера данных. Позволяет выполнять любые нагрузки – от батчевой аналитики до стриминговых вычислений и машинного обучения.

GenAI и LLM используют огромные объёмы данных. ADH предоставляет инструменты и инфраструктуру для их обработки и выполнения сложных запросов
Анализ больших данных (веб-активность, показания датчиков, финансовые данных и др.), ценный для понимания рыночных трендов
Обнаружение и предотвращение мошенничества (real-time): потоковая обработка транзакций и событий с низкой задержкой, применение ML-моделей на лету
Интеграция данных в едином хранилище помогает устранить разрозненность и обеспечить их согласованное представление

Data Mesh & Multitenancy

Data Mesh превращает данные в продукты, а платформа Arenadata Hyperwave обеспечивает инфраструктуру для этого подхода: доменные команды работают с изолированными данными через единый каталог, сохраняя автономность. Мультитенантность реализована на всех уровнях — от разделения на уровне хранилища и ресурсов, контроля доступа (Apache Ranger) до физического выделения кластера с необходимыми компонентами под отдельный домен. Это позволяет безопасно делить платформу между командами, партнёрами и окружениями, соблюдая compliance и оптимизируя затраты.

Корпоративные Data Mesh-инициативы: доменные команды развивают собственные хранилища в рамках единого каталога, сохраняя автономию и единообразие метаданных
Безопасное разделение среды — физическая или логическая изоляция кластеров под разные бизнес-юниты, партнёров или окружения (dev/prod)
Compliance и управление доступом: тонкая гранулярная настройка политик безопасности и аудита

Подход позволяет выбрать оптимальную композицию компонентов Arenadata Hyperwave: начать с Data Lake и дополнять Lakehouse-возможностями, а затем масштабироваться в сторону доменно-ориентированной Data Mesh-платформы с мультитенантностью.

Универсальная гибридная платформа для хранения, обработки и анализа данных любой структуры и объёма

Изначально Arenadata Hyperwave базировался на инструментах и компонентах экосистемы Hadoop (HDFS, MapReduce, YARN, Hive, Spark и др.). Со временем дистрибутив эволюционировал, включив новые компоненты: Ozone, Trino, Iceberg, Kyuubi и др. Базовую функциональность хранения и обработки неструктурированных данных дополнили новые возможности: ACID-транзакции, федеративные запросы, автоматизированное хранение и расширенная безопасность.

Начиная с версии ADH 4.0.0 продукт избавился от жёстких межкомпонентных зависимостей и позволяет разворачивать кластеры без обязательных Hadoop-сервисов, являясь современной платформой данных для гибридных нагрузок.

Российский продукт

Свидетельство о государственной регистрации программы для ЭВМ

Номер регистрации

2019660896

Дата регистрации

15.08.2019

Включён в единый реестр российских программ для электронных вычислительных машин и баз данных

Номер реестровой записи

6355

Дата формирования

07.04.2020

Продукт внесен в государственный реестр сертифицированных средств защиты информации ФСТЭК России

Номер сертификата

4821

Дата формирования

13.06.2024

Поддерживает российские операционные системы:

А также операционные системы:

Техническая поддержка

Средний SLA службы технической поддержки.

Базовая

Премиальная

Расширенная

Средний SLA службы технической поддержки.

Хотите узнать больше о технической поддержке?

Да, хочу

Дополнительная экспертиза для успеха проекта

Клиентам Arenadata необязательно разбираться в том, как устроены продукты компании и как реализовать проект на их основе с минимальными рисками и затратами.

Экспертиза вендора

Arenadata сопровождает заказчиков на всех этапах реализации проекта.

Наши эксперты предлагают оптимальные архитектурные и проектные решения, проводят аудиты, формируют рекомендации и консультируют по широкому кругу технических вопросов.

Экспертиза партнёров

У Arenadata более сотни партнёров, в числе которых облачные провайдеры, OEM-производители, разработчики ПО, системные интеграторы и консалтинговые организации.

Каждый из них обладает экспертизой по своему направлению и понимает, как работать с продуктами Arenadata. Наше программное обеспечение совместимо с продуктами многих вендоров, включая российские операционные системы, системы класса BI, АБС, NRT и AI.

Курсы по продуктам

В учебном центре Arenadata под руководством опытных преподавателей слушатели курсов учатся установке, настройке, конфигурированию и обслуживанию наших продуктов.

Мы предлагаем курсы:

Эксплуатация Arenadata Hyperwave Управление информационной безопасностью кластера Arenadata Hyperwave Основы работы с Apache Spark в экосистеме Arenadata Hyperwave Основы Trino

Альтернатива иностранным системам

Благодаря технической зрелости и функциональности продукты нашей компании замещают решения многих иностранных вендоров: Cloudera, Oracle BDA, Hortonworks, MapR.

Узнать подробнее

Технические возможности

Распределённое отказоустойчивое хранение больших данных
Доступно объектное хранилище с S3-совместимым интерфейсом
Поддержка колоночных форматов для аналитических нагрузок
Из коробки доступен табличный формат Iceberg с поддержкой ACID-транзакций
Горизонтальное масштабирование до экзабайт данных
Поддержка горячего/холодного хранения
Автоматизация управления хранением данных в аспектах организации многоуровневого хранения, репликации, управления сжатием, настройки политик Erasure Coding и др.

Multi Engine обработка данных
Единая платформа для пакетной и потоковой загрузки и аналитики
Доступные открытые и проприетарные коннекторы ко всем популярным системам
Интеграция с единым метастором
Федеративные распределённые запросы к разнородным источникам
Low-latency для OLAP-запросов поверх HDFS/Ozone/S3
Поддержка полнотекстового, векторного и геопространственного поиска

Единые веб-интерфейсы для доступа ко всей платформе
Интерактивная аналитика
Совместимость с BI-инструментами
Multitenant поддержка

Централизованное управление RBAC-политиками
Интеграция с LDAP/AD/Kerberos
Колоночное маскирование
Шифрование данных и чувствительных конфигураций
Трассировка всех операций и централизованный аудит системы
Сертификация для корпоративных сред

Распределённое отказоустойчивое хранение больших данных
Доступно объектное хранилище с S3-совместимым интерфейсом
Поддержка колоночных форматов для аналитических нагрузок
Из коробки доступен табличный формат Iceberg с поддержкой ACID-транзакций
Горизонтальное масштабирование до экзабайт данных
Поддержка горячего/холодного хранения
Автоматизация управления хранением данных в аспектах организации многоуровневого хранения, репликации, управления сжатием, настройки политик Erasure Coding и др.

OIBDAC, млрд руб.

CAGR123123

0,7

0,8

1,5

2,1

CAGR — среднегодовой темп роста

NIC (скорр. чистая прибыль), млрд руб.

CAGR’21–’23: +47%

0,6

CAGR — среднегодовой темп роста

NIC (скорр. чистая прибыль), млрд руб.

Долговая нагрузка отсутствует.
Чистый долг / OIBDA’23: (0,6x)

Стоимость решения

Стоимость временной/постоянной лицензии и технической поддержки на продукт зависит от количества физических ядер, типа кластера (prod, test) и рассчитывается индивидуально.

запросить детали

Состав компонентов Arenadata Hyperwave

ADH 1.6

ADH 3.3.6.2

ADH 4.0.0

ADH 4.1.0

ADH 4.2.0

Storage

HDFS

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH + cистема управления вычислительными ресурсами и планирования задач в кластере Hadoop

Released

ADH 1.6

2.8.5

ADH 3.3.6.2

3.3.6

ADH 4.0.0

3.3.6

ADH 4.1.0

3.3.6

In Development

ADH 4.2.0

3.3.6

2.8.5

3.3.6

Ozone

Масштабируемое распределённое объектное хранилище в экосистеме Hadoop

Released

ADH 1.6

ADH 3.3.6.2

1.4.1

ADH 4.0.0

1.4.1

ADH 4.1.0

2.0.0

In Development

ADH 4.2.0

2.0.0

1.4.1

2.0.0

Resource Management

YARN

Released

ADH 1.6

2.8.5

ADH 3.3.6.2

3.3.6

ADH 4.0.0

3.3.6

ADH 4.1.0

3.3.6

In Development

ADH 4.2.0

3.3.6

2.8.5

3.3.6

Coordination

ZooKeeper

Сервис для координации больших распределённых систем, широко используемый в кластерах Hadoop

Released

ADH 1.6

3.4.12

ADH 3.3.6.2

3.8.4

ADH 4.0.0

3.8.4

ADH 4.1.0

3.8.4

In Development

ADH 4.2.0

3.9.3

3.4.12

3.8.4

3.9.3

Service Management

SSM

Smart Storage Manager — инструмент для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др.

Released

ADH 1.6

ADH 3.3.6.2

2.0.1

ADH 4.0.0

2.1.0

ADH 4.1.0

2.1.1

In Development

ADH 4.2.0

2.2.0

2.0.1

2.1.0

2.1.1

2.2.0

Data Access

Zeppelin

Веб-блокнот для поиска и визуализации, их обмена и взаимодействия с Hadoop и Spark

Released

ADH 1.6

0.8.0

ADH 3.3.6.2

0.11.1

ADH 4.0.0

0.11.2

ADH 4.1.0

0.11.2

In Development

ADH 4.2.0

0.11.2

0.8.0

0.11.1

0.11.2

Kyuubi

Распределённый многопользовательский SQL-шлюз для операций на корпоративных хранилищах и озёрах данных, простой и безопасный доступ к любому ресурсу кластера через единую точку входа

Released

ADH 1.6

ADH 3.3.6.2

1.9.0

ADH 4.0.0

1.10.1

ADH 4.1.0

1.10.2

In Development

ADH 4.2.0

1.10.2

1.9.0

1.10.1

1.10.2

HUE

Популярный веб-интерфейс для анализа данных: запрос, поиск и анализ имеющихся данных без потери контекста

Released

ADH 1.6

ADH 3.3.6.2

4.11.0

ADH 4.0.0

4.11.0

ADH 4.1.0

4.11.0

In Development

ADH 4.2.0

4.11.0

Data Processing

Hive

Инфраструктура хранилища данных для обобщения, запросов и анализа больших наборов данных, хранящихся в Hadoop

Released

ADH 1.6

2.3.3

ADH 3.3.6.2

4.0.0

ADH 4.0.0

4.0.1

ADH 4.1.0

4.0.1

In Development

ADH 4.1.0

4.0.1

2.3.3

4.0.0

4.0.1

Spark2

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Released

ADH 1.6

2.3.1

ADH 3.3.6.2

2.3.2

ADH 4.0.0

ADH 4.1.0

In Development

ADH 4.2.0

2.3.1

2.3.2

Spark3

Released

ADH 1.6

ADH 3.3.6.2

3.5.1

ADH 4.0.0

3.5.4

ADH 4.1.0

3.5.4

In Development

ADH 4.2.0

3.5.4

3.5.1

3.5.4

Spark4

Released

ADH 1.6

ADH 3.3.6.2

ADH 4.0.0

ADH 4.1.0

4.0.0

In Development

ADH 4.2.0

4.0.0

Impala

Распределённый сервис для быстрого и эффективного исполнения SQL-запросов на сверхбольших объёмах данных в экосистеме Hadoop

Released

ADH 1.6

ADH 3.3.6.2

4.4.0

ADH 4.0.0

4.4.0

ADH 4.1.0

4.5.0

In Development

ADH 4.2.0

4.5.0

4.4.0

4.5.0

Flink

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Released

ADH 1.6

1.6.1

ADH 3.3.6.2

1.19.1

ADH 4.0.0

1.20.1

ADH 4.1.0

1.20.2

In Development

ADH 4.2.0

1.20.2

1.6.1

1.19.1

1.20.1

1.20.2

Flink2

Released

ADH 1.6

ADH 3.3.6.2

ADH 4.0.0

ADH 4.1.0

2.0.0

In Development

ADH 4.2.0

2.0.0

HBase

База данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop

Released

ADH 1.6

1.3.5

ADH 3.3.6.2

2.5.8

ADH 4.0.0

2.5.8

ADH 4.1.0

2.6.3

In Development

ADH 4.2.0

2.6.3

1.3.5

2.5.8

2.6.3

Solr

Сервис, обеспечивающий распределённую индексацию, репликацию и балансировку нагрузки при запросах, автоматическое восстановление, централизованную настройку и др.

Released

ADH 1.6

7.3.1

ADH 3.3.6.2

8.11.3

ADH 4.0.0

8.11.3

ADH 4.1.0

8.11.3

In Development

ADH 4.2.0

8.11.3

7.3.1

8.11.3

Sqoop

Инструмент для передачи данных между реляционными базами данных и кластерами Hadoop

Released

ADH 1.6

1.4.7

ADH 3.3.6.2

1.4.7

ADH 4.0.0

ADH 4.1.0

In Development

ADH 4.2.0

1.4.7

Trino

Федеративный аналитический SQL-движок для обработки больших объёмов данных из разных источников

Released

ADH 1.6

ADH 3.3.6.2

468

ADH 4.0.0

468

ADH 4.1.0

476

In Development

ADH 4.2.0

476

468

476

Orchestration

Airflow2

Сервис для программного создания, планирования и мониторинга выполнения сложных процессов обработки данных (workflows)

Released

ADH 1.6

ADH 3.3.6.2

2.6.3

ADH 4.0.0

2.6.3

ADH 4.1.0

2.6.3

In Development

ADH 4.2.0

2.6.3

Security

Knox

Шлюз для обеспечения безопасного доступа к кластерам Hadoop и другим системам больших данных

Released

ADH 1.6

0.14

ADH 3.3.6.2

2.0.0

ADH 4.0.0

2.0.0

ADH 4.1.0

2.0.0

In Development

ADH 4.2.0

2.0.0

0.14

2.0.0

Ranger

Система безопасности, обеспечивающая контроль доступа на основе политик и авторизацию для дата-приложений и аналитики в Hadoop

Released

ADH 1.6

0.7.1

ADH 3.3.6.2

2.5.0

ADH 4.0.0

2.6.0

ADH 4.1.0

2.6.0

In Development

ADH 4.2.0

2.6.0

0.7.1

2.5.0

2.6.0

OpenBao

Сервис для безопасного хранения, распространения и управления конфиденциальными данными

Сетевой протокол аутентификации

Released

ADH 1.6

ADH 3.3.6.2

ADH 4.0.0

ADH 4.1.0

2.3.2

In Development

ADH 4.2.0

2.3.2

Kerberos

Сетевой протокол аутентификации

Released

ADH 1.6

latest

ADH 3.3.6.2

latest

ADH 4.0.0

latest

ADH 4.1.0

latest

In Development

ADH 4.2.0

latest

Cluster Management

ADCM

Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта

Released

ADH 1.6

latest

ADH 3.3.6.2

latest

ADH 4.0.0

latest

In Development

ADH 4.1.0

latest

Sheduled

ADH 4.2.0

latest

Released

ADH 1.6

ADH 3.3.6.2

ADH 4.0.0

ADH 4.1.0

In Development

ADH 4.2.0

Deprecated

Отличия от Open Source

Качественная сборка совместимых компонентов

Дистрибутив Arenadata Hyperwave включает последние стабильные версии компонентов экосистемы Apache Hadoop и ряд других open source инструментов и проприетарных решений. Все они гарантированно совместимы и управляются из единого центра — Arenadata Cluster Manager.

Самостоятельная сборка сопоставимой по функциональности платформы из исходников требует существенных вложений в RnD, либо будет выполнена без оглядки на совместимость, что скажется на стоимости эксплуатации и повлечёт за собой простои.

Безопасность

Единая, интегрированная во все сервисы Arenadata Hyperwave система безопасности Arenadata Platform Security на основе Kerberos, Ranger и Knox. Хранилище ключей и HDFS-шифрование. Поддержка единой защищённой точки доступа к сервисам. Поддержка SSL. Шифрование чувствительных данных в файлах конфигурации.

Дополнительные инструменты

Функции отказоустойчивости и аварийного восстановления, автоматизация управления и мониторинга, высокопроизводительные коннекторы для интеграции Arenadata Hyperwave с другими продуктами Arenadata и внешними системами.

Документация

Для всех продуктов Arenadata создана и постоянно поддерживается в актуальном состоянии оригинальная интерактивная документация на русском и английском языках. Документация

Техническая экспертиза

Наша команда оценивает исправления багов, полученные от сообщества open source разработчиков, и определяет, какие из них следует включить в продукт, а также создаёт собственные сервисы. Все продукты Arenadata тщательным образом тестируются, а также проверяются на наличие уязвимостей и вредоносного кода.

Коннекторы

ADB Spark Connector

Специализированный коннектор для параллельного обмена данными между Apache Spark в составе Arenadata Hyperwave и Arenadata DB. Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции.

Поставляется как часть сервиса Spark, входящего в состав платформы Arenadata Hyperwave.

Документация

ADQM Spark Connector

Многофункциональный коннектор с поддержкой параллельных операций чтения-записи между Apache Spark в составе Arenadata Hyperwave и Arenadata QuickMarts. Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции.

Поставляется как часть сервиса Spark, входящего в состав платформы Arenadata Hyperwave.

Документация

Trino ADB Connector

Специализированный коннектор с поддержкой параллельных операций чтения/записи данных в кластере ADB — распределённой аналитической СУБД на базе МРР-системы Greenplum. Эффективен при обработке больших наборов данных.

Поставляется как часть сервиса Trino, входящего в состав платформы Arenadata Hyperwave.

Документация

Хотите изучить базовые возможности Arenadata Hyperwave?

Скачайте комьюнити-версию

скачать

Нам доверяют

Остались вопросы?

Если вы не нашли ответа на свой вопрос, вы можете воспользоваться формой обратной связи.

хочу спросить

Что такое Arenadata Hyperwave и где Arenadata Hadoop?

Arenadata Hyperwave — новое название Arenadata Hadoop.

Arenadata Hyperwave изначально базировался на экосистеме Hadoop (HDFS, MapReduce, YARN, Hive, Spark и др.), но со временем эволюционировал, включив новые компоненты: Ozone, Trino, Iceberg, Kyuubi и др. Базовую функциональность хранения и обработки неструктурированных данных дополнили новые возможности: ACID-транзакции, федеративные запросы, автоматизированное хранение и расширенная безопасность.

С версии ADH 4.0.0 продукт избавился от жёстких зависимостей между сервисами и позволяет разворачивать кластеры с любым набором компонентов без обязательных Hadoop-сервисов. В связи с этим было решено сменить название, чтобы лучше отразить новые возможности и технологический стек.

Какие отличия в редакциях Community и Enterprise?

Различия в компонентах:

Компоненты	Enterprise Edition	Community Edition
HDFS (NameNode/DataNode/HTTPFS)	+	+
Journal Nodes	+	–
ZKFC	+	–
Ozone	+	–
Smart Storage Manager	+	–
YARN (Resource Manager/Node Manager)	+	+
Hive (Metastore/Server/Thrift)	+	+
HBase (Master/Region Server/Thrift Server)	+	+
Phoenix Query Server	+	+
Tez/Tez UI	+	+
Spark/History Server	+	+
Solr Server	+	+
Airflow	+	+
Flink (JobMaster/TaskMaster)	+	+
Zeppelin	+	+
Zookeeper	+	+
Impala	+	+
Clients (HDFS, YARN, Hive, Tez, HBase, Spark, Impala)	+	+
Ranger Admin	+	–
Ranger UserSync	+	–
Ranger Embedded Services (Zookeeper, Solr)	+	–
Knox	+	–
Kerberos	+	–
ADB-Spark Connector	+	–
ADQM-Spark Connector	+	–

Различия в функционале редакций:

Возможности	Enterprise Edition	Community Edition
Развертывание сервисов и конфигурация	+	+
Наличие сервисов и системных метрик	+	+
Erasure Coding	+	+
Работа в отказоустойчивом режиме YARN NodeManager, HBase Master, Hive Metastore	+	–
Множественные NameNodes	+	–
Работа в отказоустойчивом режиме NameNode (Active/Standby)	+	–
Автоматическое переключение NameNode при аварии	+	–
Автоматизированное многотемпературное хранение	+	–
Кросс-кластерная репликация данных с низкой нагрузкой на источник (CDC style)	+	–
Kerberos конфигурация (AD/MIT/FreeIPA)	+	–
Поддержка сервисных политик доступа к данным (Ranger)	+	–
Аудит обращений к данным (Ranger)	+	–
Хранилище ключей и HDFS шифрование	+	–
Поддержка единой защищенной точки доступа к сервисам	+	–
Поддержка SSL	+	–
Поддержка российских ОС	+	–

Какие возможности по масштабированию есть у Arenadata Hyperwave?

Поддержка работы в кластере из множества серверов.
Линейная горизонтальная масштабируемость.

Благодаря чему обеспечивается отказоустойчивость?

Нативная отказоустойчивость без доработок ПО.
Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hyperwave?

Инструмент управления сервисами в кластере.
Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
Инструментарий пошаговой установки сервисов на любое количество хостов.
Настройка прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы, в том числе с использованием доменной авторизации по протоколу LDAP.
Пакет утилит для полной установки без доступа к интернету.
Установка, настройка и обновление кластеров осуществляется с помощью универсального оркестратора гибридного ландшафта Arenadata Cluster Manager

Какие механизмы информационной безопасности реализованы в дистрибутиве?

Корпоративная версия Arenadata Hyperwave интегрирована с системой централизованного управления политиками безопасности кластера Arenadata Platform Security (ADPS). ADPS включает следующие компоненты безопасности:

аутентификацию с использованием Kerberos, интеграцию с LDAP/Active Directory,
интеграцию с Apache Knox и Ranger для обеспечения безопасного доступа к кластерам,
журналы и отчёты аудита.

Вместе эти компоненты ADPS обеспечивают комплексный подход к безопасности, включающий защиту периметра, управление доступом на основе политик, авторизацию и безопасный доступ к платформе и ее сервисам. Это помогает бизнесу защитить конфиденциальные данные и обеспечить соответствие нормативным требованиям.

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера.

Какие форматы хранения поддерживаются?

В широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark, Hive, Impala, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации — это parquet и orc.

Какой максимальный объём данных можно хранить в HDFS?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Есть ли поддержка транзакции в Arenadata Hyperwave?

Arenadata Hyperwave поддерживает Apache Iceberg — открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции и предоставляет другие возможности работы с данными. Таблицы Iceberg работают аналогично SQL-таблицам и могут интегрироваться с вычислительными движками, такими как Spark, Hive, Impala и т.д.

Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.

Кроме того, в состав ADH входит распределённая система выполнения SQL-запросов Hive, которая поддерживает требования к транзакционной системе.

Есть ли индексы в Arenadata Hyperwave?

Да. Индексы — это скорее атрибут OLTP-систем, чем OLAP. Поэтому их поддержка реализована в Phoenix, входящем в состав ADH.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hyperwave для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data Intensive, офлайн-моделей. И последнее — в составе Arenadata Hyperwave есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Гибридная платформа данных

Универсальная гибридная платформа для хранения, обработки и анализа данных любой структуры и объёма

Российский продукт

Свидетельство о государственной регистрации программы для ЭВМ

2019660896

15.08.2019

Включён в единый реестр российских программ для электронных вычислительных машин и баз данных

6355

07.04.2020

Продукт внесен в государственный реестр сертифицированных средств защиты информации ФСТЭК России

4821

13.06.2024

Поддерживает российские операционные системы:

А также операционные системы:

Техническая поддержка

Средний SLA службы технической поддержки.

Базовая

Премиальная

Расширенная

Средний SLA службы технической поддержки.

Хотите узнать больше о технической поддержке?

Дополнительная экспертиза для успеха проекта

Экспертиза вендора

Экспертиза партнёров

Курсы по продуктам

Альтернатива иностранным системам

Технические возможности

Стоимость решения

Состав компонентов Arenadata Hyperwave

Storage

HDFS

Released

In Development

Ozone

Released

In Development

Resource Management

YARN

Released

In Development

Coordination

ZooKeeper

Released

In Development

Service Management

SSM

Released

In Development

Data Access

Zeppelin

Released

In Development

Kyuubi

Released

In Development

HUE

Released

In Development

Data Processing

Hive

Released

In Development

Spark2

Released

In Development

Spark3

Released

In Development

Spark4

Released

In Development

Impala

Released

In Development

Flink

Released

In Development

Flink2

Released

In Development