В релиз вошла новая версия Smart Storage Manager (SSM) — инструмента для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др. Версия SSM 2.0.0-alpha получила полностью переработанный пользовательский интерфейс и ряд улучшений, включая оптимизированную стратегию подсчёта доступов и удаление зависимости от Zeppelin — в общей сложности более 100 доработок начиная с первого релиза SSM в марте 2024.
Помимо этого, в продукте обновлены версии основных сервисов, включая компоненты Hadoop (HDFS, YARN), вычислительные движки Hive, Impala, Spark и Flink, распределённый многопользовательский SQL-шлюз Kyuubi, а также Iceberg — библиотеку поддержки открытого табличного формата данных. В дополнение к новой версии в сервисах реализованы багфиксы и улучшения, направленные на повышение производительности и стабильности. В поставку с дистрибутивом добавлен ряд расширений для сервиса Flink, предназначенных для интеграции с Kafka, Hive и Iceberg-таблицами.
В контексте информационной безопасности в Arenadata Hadoop появилась функция шифрования конфиденциальных данных в конфигурационных файлах сервисов HDFS, YARN, Hive, HBase, Spark, Impala, Zeppelin, Kyuubi и Solr. Шифрование реализовано с помощью провайдера Hadoop или KMS и выполняется посредством нового кластерного действия — Manage Credential Encryption. Кроме того, релиз включает возможность активации протокола SSL/TLS для межкомпонентной коммуникации внутри сервиса Flink и поддержку SPNEGO-аутентификации для Hue, предоставляющую удалённый защищённый доступ к веб-интерфейсу.
В новой версии подсистемы безопасности Arenadata Platform Security 1.2.0 обновлены сервисы Knox и Ranger, добавлен плагин Ranger для SSM и проверка на конфликты портов, которая выполняется перед запуском некоторых действий.
Новая версия Arenadata Hadoop совместима с одной из наиболее популярных open source операционных систем — Ubuntu 22.04.2 LTS. Она введена в качестве альтернативы CentOS/RHEL 7.х, поддержка которых со стороны вендора уже завершена.
Полный список изменений версии Arenadata Hadoop 3.3.6.1
Полный список изменений версии Arenadata Platform Security 1.2.0
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.Решаемые задачи:
- хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД);
- распределённая обработка информации;
- построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде);
- машинное обучение и искусственный интеллект;
- источник данных для КХД;
- импортозамещение систем западного производства.