Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.
В новой версии Arenadata Hadoop реализована поддержка HUE (Hadoop User Experience) — популярного веб-интерфейса экосистемы Hadoop, предназначенного для анализа данных. Он способен подключаться к СУБД, вычислительному инструменту или хранилищу данных через нативные коннекторы и упрощает работу с источниками данных. HUE востребован широким кругом пользователей: от бизнес-аналитиков, дата-инженеров и дата-сайентистов до администраторов баз данных и SQL-разработчиков. В составе Arenadata Hadoop HUE содержит преднастроенные интерпретаторы SQL для Impala, Hive, Kyuubi и Spark SQL, а также мониторинг задач YARN и Impala и возможность просмотра файловой системы HDFS.
«На данный момент поддержка Iceberg доступна в сервисах Spark, Impala и ограниченно в Hive (только чтение). В следующем релизе мы расширим функциональность в Hive и добавим поддержку Iceberg-формата в Flink, что увеличит возможности потоковой обработки данных.
В свою очередь, новый сервис HUE получит дополнительный функционал, связанный с безопасностью и отказоустойчивостью, также будет расширяться список преднастроенных интерпретаторов».
Полный список изменений версии Arenadata Hadoop 3.2.4.3
Полный список изменений версии Arenadata Platform Security 1.1.2
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.Решаемые задачи:
- хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД);
- распределённая обработка информации;
- построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде);
- машинное обучение и искусственный интеллект;
- источник данных для КХД;
- импортозамещение систем западного производства.
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных, а также в реестр системы сертификации средств защиты информации по требованиям безопасности информации.