Благодаря многоуровневой архитектуре Ozone обеспечивает высокую масштабируемость. Он предназначен для хранения свыше ста миллиардов объектов в одном кластере и способен эффективно обрабатывать как маленькие, так и большие файлы. Ozone отличает высокая отказоустойчивость и лёгкость восстановления, сопоставимая с HDFS; он может использовать те же политики безопасности кластера и работать вместе с HDFS на тех же хостах.
«Как HDFS, так и Ozone отвечают требованиям бизнеса к хранилищам данных, при этом у них есть различия, позволяющие подойти к построению дата-платформы максимально гибко. HDFS де-факто остаётся файловой системой для больших данных, демонстрируя высокую отказоустойчивость и производительность. В свою очередь, Ozone имеет преимущество в средах, где требуется эффективная работа с большим количеством маленьких файлов и совместимость с S3».
«Клиенты Arenadata могут влиять на дорожную карту развития наших продуктов, и в соответствии с ожиданиями рынка мы приняли решение включить Trino в состав дистрибутива ADH. Инструмент для выполнения федеративных запросов повысит эффективность работы с данными и расширит возможности аналитики в корпоративных хранилищах и озёрах данных».
Новая версия Arenadata Hadoop совместима с российской операционной системой РЕД ОС 7.3 (сертифицированной редакции). Поддержка сертифицированной ФСТЭК России операционной системы позволяет интегрировать продукт в более широкий спектр инфраструктур с повышенными требованиями к безопасности.
Вместе с обновлённым ADH представлен релиз подсистемы безопасности Arenadata Platform Security (ADPS). Версия 1.2.1 включает обновление сервиса Ranger, новое действие Add/Remove components для Knox, поддержку РЕД ОС 7.3 и другие улучшения.
Полный список изменений версии Arenadata Hadoop 3.3.6.2
Полный список изменений версии Arenadata Platform Security 1.2.1
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения, обработки и анализа структурированных и неструктурированных данных.
Решаемые задачи:
- хранение, обработка больших объёмов структурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД);
- распределённая обработка информации;
- построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде);
- машинное обучение и искусственный интеллект;
- источник данных для КХД;
- импортозамещение систем западного производства.