Arenadata усилила Arenadata Hadoop инструментом для асинхронной репликации и оптимизации хранения данных

05.04.2024
Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Smart Storage Manager (SSM) — инструмент для оптимизации хранения и управления данными. Сервис расширяет возможности распределённой файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов.
В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает горячие данные в кеш, тёплые — на носители, оптимальные по производительности (SSD), холодные — в архив на носители, оптимизированные по объёму хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения горячих данных, а также оптимизировать использование оборудования.

Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).
Андрей Жуков
АЛЕКСАНДР АНИСИМОВ
Технический руководитель продукта Arenadata Hadoop

«Стандартный инструмент для репликации данных между разными Hadoop-кластерами — команда distcp (Distributed Copy) — подходит для пакетной репликации большого объёма данных и неприменима в ряде других сценариев. С появлением SSM мы расширили возможности Arenadata Hadoop новым функционалом Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник».

Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding — технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.
Андрей Жуков
ЕКАТЕРИНА УЛЬЯШОВА
Менеджер по продуктовому маркетингу Arenadata

«Ввиду роста объёмов неструктурированных данных и их неравноценности с точки зрения частоты запросов, нет смысла оптимизировать весь массив. SSM позволяет собирать и анализировать исторические показатели, на их основе выявлять и прогнозировать шаблоны доступа к данным, чтобы автоматически корректировать варианты хранения, оптимизируя расходы и повышая производительность».

Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами — их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нём доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.
Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.

С детальным описанием сервиса вы можете ознакомиться по ссылке.

Возможности Arenadata Hadoop

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Решаемые задачи:
  • Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
  • Распределённая обработка информации.
  • Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
  • Машинное обучение и искусственный интеллект.
  • Источник данных для КХД.
  • Импортозамещение западных систем.
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.

Читайте также

все новости
ошибка! проверьте правильно ли вы заполнили поле Email

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.