Arenadata Catalog расширяет возможности управления данными в экосистеме Arenadata Hadoop

17.05.2024
Компания «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH)1. Коннектор позволяет импортировать описания объектов Impala в каталог, выполнять профилирование данных и настраивать пользовательские проверки качества данных в Impala. Это не первый модуль, обеспечивающий интеграцию с экосистемой Hadoop, ранее заказчикам был представлен коннектор для сервиса Hive.
Arenadata Catalog расширяет возможности управления данными в экосистеме Arenadata Hadoop
Экосистема Hadoop — де-факто стандарт в бизнес-сценариях, связанных с хранением, обработкой и анализом больших объёмов данных произвольных типов. Устойчивый спрос на системы этого класса поддерживается трендом на цифровизацию и ростом объёмов неструктурированных данных и количество связанных с ними проектов.

Отвечая на потребность заказчиков в высокопроизводительном анализе больших данных, хранящихся в системах, развёрнутых на Arenadata Hadoop, Arenadata включила в состав очередного обновления Apache Impala — распределённый сервис исполнения SQL-запросов. Он предназначен для массивно-параллельной обработки (МРР) сверхбольших объёмов данных. Impala разработана как более быстрый и эффективный механизм выполнения SQL-запросов в сравнении с традиционными компонентами SQL-on-Hadoop (Hive, Spark SQL). Поддержка нового сервиса существенно повысила производительность продукта для ряда бизнес-сценариев, в том числе так называемых песочниц данных для внерегламентной обработки информации аналитиками.
АЛЕКСАНДР ТИМЧУР, руководитель департамента поддержки продаж Arenadata
АЛЕКСАНДР ТИМЧУР
Руководитель департамента поддержки продаж Arenadata

«Ряд текущих и новых заказчиков Arenadata воспользовался возможностью ускорения SQL-обработки и анализа данных за счёт использования Impala вместо Hive в озёрах данных. К сожалению, отсутствие поддержки этого сервиса в Arenadata Catalog сдерживало часть из них от переключения нагрузки на Impala в промышленном контуре. Оперативная разработка и поставка коннектора метаданных обеспечила неразрывность отслеживания метаданных в системах и устранила это препятствие».

Особенность применения коннектора Impala

Метаданные объектов интегрируемых систем являются основой каталога данных. Интеграция метаданных объектов Impala позволяет пользователям Arenadata Catalog получать актуальное и полное представление об объектах сервиса, чтобы включить их в граф обработки данных (lineage), исследовать связи с объектами других систем-источников, а также связать с задействованными бизнес-сущностями организации. Администратор Arenadata Catalog может дополнить автоматически собранные метаданные Impala расширенным описанием, сопроводив их пользовательскими атрибутами. Точно так же, как остальные объекты в Arenadata Catalog, объекты сервиса Impala могут иметь владельца и быть классифицированы по уровню бизнес-критичности.
ИВАН НОВОСЁЛОВ, генеральный директор компании «ДатаКаталог»
ИВАН НОВОСЁЛОВ
Генеральный директор компании «ДатаКаталог»

«Технологический ландшафт хранилищ данных российских предприятий отличается высокой сложностью и фрагментарностью. В прошлом для построения КХД широко использовались корпоративные продукты зарубежных вендоров, сейчас развиваются и внедряются решения на базе открытого программного обеспечения. В долгосрочной перспективе программное обеспечение отечественного производства будет занимать преимущественные позиции. Именно по этой причине Arenadata Catalog регулярно расширяет список коннекторов к популярным источникам данных и платформам независимо от их типа, разрабатывая их самостоятельно. Мы стремимся, чтобы Arenadata Catalog стал стандартом де-факто для всех потребителей, строящих хранилища на базе Hadoop, и упростил миграцию на российские решения. Коннектор к сервису Impala из пакета ADH — это очередной шаг в этом направлении».

Для данных Impala, интегрированных в каталог, настраиваются пользовательские проверки качества и автоматический сбор метрик профилирования данных. Например, можно создать проверку на определение повторяющихся значений в таблице базы данных или на ненулевое значение в столбце. По результатам проверок формируется итоговый отчёт о качестве данных.

Для данных Impala, интегрированных в каталог, настраиваются пользовательские проверки качества и автоматический сбор метрик профилирования данных

Для Apache Impala возможно сформировать визуальное происхождение данных (Data Lineage) между таблицами и представлениями, в том числе поколоночный lineage.

Для Apache Impala возможно сформировать визуальное происхождение данных (Data Lineage) между таблицами и представлениями, в том числе поколоночный lineage.

Теперь, просматривая аналитический отчёт, можно с лёгкостью отследить путь преобразования данных между системами: какие атрибуты каких таблиц какой базы данных передали информацию, как в свою очередь они её получили, какие другие информационные системы причастны.

Чтобы запросить демонстрацию функционала каталога данных Arenadata Catalog с коннектором Impala, напишите нам на почту info@arenadata.io.

Возможности Arenadata Hadoop

Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных. Решаемые задачи:
  • Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
  • Распределённая обработка информации.
  • Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
  • Машинное обучение и искусственный интеллект.
  • Источник данных для КХД.
  • Импортозамещение западных систем.
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.

1В тестировании использовалась версия Arenadata Hadoop 3.2.4_arenadata2_b1-1 c Impala — 4.2.0_arenadata1 и Arenadata Catalog v.0.6.3.1

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.