Теперь этот опыт получил распространение на облачную платформу. Использование облачных ресурсов открывает возможность быстрого запуска проектов больших данных и получения бизнес-инсайтов для тех компаний, которые не имеют возможности вкладываться в дорогостоящее оборудование Big Data или ограничены в компетенциях по развёртыванию и поддержке инфраструктуры работы с данными.
В статье описаны подходы к созданию корпоративного хранилища данных на базе облачной платформы.
Авторы статьи:
![](/wp-content/uploads/2024/03/pavel-egorov.jpg)
Павел Егоров
Менеджер по развитию решений по промышленной аналитике компании К2Тех
![](/wp-content/uploads/2024/03/anton-kovalenko.jpg)
Антон Коваленко
Руководитель направления продуктового маркетинга Arenadata
![](/wp-content/uploads/2024/03/fiks.jpg)
Александр Фикс
Менеджер по развитию бизнеса K2 Cloud
Корпоративное хранилище данных: трудности проектов
Построение корпоративного хранилища — первый шаг к аналитике больших данных. В реализации проектов есть ряд ключевых вопросов. Один из первостепенных — скорость: КХД надо внедрять быстро, чтобы как можно скорее начать получать отдачу от вложений в решения больших данных. Ещё один важный вопрос — стоимость проекта. При размещении инфраструктуры on-premise потребуется дорогостоящее оборудование, которое зачастую сложно выделить на проект, если оно уже есть, и ещё сложнее купить. Выгода проекта по большим данным на начальных этапах не всегда очевидна, и для многих компаний старт такого проекта — это «прыжок веры», решиться на который с учётом больших затрат может быть непросто.Помимо этого, для внедрения и поддержки проекта КХД нужны опытные специалисты: архитектор, дата-инженеры и др. Наём таких людей потребует времени и немалых затрат, при этом необходимость растить собственную команду неочевидна для компании, основной бизнес которой не связан с построением КХД.
Актуальной остаётся миграция с зарубежных решений КХД на отечественные. С одной стороны, на этом настаивают регуляторы, а с другой — всё сложнее становится развивать такие системы в условиях, когда купить новые лицензии и получить поддержку вендора невозможно.
В качестве решения в компании K2 Cloud совместно с Arenadata и К2Тех предложили комплексный сервис развёртывания КХД в облаке, который охватывает максимальный спектр задач: от предоставления облачной инфраструктуры и интеграции источников данных до визуализации результатов аналитики, а также включает в себя поддержку инфраструктуры и ПО. Клиент может не заботиться о приобретении собственной экспертизы по КХД и освобождён от капитальных затрат, он просто ежемесячно оплачивает стоимость сервиса.
Корпоративное хранилище на Arenadata DB
В основе комплексного сервиса КХД в K2 Cloud лежит один из ключевых продуктов компании Arenadata — Arenadata DB (ADB).![Ситуация на рынке решений КХД/DWH](/wp-content/uploads/2024/03/situaciya-na-rynke-reshenij-kkhd-dwh-2.jpg)
Сегодня миграция с продуктов зарубежных вендоров на их российские аналоги стала мейнстримом, а для многих компаний — вопросом выживания. В компании Arenadata разрабатывают продукты на базе Open Source и доводят эти решения до уровня Enterprise Ready, чтобы процесс миграции был безболезненным и заказчики чувствовали, что не только не теряют важные функции зарубежных продуктов, но и приобретают новые возможности.
Примером служит развитие проекта Greenplum в ADB Enterprise Edition. Так, Arenadata занимает первое место по вкладу в его развитие среди международного сообщества.
![Отличия в сборках Greenplum](/wp-content/uploads/2024/03/otlichiya-v-sborkah-greenplum-3.jpg)
Среди ключевых доработок Arenadata в проект Greenplum можно назвать:
- единую систему управления, инсталляции и мониторинга;
- специализированные инструменты:
- ADB Control для мониторинга и управления запросами внутри базы данных;
- Arenadata DB Backup Manager (ADBM) для управления резервным копированием в СУБД;
- высокопроизводительные коннекторы для ликвидации узких мест взаимодействия больших кластерных систем.
Фреймворки для оптимизации работы с данными
Следующий уровень комплексного сервиса КХД в облаке — разработанные специалистами компании К2Тех фреймворки для быстрых расчётов, загрузки и преобразования данных в хранилище.Задача фреймворков — максимально автоматизировать и упростить решение задач, которые из раза в раз повторяются в проектах корпоративных хранилищ данных.
ELT-фреймворк — это инструмент для оптимизации загрузки данных и формирования детального слоя хранилища. Real-time-фреймворк, реализованный на базе Spark и Hadoop, поддерживает расчёты по стандартным формулам в режиме реального времени.
![Основные функции ELT-фреймворка](/wp-content/uploads/2024/03/osnovnye-funkcii-elt-frejmvorka.jpg)
![Сущность real-time фреймворка](/wp-content/uploads/2024/03/sushchnost-real-time-frejmvorka.jpg)
Использование фреймворков даёт целый ряд преимуществ, в том числе:
-
— снижение требований к квалификации сотрудников, вовлечённых в процесс загрузки данных в хранилище (этим могут заниматься не инженеры, а аналитики без специальной подготовки);
— сокращение времени на настройку загрузки и обработки данных;
— снижение в несколько раз time-to-market цифровых продуктов;
— повышение точности бизнес-отчётов, поскольку при загрузке данных полностью исключается человеческий фактор.
Цифровая аналитическая платформа
Если есть задача управлять бизнесом на основе данных, необходима аналитическая платформа.![Цифровая аналитическая платформа](/wp-content/uploads/2024/03/cifrovaya-analiticheskaya-platforma.jpg)
Корпоративное хранилище данных — ключевой компонент аналитической платформы. Она не ограничивается рамками КХД и решает целый комплекс задач:
- предоставление единой точки доступа к непротиворечивым консистентным данным и разнообразным цифровым сервисам;
- интеграция и сбор данных из различных источников;
- обработка данных после интеграции и загрузки с целью определить расчётные показатели, необходимые для принятия бизнес-решений;
- BI-аналитика данных (в комплексном сервисе на базе K2 Cloud используется BI на основе Open Source решения Apache Superset);
- подключение цифровых инструментов, например для предиктивной аналитики и выдачи рекомендаций по оптимизации бизнес-процессов.
![Аналитическая платформа](/wp-content/uploads/2024/03/analiticheskaya-platforma.jpg)
Аналитическая платформа с интегрированными фреймворками и инструментами Arenadata позволяет быстро делать расчёты и получить результат в витрине BI-системы за 5 минут вместо нескольких дней.
![Эффекты от внедрения аналитической платформы](/wp-content/uploads/2024/03/ehffekty-ot-vnedreniya-analiticheskoj-platformy.jpg)
За счёт чего возникает такое ускорение? В обычной ситуации для подготовки отчёта сотрудник сначала выгружает информацию из одной учётной системы, потом из другой смежной системы, сверяет всё в Excel и сводит данные в единую таблицу. На это уходит минимум два-три дня работы.
Благодаря использованию аналитической платформы и инструментов Arenadata можно свести все данные в единую точку доступа, на уровне платформы обеспечить консистентность и качество этих данных, сделать расчёты на базе фреймворков, предоставить витрины для BI-системы и получить результат за 5 минут. Не требуется согласовывать подключение источников, потому что все данные уже есть и все интеграционные каналы согласованы с внутренними службами и с владельцами систем. Согласование необходимо, чтобы добавить новые данные, но и это происходит быстро. Любые дополнения и дозагрузки занимают минуты или максимум часы.
Подход с использованием КХД и аналитической платформы обеспечивает соблюдение архитектурных принципов, что позволяет исключить зависимость от конкретных разработчиков, у каждого из которых может быть своё видение. Всё хранилище разработано в едином стиле; есть документация, позволяющая понять правила создания и ведения новых сущностей, витрин и т. д. Оркестрация расчётов и загрузки происходит на базе фреймворка, и на этом же уровне контролируются все эти процессы, что повышает прозрачность созданного аналитического хранилища.
K2 Cloud — инфраструктура для больших данных
Фундаментом комплексного сервиса КХД и цифровой аналитической платформы является K2 Cloud.Эта облачная платформа — собственная разработка K2 Cloud на основе ПО с открытым кодом, развёрнутая на базе трёх сертифицированных дата-центров K2 Cloud, что гарантирует высокий уровень доступности облачной инфраструктуры. Развитие, сопровождение, создание новых функций платформы находятся полностью в компетенции экспертов K2 Cloud.
Нагрузочное тестирование совместно с инженерами Arenadata показало отличную совместимость K2 Cloud и Arenadata DB. Облачная платформа обеспечивает быстрый старт проекта КХД: предоставление вычислительных ресурсов и лицензирование по облачной модели SPLA позволяют запустить такой проект за несколько недель и обойтись без вложений в оборудование. А масштабируемость достигается за считаные часы: для расширения инсталляции просто добавляются и лицензируются сегмент-ноды, развёрнутые на виртуальных машинах.
По данным K2 Cloud, с учётом ТСО облачная модель приносит до 60% финансовой выгоды, поскольку нет необходимости тратить большой бюджет здесь и сейчас на закупку оборудования и лицензий, а также наращивать свой штат дата-специалистов. Облачный провайдер гарантирует высокий уровень SLA и поддержку платформы и инфраструктуры, а персонал заказчика освобождается от рутины сопровождения инфраструктуры КХД и может заняться профильными аналитическими задачами, что позволяет оптимизировать ФОТ.
K2 Cloud и ADB внесены в Реестр российского ПО, ELT-фреймворки являются собственной разработкой К2Тех. Таким образом, комплексный сервис КХД из K2 Cloud полностью отвечает требованиям перехода на отечественные решения.