Теперь этот опыт получил распространение на облачную платформу. Использование облачных ресурсов открывает возможность быстрого запуска проектов больших данных и получения бизнес-инсайтов для тех компаний, которые не имеют возможности вкладываться в дорогостоящее оборудование Big Data или ограничены в компетенциях по развёртыванию и поддержке инфраструктуры работы с данными.
В статье описаны подходы к созданию корпоративного хранилища данных на базе облачной платформы.
Авторы статьи:
Павел Егоров
Менеджер по развитию решений по промышленной аналитике компании К2Тех
Антон Коваленко
Руководитель направления продуктового маркетинга Arenadata
Александр Фикс
Менеджер по развитию бизнеса КРОК Облачные сервисы
Корпоративное хранилище данных: трудности проектов
Построение корпоративного хранилища — первый шаг к аналитике больших данных. В реализации проектов есть ряд ключевых вопросов. Один из первостепенных — скорость: КХД надо внедрять быстро, чтобы как можно скорее начать получать отдачу от вложений в решения больших данных. Ещё один важный вопрос — стоимость проекта. При размещении инфраструктуры on-premise потребуется дорогостоящее оборудование, которое зачастую сложно выделить на проект, если оно уже есть, и ещё сложнее купить. Выгода проекта по большим данным на начальных этапах не всегда очевидна, и для многих компаний старт такого проекта — это «прыжок веры», решиться на который с учётом больших затрат может быть непросто.Помимо этого, для внедрения и поддержки проекта КХД нужны опытные специалисты: архитектор, дата-инженеры и др. Наём таких людей потребует времени и немалых затрат, при этом необходимость растить собственную команду неочевидна для компании, основной бизнес которой не связан с построением КХД.
Актуальной остаётся миграция с зарубежных решений КХД на отечественные. С одной стороны, на этом настаивают регуляторы, а с другой — всё сложнее становится развивать такие системы в условиях, когда купить новые лицензии и получить поддержку вендора невозможно.
В качестве решения в компании КРОК совместно с Arenadata и К2Тех предложили комплексный сервис развёртывания КХД в облаке, который охватывает максимальный спектр задач: от предоставления облачной инфраструктуры и интеграции источников данных до визуализации результатов аналитики, а также включает в себя поддержку инфраструктуры и ПО. Клиент может не заботиться о приобретении собственной экспертизы по КХД и освобождён от капитальных затрат, он просто ежемесячно оплачивает стоимость сервиса.
Корпоративное хранилище на Arenadata DB
В основе комплексного сервиса КХД в Облаке КРОК лежит один из ключевых продуктов компании Arenadata — Arenadata DB (ADB).Ландшафт решений для КХД на российском рынке кардинально изменился. В сегменте решений для больших КХД единственная зрелая технология с большим комьюнити в России — СУБД с открытым кодом Greenplum, на базе которой реализована Arenadata DB.
Сегодня миграция с продуктов зарубежных вендоров на их российские аналоги стала мейнстримом, а для многих компаний — вопросом выживания. В компании Arenadata разрабатывают продукты на базе Open Source и доводят эти решения до уровня Enterprise Ready, чтобы процесс миграции был безболезненным и заказчики чувствовали, что не только не теряют важные функции зарубежных продуктов, но и приобретают новые возможности.
Примером служит развитие проекта Greenplum в ADB Enterprise Edition. Так, Arenadata занимает первое место по вкладу в его развитие среди международного сообщества.
Среди ключевых доработок Arenadata в проект Greenplum можно назвать:
- единую систему управления, инсталляции и мониторинга;
- специализированные инструменты:
- ADB Control для мониторинга и управления запросами внутри базы данных;
- Arenadata DB Backup Manager (ADBM) для управления резервным копированием в СУБД;
- высокопроизводительные коннекторы для ликвидации узких мест взаимодействия больших кластерных систем.
Фреймворки для оптимизации работы с данными
Следующий уровень комплексного сервиса КХД в облаке — разработанные специалистами компании К2Тех фреймворки для быстрых расчётов, загрузки и преобразования данных в хранилище.Задача фреймворков — максимально автоматизировать и упростить решение задач, которые из раза в раз повторяются в проектах корпоративных хранилищ данных.
ELT-фреймворк — это инструмент для оптимизации загрузки данных и формирования детального слоя хранилища. Real-time-фреймворк, реализованный на базе Spark и Hadoop, поддерживает расчёты по стандартным формулам в режиме реального времени.
Использование фреймворков даёт целый ряд преимуществ, в том числе:
-
— снижение требований к квалификации сотрудников, вовлечённых в процесс загрузки данных в хранилище (этим могут заниматься не инженеры, а аналитики без специальной подготовки);
— сокращение времени на настройку загрузки и обработки данных;
— снижение в несколько раз time-to-market цифровых продуктов;
— повышение точности бизнес-отчётов, поскольку при загрузке данных полностью исключается человеческий фактор.
Цифровая аналитическая платформа
Если есть задача управлять бизнесом на основе данных, необходима аналитическая платформа.Корпоративное хранилище данных — ключевой компонент аналитической платформы. Она не ограничивается рамками КХД и решает целый комплекс задач:
- предоставление единой точки доступа к непротиворечивым консистентным данным и разнообразным цифровым сервисам;
- интеграция и сбор данных из различных источников;
- обработка данных после интеграции и загрузки с целью определить расчётные показатели, необходимые для принятия бизнес-решений;
- BI-аналитика данных (в комплексном сервисе на базе Облака КРОК используется BI на основе Open Source решения Apache Superset);
- подключение цифровых инструментов, например для предиктивной аналитики и выдачи рекомендаций по оптимизации бизнес-процессов.
Аналитическая платформа с интегрированными фреймворками и инструментами Arenadata позволяет быстро делать расчёты и получить результат в витрине BI-системы за 5 минут вместо нескольких дней.
За счёт чего возникает такое ускорение? В обычной ситуации для подготовки отчёта сотрудник сначала выгружает информацию из одной учётной системы, потом из другой смежной системы, сверяет всё в Excel и сводит данные в единую таблицу. На это уходит минимум два-три дня работы.
Благодаря использованию аналитической платформы и инструментов Arenadata можно свести все данные в единую точку доступа, на уровне платформы обеспечить консистентность и качество этих данных, сделать расчёты на базе фреймворков, предоставить витрины для BI-системы и получить результат за 5 минут. Не требуется согласовывать подключение источников, потому что все данные уже есть и все интеграционные каналы согласованы с внутренними службами и с владельцами систем. Согласование необходимо, чтобы добавить новые данные, но и это происходит быстро. Любые дополнения и дозагрузки занимают минуты или максимум часы.
Подход с использованием КХД и аналитической платформы обеспечивает соблюдение архитектурных принципов, что позволяет исключить зависимость от конкретных разработчиков, у каждого из которых может быть своё видение. Всё хранилище разработано в едином стиле; есть документация, позволяющая понять правила создания и ведения новых сущностей, витрин и т. д. Оркестрация расчётов и загрузки происходит на базе фреймворка, и на этом же уровне контролируются все эти процессы, что повышает прозрачность созданного аналитического хранилища.
Облако КРОК — инфраструктура для больших данных
Фундаментом комплексного сервиса КХД и цифровой аналитической платформы является Облако КРОК.Эта облачная платформа — собственная разработка КРОК на основе ПО с открытым кодом, развёрнутая на базе трёх сертифицированных дата-центров КРОК, что гарантирует высокий уровень доступности облачной инфраструктуры. Развитие, сопровождение, создание новых функций платформы находятся полностью в компетенции экспертов КРОК Облачные сервисы.
Нагрузочное тестирование совместно с инженерами Arenadata показало отличную совместимость Облака КРОК и Arenadata DB. Облачная платформа обеспечивает быстрый старт проекта КХД: предоставление вычислительных ресурсов и лицензирование по облачной модели SPLA позволяют запустить такой проект за несколько недель и обойтись без вложений в оборудование. А масштабируемость достигается за считаные часы: для расширения инсталляции просто добавляются и лицензируются сегмент-ноды, развёрнутые на виртуальных машинах.
По данным КРОК Облачные сервисы, с учётом ТСО облачная модель приносит до 60% финансовой выгоды, поскольку нет необходимости тратить большой бюджет здесь и сейчас на закупку оборудования и лицензий, а также наращивать свой штат дата-специалистов. Облачный провайдер гарантирует высокий уровень SLA и поддержку платформы и инфраструктуры, а персонал заказчика освобождается от рутины сопровождения инфраструктуры КХД и может заняться профильными аналитическими задачами, что позволяет оптимизировать ФОТ.
Облако КРОК и ADB внесены в Реестр российского ПО, ELT-фреймворки являются собственной разработкой К2Тех. Таким образом, комплексный сервис КХД из Облака КРОК полностью отвечает требованиям перехода на отечественные решения.