Оптимизируй и управляй: как работать с большими данными в облаке?

12.03.2024
Рост объёмов информации, развитие технологий хранения и интеллектуальной обработки данных привели к тому, что многие компании осознали важность не только сбора, но и всестороннего анализа данных для получения бизнес-преимуществ.

Вместе с тем компании часто сталкиваются с недостатком ресурсов и компетенций для решения задач больших данных. Кроме того, современные реалии диктуют необходимость замены зарубежных продуктов. Здесь на помощь приходят комплексные российские системы и облачные сервисы.
Проекты корпоративных хранилищ данных на базе продуктов Arenadata и фреймворков, разработанных специалистами компании К2Тех, находят активное применение в практике компаний различных отраслей, в том числе в промышленности и финтехе.

Теперь этот опыт получил распространение на облачную платформу. Использование облачных ресурсов открывает возможность быстрого запуска проектов больших данных и получения бизнес-инсайтов для тех компаний, которые не имеют возможности вкладываться в дорогостоящее оборудование Big Data или ограничены в компетенциях по развёртыванию и поддержке инфраструктуры работы с данными.

В статье описаны подходы к созданию корпоративного хранилища данных на базе облачной платформы.

Авторы статьи:

Павел Егоров

Менеджер по развитию решений по промышленной аналитике компании К2Тех

Антон Коваленко

Руководитель направления продуктового маркетинга Arenadata

Александр Фикс

Менеджер по развитию бизнеса КРОК Облачные сервисы


Корпоративное хранилище данных: трудности проектов

Построение корпоративного хранилища — первый шаг к аналитике больших данных. В реализации проектов есть ряд ключевых вопросов. Один из первостепенных — скорость: КХД надо внедрять быстро, чтобы как можно скорее начать получать отдачу от вложений в решения больших данных. Ещё один важный вопрос — стоимость проекта. При размещении инфраструктуры on-premise потребуется дорогостоящее оборудование, которое зачастую сложно выделить на проект, если оно уже есть, и ещё сложнее купить. Выгода проекта по большим данным на начальных этапах не всегда очевидна, и для многих компаний старт такого проекта — это «прыжок веры», решиться на который с учётом больших затрат может быть непросто.

Помимо этого, для внедрения и поддержки проекта КХД нужны опытные специалисты: архитектор, дата-инженеры и др. Наём таких людей потребует времени и немалых затрат, при этом необходимость растить собственную команду неочевидна для компании, основной бизнес которой не связан с построением КХД.

Актуальной остаётся миграция с зарубежных решений КХД на отечественные. С одной стороны, на этом настаивают регуляторы, а с другой — всё сложнее становится развивать такие системы в условиях, когда купить новые лицензии и получить поддержку вендора невозможно.

В качестве решения в компании КРОК совместно с Arenadata и К2Тех предложили комплексный сервис развёртывания КХД в облаке, который охватывает максимальный спектр задач: от предоставления облачной инфраструктуры и интеграции источников данных до визуализации результатов аналитики, а также включает в себя поддержку инфраструктуры и ПО. Клиент может не заботиться о приобретении собственной экспертизы по КХД и освобождён от капитальных затрат, он просто ежемесячно оплачивает стоимость сервиса.

Корпоративное хранилище на Arenadata DB

В основе комплексного сервиса КХД в Облаке КРОК лежит один из ключевых продуктов компании Arenadata — Arenadata DB (ADB).

Ситуация на рынке решений КХД/DWH Ландшафт решений для КХД на российском рынке кардинально изменился. В сегменте решений для больших КХД единственная зрелая технология с большим комьюнити в России — СУБД с открытым кодом Greenplum, на базе которой реализована Arenadata DB.

Сегодня миграция с продуктов зарубежных вендоров на их российские аналоги стала мейнстримом, а для многих компаний — вопросом выживания. В компании Arenadata разрабатывают продукты на базе Open Source и доводят эти решения до уровня Enterprise Ready, чтобы процесс миграции был безболезненным и заказчики чувствовали, что не только не теряют важные функции зарубежных продуктов, но и приобретают новые возможности.

Примером служит развитие проекта Greenplum в ADB Enterprise Edition. Так, Arenadata занимает первое место по вкладу в его развитие среди международного сообщества.

Отличия в сборках Greenplum
Среди ключевых доработок Arenadata в проект Greenplum можно назвать:
  • единую систему управления, инсталляции и мониторинга;
  • специализированные инструменты:
    • ADB Control для мониторинга и управления запросами внутри базы данных;
    • Arenadata DB Backup Manager (ADBM) для управления резервным копированием в СУБД;
  • высокопроизводительные коннекторы для ликвидации узких мест взаимодействия больших кластерных систем.
Arenadata предоставляет документацию и техподдержку на русском языке, обучает специалистов и предлагает профессиональные сервисы (архитектурный надзор, консалтинг, Technical Account Management, DB-as-a-Service), привычные для заказчиков крупных международных вендоров.

Фреймворки для оптимизации работы с данными

Следующий уровень комплексного сервиса КХД в облаке — разработанные специалистами компании К2Тех фреймворки для быстрых расчётов, загрузки и преобразования данных в хранилище.

Задача фреймворков — максимально автоматизировать и упростить решение задач, которые из раза в раз повторяются в проектах корпоративных хранилищ данных.

ELT-фреймворк — это инструмент для оптимизации загрузки данных и формирования детального слоя хранилища. Real-time-фреймворк, реализованный на базе Spark и Hadoop, поддерживает расчёты по стандартным формулам в режиме реального времени.

Основные функции ELT-фреймворка

Сущность real-time фреймворка

Использование фреймворков даёт целый ряд преимуществ, в том числе:
    — снижение требований к квалификации сотрудников, вовлечённых в процесс загрузки данных в хранилище (этим могут заниматься не инженеры, а аналитики без специальной подготовки);
    — сокращение времени на настройку загрузки и обработки данных;
    — снижение в несколько раз time-to-market цифровых продуктов;
    — повышение точности бизнес-отчётов, поскольку при загрузке данных полностью исключается человеческий фактор.

Цифровая аналитическая платформа

Если есть задача управлять бизнесом на основе данных, необходима аналитическая платформа.

Цифровая аналитическая платформа

Корпоративное хранилище данных — ключевой компонент аналитической платформы. Она не ограничивается рамками КХД и решает целый комплекс задач:
  • предоставление единой точки доступа к непротиворечивым консистентным данным и разнообразным цифровым сервисам;
  • интеграция и сбор данных из различных источников;
  • обработка данных после интеграции и загрузки с целью определить расчётные показатели, необходимые для принятия бизнес-решений;
  • BI-аналитика данных (в комплексном сервисе на базе Облака КРОК используется BI на основе Open Source решения Apache Superset);
  • подключение цифровых инструментов, например для предиктивной аналитики и выдачи рекомендаций по оптимизации бизнес-процессов.
Аналитическая платформа

Аналитическая платформа с интегрированными фреймворками и инструментами Arenadata позволяет быстро делать расчёты и получить результат в витрине BI-системы за 5 минут вместо нескольких дней.

Эффекты от внедрения аналитической платформы

За счёт чего возникает такое ускорение? В обычной ситуации для подготовки отчёта сотрудник сначала выгружает информацию из одной учётной системы, потом из другой смежной системы, сверяет всё в Excel и сводит данные в единую таблицу. На это уходит минимум два-три дня работы.

Благодаря использованию аналитической платформы и инструментов Arenadata можно свести все данные в единую точку доступа, на уровне платформы обеспечить консистентность и качество этих данных, сделать расчёты на базе фреймворков, предоставить витрины для BI-системы и получить результат за 5 минут. Не требуется согласовывать подключение источников, потому что все данные уже есть и все интеграционные каналы согласованы с внутренними службами и с владельцами систем. Согласование необходимо, чтобы добавить новые данные, но и это происходит быстро. Любые дополнения и дозагрузки занимают минуты или максимум часы.

Подход с использованием КХД и аналитической платформы обеспечивает соблюдение архитектурных принципов, что позволяет исключить зависимость от конкретных разработчиков, у каждого из которых может быть своё видение. Всё хранилище разработано в едином стиле; есть документация, позволяющая понять правила создания и ведения новых сущностей, витрин и т. д. Оркестрация расчётов и загрузки происходит на базе фреймворка, и на этом же уровне контролируются все эти процессы, что повышает прозрачность созданного аналитического хранилища.


Облако КРОК — инфраструктура для больших данных

Фундаментом комплексного сервиса КХД и цифровой аналитической платформы является Облако КРОК.

Эта облачная платформа — собственная разработка КРОК на основе ПО с открытым кодом, развёрнутая на базе трёх сертифицированных дата-центров КРОК, что гарантирует высокий уровень доступности облачной инфраструктуры. Развитие, сопровождение, создание новых функций платформы находятся полностью в компетенции экспертов КРОК Облачные сервисы.

Нагрузочное тестирование совместно с инженерами Arenadata показало отличную совместимость Облака КРОК и Arenadata DB. Облачная платформа обеспечивает быстрый старт проекта КХД: предоставление вычислительных ресурсов и лицензирование по облачной модели SPLA позволяют запустить такой проект за несколько недель и обойтись без вложений в оборудование. А масштабируемость достигается за считаные часы: для расширения инсталляции просто добавляются и лицензируются сегмент-ноды, развёрнутые на виртуальных машинах.

По данным КРОК Облачные сервисы, с учётом ТСО облачная модель приносит до 60% финансовой выгоды, поскольку нет необходимости тратить большой бюджет здесь и сейчас на закупку оборудования и лицензий, а также наращивать свой штат дата-специалистов. Облачный провайдер гарантирует высокий уровень SLA и поддержку платформы и инфраструктуры, а персонал заказчика освобождается от рутины сопровождения инфраструктуры КХД и может заняться профильными аналитическими задачами, что позволяет оптимизировать ФОТ.

Облако КРОК и ADB внесены в Реестр российского ПО, ELT-фреймворки являются собственной разработкой К2Тех. Таким образом, комплексный сервис КХД из Облака КРОК полностью отвечает требованиям перехода на отечественные решения.

Читайте также

все новости
ошибка! проверьте правильно ли вы заполнили поле Email

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.