Росбанк

Первый этап создания единого КХД на базе ADB и ADH

Росбанк выбрал ПО Arenadata для построения новой корпоративной платформы данных, которая стала единым источником информации обо всех банковских процессах.

О Росбанке

Росбанк (далее — Банк) обслуживает около 5 млн физических и юридических лиц. Банк предоставляет клиентам все виды финансовых услуг и имеет генеральную лицензию на осуществление банковских операций, лицензии профессионального участника рынка ценных бумаг, а также лицензии на проведение операций с драгоценными металлами и др. Входит в перечень системно значимых кредитных организаций Российской Федерации.

Предпосылки проекта

Изначально хранилища Банка были построены по классике DWH: Subject-oriented, Time-variant, Non-volatile и Integrated. В этой модели были выделены ключевые сущности: клиенты, счета, договоры и т.д. Для оркестрации потоков данных использовался Apache Airflow, для загрузки реплик в базы — фреймворк собственной разработки.

До старта проекта одновременно использовалось 18 локальных аналитических хранилищ, несколько BI-серверов и «песочниц», а также около сотни разнородных систем-источников.

На этой базе Росбанк развивал «озёро» данных, где необработанные данные из систем-источников ежедневно загружались в хранилища, преобразовывались и слой за слоем продвигались до пользовательских витрин.

Преимуществом этого подхода было отсутствие «тяжеловесного» этапа обработки данных перед загрузкой в хранилище. Это экономило время и обеспечивало постоянную доступность данных. Недостатком — то, что данные дублировались и были некачественными.

Первоначально, чтобы решить эту проблему, Банк начал загружать «сырые» данные из Hadoop. Однако это происходило медленно, данные подтягивались не из всех источников и оставались непригодными для бизнеса.

Сами хранилища при этом занимали много места, никак не переиспользовались, а данные из множества источников излишне перегружали системы. Содержали и обслуживали разные хранилища разные команды, что обходилось Банку в сотни млн рублей.

Цели проекта

  • Построить единое хранилище данных Банка с единой общекорпоративной моделью
  • Мигрировать все локальные хранилища в единое КХД.
  • Отказаться от зарубежного проприетарного ПО и уменьшить стоимость поддержки хранилищ
Максим Солопин
Максим Солопин
Архитектор корпоративного хранилища данных Росбанка

«Мы приняли решение, что нам нужно создать единую data-платформу, которая сможет своевременно обеспечивать бизнес необходимыми данными, подготовленными в соответствии с принятой в банке моделью. В качестве целевых систем для построения нового КХД мы выбрали Greenplum и Hadoop».

Реализация проекта

На первом этапе были выбраны системы и технологии для создания единого КХД, а также развёрнута инфраструктура для нового хранилища. К новому хранилищу было подключено свыше 50 систем-источников. Было обеспечено ежедневное обновление и круглосуточный мониторинг доступности данных.

Также были разработаны единые стандарты для масштабирования команды разработки, автоматизированы CI/CD-поставки нового функционала и настроены потоки данных по слоям в рамках новой корпоративной модели:

Первый слой — STG. В нём хранятся «сырые» данные, которые поступают в Hadoop (изначально был дистрибутив Hortonworks, с которого прошла миграция на Arenadata Hadoop).

Второй слой — ODS.Это слой для накопления истории из слоя STG по нужным атрибутам.

Третий слой — DDS. Он содержит детальные данные по основным сущностям (клиенты, счета, договоры, проводки, балансы и тому подобное).

Четвёртый слой — EM.Представляет собой витрины с агрегированными показателями базовых сущностей: клиентский портфель, портфель HR, кредитные и депозитные портфели и так далее.

Пятый слой — DM. Это витрины данных Банка с рассчитанными агрегатами для всех департаментов организации. На его основе формируются отчёты. У него есть также дополнительные специализированные витрины для отдельных задач бизнеса.

Шестой слой — DIC. Слой справочников, которые можно загружать вручную, наполняя из файлов, подтягивая из систем-источников: MDS, API и так далее

Сложность проекта

  • Количество источников данных. Банку необходимо собирать «сырые» данные из множества источников и обеспечивать их ежедневное обновление и доступность.
  • Параллельная разработка на старом и новом хранилищах. Кроме того, в процессе «всплыли» неучтённые пользователи, которых вне плана пришлось включать в периметр миграции.
  • «Взрыв» активности на новом КХД. На старте проекта были задействованы всего две команды разработки, а уже к середине — десятки команд. Потребовались единые стандарты разработки и сервисы для поддержки команд.

Выбор Arenadata DB

Банк проанализировал функциональные и нефункциональные требований к аналитической СУБД и пришёл к выводу, что для OLAP нужна массово-параллельная система, способная обрабатывать не менее 100 Tб. В числе обязательных критериев также были отказоустойчивость, совместимость с Hadoop, высокая скорость обработки OLAP-запросов, умеренная стоимость и возможность подключения множества источников.

Рассмотрев доступные на тот момент решения (Vertica, Oracle Exadata, IBM DB2, «ванильный» Greenplum), по совокупному набору критериев Росбанк выбрал Arenadata DB.

Arenadata DB — зрелый, безопасный и готовый к эксплуатации продукт, в котором решено большинство проблем, присущих «ванильной» версии Greenplum 6. ADB обеспечена расширенным функционалом (масштабируемые коннекторы, система мониторинга, упрощённая установка и др.) и технической поддержкой
Максим Солопин
Максим Солопин
Архитектор корпоративного хранилища данных Росбанка

«В качестве наиболее очевидных плюсов миграции на Arenadata DB можно отметить ещё и то, что у нас появилась возможность одновременного поддерживать старое хранилище и переносить функционал в новое. Мы сократили затраты на лицензии и „железо“, стали тратить меньше времени на аналитику, и все данные у нас теперь аккумулируются в одном хранилище. Сложности, связанные с ограниченными знаниями команды продуктов Arenadata, мы решили с помощью обучения на вендорских курсах Arenadata и создания внутренней data-школы».

Для миграции с Hortonworks был выбран дистрибутив Arenadata Hadoop. Решение о выборе ADH было принято по совокупности таких характеристик, как актуальность версии, наличие поддержки, стоимость, безопасность, отсутствие лицензионных рисков, зрелость и готовность к эксплуатации.

Результаты и достижения

Изменениями в рамках проекта были охвачены свыше 2 тысяч сотрудников из разных подразделений Банка. В итоге были достигнуты следующие результаты:

  • В эксплуатацию введено единое хранилище Банка с общей корпоративной моделью данных

  • Проведена «бесшовная» миграция локальных хранилищ (бизнес не заметил технического перехода).

  • Сотрудники получили новые компетенции и навыки.

  • Банк сократил расходы на OLAP.

  • Были подтверждены выбранные технологии и модели.

  • Решена задача импортозамещения.

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Получите бесплатную консультацию по организации корпоративной платформы данных

ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.