В качестве технологической базы выбран продукт Arenadata DB. Оркестрация процессов загрузки реализована с помощью Airflow, для работы с ML-инструментами используется ИИ-платформа RAISA (RSHB AI Systems and Applications), а для визуализации данных используется отечественная BI-платформа. Благодаря кластерной архитектуре Arenadata DB удалось ускорить выполнение ETL-процессов и повысить отказоустойчивость. Комплексный подход позволил упростить архитектуру, повысить прозрачность процессов и обеспечить соответствие требованиям импортозамещения.

«Аналитическая экосистема РСХБ развивается по мере роста бизнес-задач и охватывает различные направления. Ввиду этого появилась потребность объединить отдельные системы анализа и обработки данных. Также переходу на российский стек способствовали необходимость импортозамещения и растущие объемы и требования к скорости обработки данных».
В настоящее время на централизованной платформе работает более 300 аналитиков. Ежедневно обновляется более 2500 объектов из корпоративного хранилища данных, озера данных и внешних систем, что составляет более 50 терабайт данных. Все процессы поддерживаются без участия разработчиков. Особое внимание уделено вопросам доступа: в новой системе создана ролевая модель, которая позволяет разграничивать права пользователей, а бизнес-подразделения могут самостоятельно загружать неструктурированные данные в свое пространство.

«Мы смогли создать отказоустойчивую, масштабируемую систему, которая позволяет нашим бизнес-подразделениям работать максимально эффективно. Ключевая актуальность проекта заключается в консолидации разрозненных данных, повышении скорости и качества аналитики. Бизнес-подразделения смогут готовить оперативную отчетность для принятия управленческих решений».

«РСХБ реализовал действительно масштабный проект, который максимально широко использует технологические преимущества продуктов Arenadata. Мы рады, что наш продукт Arenadata DB стал надёжной основой для единого аналитического пространства и позволил упростить архитектуру, снизить затраты и повысить производительность работы с данными».
Возможности Arenadata DB
Arenadata DB — аналитическая распределённая MPP-СУБД, построенная на базе проекта с открытым исходным кодом Greengage (ех-Greenplum). Применяется в критически важных системах, работающих с большими объёмами данных. Arenadata DB позволяет построить надёжное, безопасное и масштабируемое корпоративное хранилище данных.
Arenadata DB предназначена для работы со сложными аналитическими запросами и способна хранить и обрабатывать от десятков терабайт до десятков петабайт данных. С помощью продукта возможно:
- снизить Time to Market для новых разработок;
- уменьшить время решения проблем;
- оптимизировать TCO;
- ускорить текущие процессы без значительного переписывания кода.