Счётная палата Российской Федерации

«Озеро данных» на решениях Arenadata

Создание программно-аппаратного комплекса на базе Arenadata DB и Arenadata Hadoop, предоставляющего возможности дата-аналитикам иметь в своём распоряжении необходимые данные.

Цифровизация информационного обеспечения деятельности Счётной палаты РФ

Счётная палата РФ с 2018 года реализует приоритетные направления развития, заложенные в её Стратегии на 2018-2024 годы, на новом качественном уровне на основе цифровизации информационного обеспечения своей деятельности по осуществлению внешнего государственного аудита (контроля). Особое внимание Счётная палата уделяет задачам создания цифровой инфраструктуры для поддержки аудита и аналитической деятельности. Решать их Счётной палате помогает Arenadata: в рамках сотрудничества используются два инструмента, разработанных компанией — Arenadata Hadoop и Arenadata DB.

«Озеро данных» Счётной палаты РФ

Счётная палата РФ собирает огромный объём данных всех возможных типов из совершенно разных источников, перечень которых заранее не определён. Он включает не только данные из информационных систем Счётной палаты, но и из других информационных систем. Например, это могут быть электронный бюджет, Единая информационная система закупок, Казначейство России, ФНС РФ.

Концепция цифровизации Счётной палаты включает разработку ряда важных сервисов для пользователей (сотрудников и руководителей), работа которых построена на данных. Один из них — Цифровой инспектор, который поможет пользователям в режиме «одного окна» получать по объектам проверки самые разнообразные сведения, поступающие из различных информационных систем.

Данные во внешних информационных системах построены на справочниках своей структуры, и из-за этого связи между данными из различных источников не очевидны. Кроме того, в качестве источников данных используется множество файлов с машинночитаемой и машиннонечитаемой информацией, которые также требуется привести к единому виду, распознать и связать с остальными данными.
Специалисты Счётной палаты понимают, что со временем перечень используемых источников постоянно расширяется, поэтому им потребовалось решить вопрос оптимального способа хранения разнородной информации, её очистки, обработки, связывания поступающих данных. Поэтому Счётная палата приступила к созданию полноценного «озера данных».

В связи с лицензионными рисками использование западного проприетарного ПО было не желательно, а ПО Open Source не всегда полностью удовлетворяет требованиям. В результате Счётная Палата РФ выбрала зарекомендовашие себя Arenadata DB для массово-параллельных расчётов, хранения витрин данных и промежуточных таблиц, а также Arenadata Hadoop для создания «Озера данных».

Счётная палата и Arenadata

Сначала специалисты Счётной палаты решили построить «озеро данных» на «ванильном решении». Однако впоследствии стало понятно, что надёжнее и быстрее будет иметь рядом компетенции партнёра, не пытаясь, например, решить возникающие сложности при помощи открытого сообщества.

Поэтому Счётная палата обратилась в Arenadata. В результате было выбрано два продукта — Arenadata Hadoop (используется для хранилища сырых данных) и Arenadata DB (помогает Счётной палате строить витрины данных — срезы, представляющие собой массивы тематической, узконаправленной информации, ориентированные на пользователей одной конкретной рабочей группы).

Счётная палата не планировала строить громоздкую реляционную супер-базу, поскольку ей приходится оперировать данными из совершенно разных источников, не совместимых между собой. Этому способствовало и отсутствие требований к очень большой оперативности результатов. В результате построено хранилище «сырых» данных на Arenadata Hadoop, в которое загружаются копии источников, преобразованные в формат JSON. Файлы формата JSON выбраны по причине их независимости от структуры источника.
Технология хранения и обработки данных в «озере данных» строится по принципу виртуализации данных на основе семантического стека технологий, то есть физически данные хранятся в хранилище сырых данных, но имеют дополнительно слой метаданных, описывающий структуру хранения данных, их связи, а также описание «человеческим» языком.

Результаты проекта

Масштаб проекта Счётной палаты занял 36 000 человеко-часов, и в его рамках удалось сократить трудозатраты на создание отчётов по некоторым объектам контроля примерно на 70%. Благодаря «озеру данных» Счётная палата ведёт пилотный проект «Цифровой департамент» и создаёт различные аналитические модели.
Михаил Петров
Директор департамента Цифровой трансформации Счётной палаты РФ

«Поиск ПО для формирования платформы данных Счётной палаты стал для нас актуальной в 2019 году задачей. Зарубежный проприетарный софт мы даже не стали рассматривать: он стоит дорого и идёт вразрез с государственной политикой, направленной на продвижение отечественных разработок. Поэтому мы обратили внимание на программные решения open-source, которые позволяют достаточно быстро и с минимальными затратами нарастить технологическую платформу. При этом open-source сообщество достаточно большое, так как ПО с открытым исходным кодом выбирает всё большее число российских компаний из различных секторов экономики.

При помощи Arenadata мы создали прототип платформы по обработке данных — того инструмента, который позволяет нам достаточно легко подключать новые источники данные к уже имеющимся (а мы, как Счётная палата, имеем доступ к десяткам информационных систем), проверять качество поступающих данных, хранить и обрабатывать их, строить витрины данных под конкретные аналитические задачи, которые возникают у наших работающих с ними команд.

В прошлом году на основании платформы мы сделали несколько пилотов, которые показали, что это работоспособное решение, а также представили наш проект на суд широкой ИТ-общественности. А в этом году мы намерены продолжать развёртывание платформы в новых направлениях деятельности — под новые аналитические задачи и новые объекты проверки — и формировать промышленное решение, «обкатывая» наши наработки и расширяя уже полученный опыт.

С Arenadata мы построили продуктивное сотрудничество. Нас крайне радует, что рядом всегда есть специалисты, обладающие обширной экспертизой и высокой квалификацией.»

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.