Департамент информационных технологий Москвы

Переход на платформу управления данными вендора Arenadata

Департамент информационных технологий города Москвы мигрировал хранилище данных и ETL-процессы на продукты Arenadata.

О ДИТ Москвы

Команда департамента информационных технологий города Москвы внедряет технологии, которые делают Москву комфортнее, а жизнь горожан — удобнее и мобильнее. Для системы управления столицей технологии — это незаменимый инструмент, который применяется во всех без исключения отраслях экономики, городского хозяйства и социальной сферы. А для миллионов горожан это повседневный помощник, который позволяет получать сотни услуг и сервисов в удобном цифровом формате в режиме 24/7/365.

Реализация проекта по миграции

В течение 2020 года было построено хранилище данных ДИТ Москвы, размер которого составляет порядка 100 ТБ. Одной из основных функций хранилища является интеграция данных, их очистка и приведение к стандартному формату с дальнейшей сборкой в единые сущности по сложному алгоритму сопоставления. Для поддержания актуальности данных выстроены процессы их объединения (ведётся каталог данных) и управления качеством, которые позволяют выявлять ошибки в данных и устранять их на ранних этапах обработки.

В сентябре 2023 года команда ДИТ Москвы завершила реализацию первого этапа проекта по миграции хранилища данных на продукты вендора Arenadata.

Начало этому проекту положили следующие предпосылки:
  • требования ИБ и законодательства по использованию отечественных программных решений;
  • необходимость технической поддержки;
  • необходимость обновления компонентов дистрибутива;
  • устранение инцидентов безопасности.

В рамках проекта по миграции команда ДИТ Москвы хотела обеспечить производительность не ниже и стоимость обработки данных не выше, чем на предыдущей системе. Помимо этого, необходимо было провести рефакторинг устаревших ETL-процессов.

В рамках пилотного проекта, проходившего с июня по декабрь 2022 года, ДИТ Москвы тестировал имеющиеся на рынке отечественные продукты, в том числе российского вендора Arenadata. Помимо технических аспектов, учитывались следующие преимущества:

  • крупная компания с перспективами на рынке и ясным вектором развития продуктов;
  • наличие внедрений в крупных организациях, включая госсектор;
  • возможность предоставления круглосуточной технической поддержки и консалтинговых услуг;
  • сертификация продуктов в ФСТЭК.

Пилотный проект миграции проводился в два этапа. На первом были перенесены холодные данные на Arenadata Hadoop (ADH) — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования. На втором этапе будет проводиться перенос горячих данных на Arenadata DB (ADB) — аналитическую распределённую СУБД, построенную на MPP-системе с открытым исходным кодом Greenplum. Проект реализуется совместно с компанией «Программный продукт».

Сложность проекта

Основная сложность проекта заключалась в необходимости перенести большое количество кода ETL-процессов. В процессе переноса код адаптировался под актуальные версии компонентов платформы Arenadata.

В процессе миграции ДИТ Москвы находился на постоянной связи со специалистами Arenadata. На начальном этапе проекта заказчик прошёл обучение на официальных курсах по продуктам Arenadata DB, Arenadata Hadoop, а также активно обращался за консультациями в отдел консалтинга Arenadata. При этом поставщик продемонстрировал, что способен в разумные сроки вносить доработки в функциональность продукта под требования ключевых заказчиков.

При обнаружении проблем, возникающих, в частности, в результате конфликта версий, компонентов библиотек, команда заказчика обращалась в техподдержку Arenadata. В результате этих обращений был сформирован ряд задач на доработку ПО, из которых примерно 2/3 пошли в работу и 1/3 уже реализованы.

АЛЕКСАНДР ФИЛАТОВ
АЛЕКСАНДР ФИЛАТОВ
Начальник управления данными в распределённых вычислительных сетях ДИТ Москвы

«Миграция хранилища данных ДИТ Москвы на продукты Arenadata позволила перенести ETL-процессы, а также добиться улучшений в работе хранилища. В частности, перенесли часть холодных данных для оптимального хранения с достаточной производительностью».

Достигнутые результаты

По завершении проекта команде ДИТ Москвы удалось:

  • более чем в 1,5 раза снизить стоимость поддержки проекта;
  • на 10% увеличить производительность загрузки и обновления данных (ETL-процессы на новом хранилище занимают меньше времени, чем на старом);
  • реализовать полный цикл поддержки разработок с участием специалистов российского вендора;
  • повысить информационную безопасность данных за счёт замены устаревшей не поддерживаемой системы авторизации на более безопасное решение Arenadata Platform Security (ADPS).
На текущий момент реализована первая часть проекта: осуществлён перенос более 400  ETL-процессов и построено новое хранилище данных. Кропотливость задачи заключалась в том, что специалистам было необходимо убедиться, что все ETL-процессы заменяемого и нового хранилищ работают идентично.

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Получите бесплатную консультацию по организации корпоративной платформы данных

ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.