Будем рады помочь!
Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.
Переход на платформу управления данными вендора Arenadata
Департамент информационных технологий города Москвы мигрировал хранилище данных и ETL-процессы на продукты Arenadata.
В течение 2020 года было построено хранилище данных ДИТ Москвы, размер которого составляет порядка 100 ТБ. Одной из основных функций хранилища является интеграция данных, их очистка и приведение к стандартному формату с дальнейшей сборкой в единые сущности по сложному алгоритму сопоставления. Для поддержания актуальности данных выстроены процессы их объединения (ведётся каталог данных) и управления качеством, которые позволяют выявлять ошибки в данных и устранять их на ранних этапах обработки.
В сентябре 2023 года команда ДИТ Москвы завершила реализацию первого этапа проекта по миграции хранилища данных на продукты вендора Arenadata.
Начало этому проекту положили следующие предпосылки:В рамках проекта по миграции команда ДИТ Москвы хотела обеспечить производительность не ниже и стоимость обработки данных не выше, чем на предыдущей системе. Помимо этого, необходимо было провести рефакторинг устаревших ETL-процессов.
В рамках пилотного проекта, проходившего с июня по декабрь 2022 года, ДИТ Москвы тестировал имеющиеся на рынке отечественные продукты, в том числе российского вендора Arenadata. Помимо технических аспектов, учитывались следующие преимущества:
Пилотный проект миграции проводился в два этапа. На первом были перенесены холодные данные на Arenadata Hadoop (ADH) — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования. На втором этапе будет проводиться перенос горячих данных на Arenadata DB (ADB) — аналитическую распределённую СУБД, построенную на MPP-системе с открытым исходным кодом Greenplum. Проект реализуется совместно с компанией «Программный продукт».
Основная сложность проекта заключалась в необходимости перенести большое количество кода ETL-процессов. В процессе переноса код адаптировался под актуальные версии компонентов платформы Arenadata.
В процессе миграции ДИТ Москвы находился на постоянной связи со специалистами Arenadata. На начальном этапе проекта заказчик прошёл обучение на официальных курсах по продуктам Arenadata DB, Arenadata Hadoop, а также активно обращался за консультациями в отдел консалтинга Arenadata. При этом поставщик продемонстрировал, что способен в разумные сроки вносить доработки в функциональность продукта под требования ключевых заказчиков.
При обнаружении проблем, возникающих, в частности, в результате конфликта версий, компонентов библиотек, команда заказчика обращалась в техподдержку Arenadata. В результате этих обращений был сформирован ряд задач на доработку ПО, из которых примерно 2/3 пошли в работу и 1/3 уже реализованы.
«Миграция хранилища данных ДИТ Москвы на продукты Arenadata позволила перенести ETL-процессы, а также добиться улучшений в работе хранилища. В частности, перенесли часть холодных данных для оптимального хранения с достаточной производительностью».
По завершении проекта команде ДИТ Москвы удалось:
Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.