Среди сложностей, которые возникают при переходе к этой модели управления, наиболее заметной является обеспечение качества данных. По оценкам консультантов Gartner «Каждый год низкое качество данных обходится организации в среднем в 12,9 миллиона долларов. Помимо существенного влияния на доходы, в долгосрочной перспективе плохое качество данных приводит к принятию неправильных бизнес-решений».
С увеличением объемов информации и роста количества источников данных эта проблема только усугубляется. В 2022 году проводилось исследование, посвящённое оценке доверия топ-менеджмента к данным. Результаты этого исследования оказались шокирующими: 75% руководителей не доверяют данным, с которыми работают, а 70% считают, что обработка информации в их организации не соответствует потребностям бизнеса.
Отсутствие доверия к данным – это ежедневная реальность для любого сотрудника, который нуждается в достоверной информации. Проблема затрагивает всех: генерального директора, получающего неточную оперативную отчётность с существенной задержкой; финансового руководителя, принимающего ошибочные решения, опираясь на устаревшие данные; сотрудников отдела аналитики, вынужденных вручную составлять отчёты, что приводит к постоянным ошибкам; специалистов отдела data science, пытающихся разработать новые цифровые сервисы на основе недостоверных данных; менеджера в банке, принимающего решение о выдаче кредита, опираясь на неполные данные о заёмщике; руководителя департамента рисков, формирующего резервы, основываясь на мнениях, а не на фактах. В результате возникают реальные финансовые потери из-за ошибочных решений, задержек в подготовке отчётности и снижения производительности труда сотрудников.
Возникает вопрос: существует ли решение, которое может помочь справиться с этими вызовами?
Инструменты, способные решить указанные проблемы, появились. Они представляют собой специализированный класс программного обеспечения — каталог данных.
Каталог данных сегодня
Информационные системы, которые мы сейчас называем дата-каталог, или каталог данных, неслучайно возникли в передовых компаниях, успешно развивающих свой бизнес в цифровой сфере. Компания Netflix, являющаяся гигантом индустрии развлечений, разработала каталог данных Metacat, а компания Uber была родоначальником системы OpenMetadata.
Дата-каталог создаёт и поддерживает хорошо организованную инвентаризацию информационных активов предприятия. Он обеспечивает сотрудников единой средой для совместной работы, включающей в себя: бизнес-глоссарий, каталог метаданных и модуль контроля качества данных.
Бизнес-глоссарий
Бизнес-глоссарий представляет собой энциклопедию бизнес-знаний, написанную на доступном языке, которая позволяет любому пользователю, даже неспециалисту, понять контекст бизнеса.
Бизнес-глоссарий подробно и наглядно описывает термины, объекты и единицы измерения, используемые в организации. Он помогает разобраться в значениях показателей и методах их измерения, обнаружить факторы, влияющие на эти результаты показателей. Найти отчёты, дашборды или витрины данных, на которых представлена визуализация этих показателей.
Каталог метаданных
Каталог метаданных содержит информацию о формате и структуре данных, включая модели данных, схемы преобразования, форматы файлов, а также понятные рядовому пользователю описания таблиц.
Современный каталог метаданных способен автоматически извлекать необходимые описания из различных баз данных, таких как Postgres, Greenplum, MySQL, из популярных аналитических систем вроде LuxmsBI или Superset, и многих других информационных систем.
Технические метаданные позволяют ответить на вопросы: когда последний раз производилось обновление данной таблицы, каким образом данные были загружены в хранилище, сколько раз таблица была использована и кем, а также определить, являются данные конфиденциальными или персональными и соответствуют ли они установленным критериям качества.
Модуль контроля качества данных
Инструменты по управлению качеством данных гарантируют снижение рисков, связанных с использованием в организации недостоверных или непроверенных данных, и обеспечивают соблюдение требований регулирующих органов. Перечислим основные шаги, которые требуются для обеспечения качества данных.
Во-первых, профилирование данных. Программное обеспечение позволяет организациям тщательно проверить информацию и получить полное представление об её характеристиках и качестве. Изучая паттерны, распределение и взаимосвязи внутри наборов данных, организации могут обнаруживать несоответствия, ошибки, дубликаты или недостающие сведения.
Во-вторых, проверка данных на соответствие заранее определённым стандартам, правилам и требованиям бизнеса. Контроль качества данных не является одноразовым мероприятием; это процесс, требующий непрерывного мониторинга и активного участия. Программное обеспечение управления качеством данных позволяет создать набор проверок, которые будут автоматически выполняться по расписанию. Процесс помогает организациям отслеживать свои данные в реальном времени, выявляя ошибки до того, как они поступят пользователям. В случае выявления ошибок система предупредит пользователей, что информацию нельзя использовать, включив красный сигнал на светофоре качества данных.
Автоматически созданное оповещение проинформирует всех заинтересованных лиц о выявленных проблемах с качеством данных, что позволяет своевременно вмешаться и предотвратить дальнейшее распространение ошибок.
В конечном итоге, применяя каталог данных, сотрудники организации имеют удобный и эффективный инструмент для работы. Они могут легко находить необходимую информацию, использовать её в своей работе и на основе достоверных данных принимать обоснованные бизнес-решения.
Примеры бизнес-кейсов управления качеством данных
Финансовые компании одними из первых осознали, что без надлежащего управления информацией о клиентах невозможно разрабатывать и предлагать цифровые сервисы. Одна из болезненных задач — подготовка аналитической отчётности. Например, представители крупного российского финансового холдинга рассказали, что без каталога данных подготовка нового аналитического отчёта занимала более двух месяцев, что, естественно, не удовлетворяло ни команду менеджмента, ни владельцев холдинга. Причем до 80% времени расходовалось на поиск достоверных данных. Внедрение дата-каталога сократило этот срок до двух дней.
Фармацевтические компании, работающие с чувствительными данными, касающимися разработки новых методов лечения или препаратов — одни из самых требовательных к качеству данных организаций в мире. Например, предприятие-производитель из фармацевтической отрасли, используя возможности автоматической проверки качества данных, за три дня обнаружило ошибку в работе лабораторного оборудования, грозящую привести к многомиллионным потерям.
Значительная область экономии, возникающая в связи с внедрением каталога данных, связана с очисткой хранилища от неиспользуемой информации и дубликатов. Благодаря идентификации и обнаружению неиспользуемых баз данных специалисты крупного российского банка смогли оптимизировать затраты на хранение информации.
Резюме
Управление качеством данных становится необходимым процессом для современных компаний на пути цифровой трансформации, так как:
- позволяет принимать обоснованные решения на основе надежной информации;
- обеспечивает прозрачность в процессах работы с данными и улучшает управление рисками;
- помогает бизнесу соблюдать требования законодательства и нормативов относительно защиты данных и конфиденциальности;
- позволяет лучше использовать данные для принятия решений, оптимизации процессов и повышения конкурентоспособности;
- помогает снизить издержки на хранение, обработку и анализ данных за счет улучшения их качества и упорядочения процессов работы с ними;
- создает инфраструктуру, которая позволяет бизнесу быстрее адаптироваться к изменяющимся условиям рынка и внедрять инновационные решения на основе данных.
Автор статьи:
Игорь Моисеев
Директор по развитию «ДатаКаталог» (входит в Группу Arenadata).
Источник: IT-world.
Время на прочтение статьи: 9 мин.
Эта статья носит ознакомительный характер. Наиболее полную актуальную информацию по установке, настройке и техническим возможностям наших продуктов можно найти на сайте с документацией: https://docs.arenadata.io.