Кратный рост объёмов
На вопрос «Согласны ли вы с этими утверждениями об основных потребителях технологий big data и проблемах развития направления больших данных?» коммерческий директор Группы Arenadata Андрей Жуков ответил так:

«Развитие рынка больших данных сопровождается рядом сложностей, которые сдерживают его потенциал. Многие компании сталкиваются с дефицитом квалифицированных кадров, имеющих практический опыт работы с технологиями аналитики данных, что замедляет процесс внедрения ИТ-продуктов и приводит к ошибкам на этапе реализации. Высокая стоимость решений также создаёт барьеры, особенно для среднего бизнеса, который не всегда может позволить себе дорогостоящие инфраструктуры и поддержку».
По мнению Андрея Жукова, решение этих проблем требует комплексного подхода. Важнейший шаг — активное инвестирование в подготовку кадров через сотрудничество с вузами и реализацию внутренних образовательных программ. Использование готовых и зарекомендовавших себя решений вендоров сможет снизить порог входа для внедрения технологий обработки больших данных. Кроме того, комбинирование инфраструктуры on-prem с облачными платформами позволит компаниям использовать гибкие модели финансирования реализации data-проектов и быстрее адаптироваться к изменениям. При успешном решении этих задач рынок больших данных в России сохранит высокие темпы роста и будет способствовать цифровой трансформации бизнеса.
О хранилищах, озерах и болотах данных
Для понимания эволюции технологий хранения и обработки больших данных напомним: концепция Data Warehouse (DWH, хранилища данных) была предложена в 1988 г. В 1990-е появились первые корпоративные хранилища данных (Enterprise Data Warehouses, EDW). Их появление было обусловлено тем, что компании столкнулись с проблемой данных, разбросанных в разных системах (CRM, ERP, бухгалтерия и так далее). Подход DWH позволил централизовать данные для отчетности и аналитики. При этом для работы использовались различные реляционные базы данных. В итоге создавалось высококачественное структурированное хранилище, в которое данные загружались через процессы ETL (Extract, Transform, Load), проходили очистку и оптимизировались для аналитики.
Однако в 2010-х годах крупные ИТ-компании столкнулись с тем, что традиционные DWH-хранилища не справляются с неструктурированными данными (логами, видео, сенсорными данными). Решением проблемы стал подход Data Lake («озера данных»), который позволял хранить любые данные (структурированные, неструктурированные, полуструктурированные) в сыром виде. При этом данные загружались в «озеро» и обрабатывались по мере необходимости. Данный подход позволил аналитикам использовать для анализа данных не только традиционные методы, но и технологии ИИ.
Со временем многие предприятия обнаружили, что их «озера данных», куда время от времени загружались сырые данные не очень высокого качества, стали превращаться в «болота данных». Из которых вытаскивать нужные данные порой приходилось, образно говоря, с таким же трудом, как «из болота тащить бегемота». Поэтому в 2017-2018 гг. была предложена гибридная архитектура Data Lakehouse («озеро-хранилище»), объединяющая преимущества подходов Data Lake (гибкость и дешевизна хранения больших объемов данных) и Data Warehouse (структурированность и высокая производительность запросов). По прозвучавшим недавно оценкам некоторых аналитиков основными факторами всё продолжающегося роста популярности «озер-хранилищ» данных являются экономическая эффективность, возможность унифицированного доступа к данным и повышенная простота их использования.
Подробнее о подходах к хранению данных: Data Warehouse (DWH), Data Lake и относительно новой концепции Lakehouse, их особенностях, различиях, преимуществах и недостатках, а также о рекомендациях по выбору каждого подхода читайте в статье на Хабре.
В заключение
Надо отметить, что «конструкций под ключ» для хранения и обработки больших данных никто не предлагает. Однако из четырехцветной «Тепловой карты импортозамещения ПО, содержащейся в недавно обнародованном 30-страничном отчете Альфабанка «Импортозамещение в IТ-секторе. Итоги и перспективы 2025+» следует, что с отечественными «строительными блоками» для практической реализации различных архитектур хранения данных дела обстоят относительно неплохо.
Во всяком случае, ситуация с наличием в Реестре отечественного ПО программных продуктов, функциональность которых соответствует таким классам как «Средства анализа данных» и «Средства обработки и визуализации массивов данных», складывается значительно лучше, чем, к примеру, с наличием в нём софта категорий «Промышленное ПО» и «Средства управления процессами организации». Это вселяет надежду, что российский рынок больших данных (если понимать под ним доходы отечественных разработчиков ПО и системных интеграторов) ждет достаточно светлое будущее. Однако всегда надо помнить, что от внезапного появления так называемых «черных лебедей» не застрахована ни одна высокотехнологичная компания.
Полный текст статьи: IT Channel News.