Почему традиционных систем больше не хватает
Уровень цифровой зрелости промышленных компаний достиг 45%, и более 70% предприятий сохранили или увеличили инвестиции в цифровое развитие в 2024 году. Затраты на промышленную автоматизацию выросли и составили около 83 млрд рублей. Основными драйверами роста являются потребность в обработке больших объёмов данных, развитие ИИ и машинного обучения, а также переход на гибридные облачные решения. Для этого на современном производстве есть набор ИТ-инструментов: MES, ERP, SCADA, PLM, LIMS и ещё десятки аббревиатур. Каждая из этих систем выполняет свою важную функцию: одни управляют производственным расписанием, другие следят за логистикой, третьи контролируют автоматику и процессы. Однако все они «живут» в разных мирах и не всегда могут обмениваться данными, а уж тем более — давать целостную картину происходящего.
Основная проблема — в том, что эти системы предназначены для решения операционных задач, а не аналитических. Они не умеют хранить исторические данные в нужном объёме, не хранят метаданные, не могут работать с неструктурированной информацией и чаще всего не интегрированы друг с другом. В результате до 80% всех данных, собираемых на предприятиях, остаются неиспользованными, но при этом потенциально могут помочь повысить эффективность, избежать аварий, сократить износ оборудования, оптимизировать энергопотребление и минимизировать риски ущерба для экологии.
Дата-лейк: цифровой водоём, где всё на виду
Дата-лейк — это не просто хранилище. Это инфраструктура, которая позволяет собирать, сохранять и обрабатывать данные в любом виде, от любого источника и с любой частотой. У него нет строгой схемы, как в классическом хранилище данных. Вы можете положить в него и текстовый файл, и таблицу, и изображение с камеры и так далее. В промышленных условиях это особенно важно, потому что данные на производстве бывают крайне разнообразными и разноформатными. Все эти потоки стекаются в озеро, где можно их анализировать вместе, выявлять закономерности и делать прогнозы. В 2023 году мировой рынок дата-лейков оценивался в $16,6 млрд, и прогнозируется рост до $90 млрд к 2032 году при среднегодовом темпе роста 21,3%.
Сегодня в промышленности дата-лейк стал фундаментом для развития более сложных цифровых подходов: построения цифровых двойников, внедрения автономных систем управления, адаптивного планирования и оптимизации энергопотребления. Поэтому предприятия рассматривают дата-лейк не как локальный ИТ-проект, а как основу будущей цифровой трансформации.
Откуда текут цифровые потоки: что подключают к дата-лейку
На производстве данные рождаются на каждом шагу. В цеху это оборудование: станки, датчики, контроллеры. В логистике — информация о перемещении грузов, складах, сроках доставки. В лабораториях — анализы, измерения, журналы качества. В офисе — отчёты, заявки, письма, нормативно-справочная информация. Все эти потоки можно подключить к дата-лейку, используя специальные коннекторы и адаптеры. Современные платформы позволяют удобно интегрировать между собой промышленные системы, базы данных, хранилища, ML-платформы, внешние системы и многое другое.
Как построить архитектуру, чтобы не развалилось под нагрузкой
С точки зрения уровня цифровизации промышленные компании редко бывают идеальными. Старое оборудование, нестабильная связь между цехами, данные в неизвестных форматах, ограниченные ресурсы на местах. Поэтому дата-лейк должен быть устойчивым к этим реалиям. Хорошая архитектура масштабируется, не падает при сбое, адаптируется к изменениям и не требует перестройки всей ИТ-инфраструктуры. А главное — должна быть прозрачной и предсказуемой в эксплуатации.
В основе такой системы, как правило, лежит Hadoop-совместимая платформа — она хорошо справляется с большими объёмами и разнообразием данных. Учитывая, что зачастую речь идёт об огромных массивах неструктурированных и полуструктурированных данных, срок хранения которых заранее не определён и может исчисляться годами, имеет смысл использовать масштабируемые хранилища, оптимальные с точки зрения стоимости, — например, HDFS или S3-совместимый Ozone. Чтобы извлекать ценность из этих данных, необходимы современные аналитические движки, такие как Impala и Trino, которые поддерживают не только HDFS, но и протокол S3. Для оркестрации потоков данных часто применяется Apache Airflow — удобный инструмент для управления пайплайнами. При этом важно, чтобы вся архитектура могла встраиваться в существующие ИТ-процессы без кардинальной перестройки, дополняя их, а не нарушая. Применение подходов CI/CD позволяет постоянно улучшать систему, добавлять новые модули и обрабатывать ошибки без простоев.
Важно уделить внимание инфраструктуре передачи данных. Если в одном цеху сигнал стабилен, а в другом — падает раз в час, архитектура должна предусматривать буферизацию, локальное хранение и автоматическое восстановление потоков. Также необходимо решать вопросы безопасности и прав доступа: кому можно видеть какие данные, и как обеспечить шифрование на всех этапах.
CI/CD-подходы помогают регулярно обновлять пайплайны обработки, подключать новые источники и запускать эксперименты. Особенно важно заранее подумать о модели данных: как вы будете связывать телеметрию с объектами, сменами, партиями продукции? От этого зависит и аналитика, и надёжность выводов. Грамотно спроектированная модель позволяет сразу встраивать расчёты в бизнес-процессы и использовать данные в реальном времени, а не с недельной задержкой.
Что делать с данными дальше
Получить данные — только начало. Их нужно очистить, дополнить метаданными, нормализовать. Один и тот же параметр может называться по-разному на разных участках, единицы измерения могут не совпадать. Важно связать данные с контекстом: к какому оборудованию относятся, в каком режиме оно работало, кто был оператором. Только после этого аналитика начинает приносить пользу. Особенно ценно — создать карту данных: понять, какие источники есть, какие важны, какие данные дублируются или конфликтуют.
На базе дата-лейка можно строить предиктивное обслуживание, обнаружение аномалий, прогнозирование простоев. Но даже простые визуализации — например, дашборды с текущими значениями и отклонениями — уже оказываются ценными инструментами. Главное, чтобы эти визуализации были понятны, не перегружены и регулярно обновлялись. Аналитика должна не усложнять, а помогать.
Хорошей практикой является создание витрин данных под конкретные роли: оператор видит показатели линии, мастер — статистику по сменам, технолог — данные по качеству. Тогда каждый получает нужное без перегрузки и может действовать быстрее.
Типовые сложности и сколько это стоит
Здесь важно честно признать: ни один дата-лейк не строится без проблем. Вот несколько ошибок, с которыми чаще всего сталкиваются промышленные компании:
- Начинают проект без чётких целей: данные накапливаются в надежде, что пригодятся, но никто не знает зачем.
- Недостаточно внимания уделяют качеству данных: на выходе аналитика не работает.
- Делают слишком сложные интерфейсы: пользователи просто не заходят в систему.
Любой дата-лейк требует инвестиций: инфраструктура, лицензии, компетенции, поддержка. Точные цифры зависят от масштаба предприятия, но в среднем счёт идёт на миллионы рублей. Как измерить отдачу? Через сокращение простоев, экономию ресурсов, повышение выхода годной продукции.
Иногда ROI видно быстро — например, когда система позволяет избежать дорогостоящей поломки или аварии. В других случаях — через более точное планирование или снижение перерасхода энергоресурсов. Но оценивать эффект нужно комплексно, включая снижение рисков, улучшение принятия решений и повышение прозрачности процессов.
Например, в компании «Норникель» экосистема «Озеро данных» включает четыре основных компонента:
- Data-платформа для обработки и хранения данных любого типа;
- Контейнеризация для развёртывания и промышленного использования ML-приложений и IML-инстансов;
- ML-платформа для корпоративной разработки и внедрения машинного обучения;
- ML-кластеры, обеспечивающие геораспределённую инфраструктуру для запуска решений на производственных площадках.
Благодаря Data-платформе «Норникель» может в почти реальном времени обрабатывать данные с датчиков оборудования, пакетную информацию из реляционных систем, подключать ML-модели, проводить анализ и формировать отчёты через интегрированные BI-инструменты.
На данный момент объём хранилища в экосистеме «Озеро данных» достигает около 1,5 ПБ. В работе находятся девять промышленных потоков данных, передающих более 2000 показателей в режиме, близком к реальному времени, и свыше 3000 показателей — в офлайн-режиме. Реализовано более 10 бизнес-кейсов в различных сферах, включая экономику и финансы, производственные и технологические процессы, а также голосовые помощники.
Примеры внедрённых решений в «Норникель»:
- Контроль качества производственных данных на карбонильном никелевом производстве (Кольская ГМК) и на линии дробления-измельчения («ГРК Быстринское»). Технология помогает заранее выявлять неисправности измерительных приборов и ускоряет принятие решений. Благодаря ей время обнаружения некорректных данных сократилось на 30%.
- Система-советчик по смешиванию концентратов (цех обезвоживания и складирования на Надеждинском металлургическом заводе, Заполярный филиал). Помогает операторам выбирать оптимальные параметры технологического процесса.
- Система-советчик для печи взвешенной плавки (Надеждинский металлургический завод, Заполярный филиал).
Когда дата-лейк не нужен
Иногда дата-лейк бывает избыточен. Например, если предприятие небольшое, с одной производственной линией и 50 ГБ данных в месяц, проще и дешевле обойтись SQL-хранилищем с визуализацией. Или если бизнес не готов работать с данными: нет компетенций, нет задач, нет культуры принятия решений на основе цифр.
Главный вывод: дата-лейк — это не про технологии, а про зрелость. Он работает только тогда, когда есть цели, команда, архитектура и постоянное развитие. Иначе получится не озеро, а болото. Но если подходить к нему как к стратегической инвестиции, постепенно наращивая масштаб, то эффект от внедрения может стать не просто ощутимым, а трансформационным для всего предприятия.
Что дальше: дата-меш, дата-фабрик, цифровые двойники
Дата-лейки — это только первый шаг. Следующий этап — это дата-меш: когда каждая команда или департамент управляет своими данными как самостоятельным продуктом. Данные каталогизированы и прозрачны.
Параллельно развивается концепция дата-фабрик — интеллектуальная прослойка, которая соединяет все системы, базы и хранилища между собой. Она знает, где какие данные лежат, помогает найти, связать и доставить их в нужное место. При этом автоматизирует кучу рутинных процессов: очистку, доступ, безопасность, передачу. На базе этих подходов строятся цифровые двойники производств, автономные цеха, прогнозирующие системы логистики и умные платформы техобслуживания.
Дата-лейк на промышленном предприятии — это не просто цифровое хранилище, а шаг в сторону управления бизнесом на основе данных. Это возможность превратить разрозненные данные в эффективный инструмент для управленческих решений на всех этапах работы бизнеса. Уже сегодня крупные промышленные компании закинули удочки в цифровые озёра — строят полноценные дата-платформы на базе отечественных решений и получают от них реальную выгоду.
Автор статьи:

Максим Власюк
Директор департамента по работе с промышленным сектором Группы Arenadata
Источник: Промышленные страницы