Промышленный Lakehouse на Машине больших данных Скала^р: минимум настройки, максимум данных

21.05.2026
Lakehouse как архитектура, сочетающая преимущества озер (Data Lake) и централизованных хранилищ (Data Warehouse, DWH) данных, становится всё более востребованной у крупных корпоративных заказчиков. О ее преимуществах и особенностях реализации в России рассуждает Петр Дубенсков, директор по технологическим инновациям Скала^р (Группа Rubytech).
Промышленный Lakehouse на Машине больших данных Скала^р

Lakehouse как эволюция подхода к хранению и аналитике данных


Классический подход к хранению данных и работе с ними подразумевал, что эти данные располагаются в тех же подсистемах, где происходят вычисления. Использование таких решений было сопряжено с различными нюансами. Например, несмотря на свою надежность и отличную структурированность, хранилище Data Warehouse отличалось сложностью масштабирования, ограниченной доступностью для AI/ML-инструментария и рядом других недостатков. В свою очередь, Data Lake, хотя и было более гибким с точки зрения типов данных и применения AI, имело ограничения в SQL и поддержке BI, не соответствовало требованиям ACID.

В архитектуре Lakehouse фактически было найдено удачное сочетание преимуществ этих вариантов. Теперь вычисление и хранение данных происходит в разных подсистемах, причем в качестве слоя хранения зачастую применяются популярные объектные хранилища S3 с высокой пропускной способностью. Соответственно, можно масштабировать вычислительные мощности, выстраивать сбалансированную и катастрофоустойчивую систему. Также в Data Lakehouse доступен полноценный SQL, поддерживаются все типы данных, ACID.

Другой важной тенденцией в области систем хранения и обработки аналитических наборов данных можно назвать утверждение на рынке одной лидирующей технологии: если еще в 2017 году мы наблюдали противостояние открытых форматов Apache Iceberg, Apache Hudi и Delta Lake, то к 2020 году стало понятно, что Iceberg одержал победу. По сути, это не столько формат хранения, сколько мета-надстройка над файловым хранилищем, которая предоставляет большое количество возможностей для построения решений как Data Lake, так и Data Lakehouse.

Среди преимуществ Iceberg – сериализуемый уровень изоляции (транзакционность), версионность схемы на стороне метаданных, фоновые операции слияния и компактификации, атомарные изменения за счет изменения метаданных и слияния при чтении, возможность запросить данные по состоянию на некоторый момент в прошлом (времени, или time travel), управляемый размер файлов. Последнее позволяет отказаться от востребованной ранее функции Amazon S3 Select, которую ее разработчик практически перестал поддерживать. Мы же видим в ней большой потенциал.

Еще один перспективный продукт, который стоит упомянуть в контексте нашей темы, – Apache Ozone. Эта разработка призвана преодолеть ограничения горизонтального масштабирования HDFS и обеспечить хранение больших объемов данных на кластерах вычислительных узлов.

Учитывая все эти тенденции, мы в партнерстве с Arenadata провели серию тестов с целью создать качественное российское решение класса Data Lakehouse. Вот, что у нас в итоге получилось.


Скала^р как универсальная основа хранилища Lakehouse


Группа Rubytech уже более 11 лет разрабатывает и развивает модульную платформу для построения инфраструктуры высоконагруженных корпоративных и государственных информационных систем. В нашу продуктовую линейку входят программно-аппаратные комплексы для поддержки динамической инфраструктуры (машины контейнеризации, виртуализации для частных облаков, серверной виртуализации, виртуализации рабочих мест), управления данными (Машина баз данных, больших данных, объектного хранилища), инфраструктуры AI (Машина искусственного интеллекта), а также специализированные решения для автоматизированных банковских систем и управления технологическими процессами.

Машина объектного хранилища Скала^р МХД.О предназначена для хранения миллиардов объектов и быстрого доступа к ним. Она обеспечивает до 5000 операций в секунду на один узел, до 20 раз сжатие данных и до 64 ПБ объема дисков на машину. По нашим оценкам, полученным в результате испытаний на тестовых стендах, этот программно-аппаратный комплекс по характеристикам сравним с ведущими зарубежными системами. Помимо производительности Машина Скала^р МХД.О отличается универсальностью. Сценарии ее применения могут быть разными: например, хранение теплых и холодных данных для приложений, хранилище резервных копий с высокой скоростью работы, консолидация файловых хранилищ с централизацией управления, реализация катастрофоустойчивых решений для хранения. Среди них всё более востребованным становится хранение данных для работы аналитических систем.

Для выбора оптимального объектного хранилища для аналитики мы с коллегами из Arenadata взяли за основу мощную аппаратную платформу: 12 узлов Xeon Gold/Platinum (по 6 для хранения и аналитики), 100GBE, SSD, NVMe. На этом стенде мы протестировали в разных конфигурациях (object_store, OFS, file_system_optimized) и с разными параметрами репликации (replication, erasure coding) несколько продуктов, в том числе и нашу машину Скала^р МХД.О, а также Ozone, HDFS, Min.IO.

Результатом этого эксперимента стало понимание того, в какой конфигурации наша Машина больших данных с развернутой на ней Arenadata Hyperwave наиболее эффективно работает с Ozone под той или иной нагрузкой. Это позволит нам в перспективе предлагать крупным корпоративным заказчикам еще более надежные и отказоустойчивые программно-аппаратные комплексы, готовые к работе даже с экстремальными нагрузками.

Стоит отметить, что в российских условиях именно применение ПАКов наилучшим образом гарантирует заказчикам согласованность, работоспособность и предсказуемость технологического стека, а также, что не менее важно, – максимальную экономическую эффективность системы хранения.

Автор статьи: Петр Дубенсков, директор по технологическим инновациям Скала^р (Группа Rubytech).


Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.