Сбить температуру: зачем компаниям охлаждать данные и как это делать эффективно

28.04.2025
По прогнозам Gartner, к 2026 году объём неструктурированных данных в корпоративных хранилищах увеличится в три раза по сравнению с 2023 годом. Разберём, как сократить расходы за счёт температурного хранения этих данных, сохраняя их доступность.
Big Data больше не эксперимент: бизнес ждёт быстрых результатов

Измеряем температуру


Температура данных — это частота обращений к ним. Горячими считаются самые востребованные данные, которые нужны в ежедневных процессах и должны быть доступны оперативно. Текущие транзакции клиентов банка, свежие кассовые операции в ритейле, показания датчиков промышленного оборудования для контроля в реальном времени — примеры горячих данных.

Они быстро остывают: неструктурированные данные, к которым не обращались на протяжении одного-двух месяцев, скорее всего, не будут использоваться снова в операционной деятельности, то есть станут холодными. К этой категории относят любую информацию, которая потребуется через квартал или год, а может, и никогда: архивы документов, данные завершённых проектов, логи систем информационной безопасности, результаты научных исследований и др. До 75—90% неструктурированных данных холодные.

Критерии температуры и грань между горячими и холодными (а также тёплыми и ледяными) данными определяет компания, руководствуясь спецификой бизнес-процессов.


Хранить нельзя удалять


Холодные данные — ценный актив, который давно используют крупнейшие компании.

Предприятия добывающей промышленности хранят данные геологоразведки, чтобы воспользоваться ими, когда появится возможность разрабатывать труднодоступные месторождения. Промышленные предприятия используют массив данных, полученных с IoT-датчиков, для моделирования технологических процессов и предотвращения сбоев и простоев. Ритейл строит на исторической информации (продажи, логистика, цены, результаты промоакций) сложные аналитические модели, прогнозирует спрос и управляет складскими остатками. Организации хранят данные в соответствии с требованиями регуляторов — если эта информация и не будет использована, обеспечить её доступность на протяжении установленного периода необходимо.

Даже ледяные данные представляют ценность и должны оставаться доступными. Отсюда — две задачи:

  • Идентифицировать холодные данные среди массива информации.
  • Организовать их эффективное хранение, сохраняя доступность.

Холодильник данных


Если хранить и обрабатывать холодные данные вместе с горячими, это неизбежно приведёт к высоким операционным расходам. На стоимость влияет ряд факторов, включая объём, типы используемых носителей, сроки хранения, необходимость доступа и реализованные меры безопасности. Стоимость различается и в зависимости от инфраструктуры: локальное хранение, облачное или гибридная модель.

Решение о переносе данных в холодное хранилище может быть принято на основании нескольких критериев:

  • Частота обращений. Данные, к которым не обращались на протяжении длительного времени.
  • Объём. Если он превышает несколько терабайт, пора разделять данные на горячие и холодные.
  • Актуальность. Критически важные данные утрачивают значимость после завершения проекта или изменения целей компании.

Разделяй и экономь


Реализовать разделение горячих и холодных данных призвано многоуровневое хранение — оптимизация использования ресурсов в зависимости от типа данных и частоты их использования. Всё как в быту: ёлочные игрушки в мае убираем на дальнюю полку, а смартфон всегда держим под рукой.

  • Горячие данные хранятся на оптимизированных по производительности носителях (например, SSD или в оперативной памяти). Мы используем их в режиме реального времени или с минимальной задержкой.
  • Холодные данные отправляются в оптимизированные по стоимости хранения больших объёмов данных носители (HDD и/или объектное S3-совместимое хранилище). Время доступа может измеряться минутами или часами.

Результат: повышаем производительность чтения горячих данных и снижаем затраты на хранение холодных за счёт баланса между дорогостоящими SSD и более доступными HDD и S3.

В современных дата-платформах разделение горячих и холодных данных можно выполнять автоматически, с использованием специализированных сервисов, например Smart Storage Manager в составе российского продукта Arenadata Hadoop. Свои реализации есть и у зарубежных вендоров, в частности WANdisco и Cloudera (Replication Manager).

В типичном озере данных, согласно закону Парето, 80% вычислительных нагрузок приходится на обработку 20% данных. Хранить холодные данные вместе с горячими — сомнительная трата ресурсов. Концепция температурного хранения позволяет оптимизировать затраты, повысить эффективность инфраструктуры и улучшить управление данными.


Автор статьи:

Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata

Екатерина Ульяшова

Менеджер по продуктовому маркетингу Arenadata



Источник: журнал «КО»

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.