Ликбез по СУБД: какую систему выбрать для управления данными вашего бизнеса

25.02.2025
В этой статье расскажем о системах управления базами данных: что это за инструмент, какие они бывают, для каких задач разные виды СУБД применяются в бизнесе, и рассмотрим реальные кейсы их использования в компаниях из разных сфер.
 10 причин использовать облачные сервисы
Зачем компаниям СУБД
Классификация систем по языку запросов
Виды СУБД по способу организации информации и кейсы их применения
Вывод

В мире, где каждый клик, покупка и взаимодействие оставляют свой цифровой след, данные стали ценным ресурсом для повышения прибыли. Компании с их помощью могут прогнозировать тренды, улучшать клиентский сервис и выделяться на фоне конкурентов. В этом помогают системы управления базами данных (СУБД).

Зачем компаниям СУБД


Системы управления базами данных — это программы, которые помогают хранить и обрабатывать информацию. Они появились более 50 лет назад, сегодня этот инструмент используют практически все организации мира.

Что могут делать СУБД с данными:
  • Собирать. Накапливать данные для ИТ-системы компании в одном месте.
  • Хранить. Обеспечивать надёжное хранение структурированных данных в определённом формате.
  • Извлекать. Находить и считывать по запросу необходимые данные, соответствующие заданным параметрам.
  • Защищать. Контролировать доступ к информации, обеспечивая её безопасность и целостность.

Аналитиков данных еще называют дата-аналитиками, в статье мы будем использовать оба понятия как синонимы. Дата-аналитиков часто путают с продуктовыми или системными. Но они фокусируются на обработке данных техническими и статистическими методами, а не на технических решениях или бизнес-процессах. Разберем на примере мобильного приложения для доставки еды.

Дата-аналитик смотрит, в какие дни недели или время суток покупатели чаще оформляют заказы. На основе этой информации он предлагает акции для менее популярных часов, чтобы равномерно распределить нагрузку на курьеров и увеличить выручку.

А продуктовый аналитик обращает внимание, как пользователи взаимодействуют с системой поиска ресторанов. Если много клиентов не находят нужную кнопку или бросают заказ на этапе оформления, аналитик предлагает улучшить интерфейс и сделать поиск интуитивно понятным.

Классификация систем по языку запросов


СУБД классифицируются на типы по разным признакам. Рассмотрим, какие бывают системы в двух классификациях: по языку запросов и способу организации информации. Также определим, какие задачи лучше всего решаются с помощью каждой из них.

В зависимости от языка запросов рассматривают:

1. SQL СУБД (Oracle, PostgreSQL, MySQL, Greenplum).

Этот тип — самый распространённый, на него приходится около 90% рынка. Чтобы найти необходимую информацию в таких системах, применяется язык структурированных запросов (SQL). Информация сохраняется в формате таблиц. Они связаны между собой уникальными и дополнительными идентификаторами.

Когда используют

Эти системы применяются в большей части информационных систем и предоставляют широкий спектр услуг для различных отраслей. Например, они помогают управлять профилями клиентов, финансовыми операциями, контентом, товарами и оформлением заказов.

2. NoSQL СУБД (HBase, Cassandra, MongoDB, Picodata).

Превосходно справляются с задачей хранения значительных объёмов неструктурированных данных, таких как тексты, картинки, видеоролики. С их помощью можно собрать информацию в виде документа, графа, столбца, списка или пары «ключ — значение».

Когда используют

Такие СУБД активно применяются для таких задач, как создание каталогов товаров, специализированных файловых систем, мобильных приложений, платформ с блогами и видео, геоаналитики.

Виды СУБД по способу организации информации и кейсы их применения


Системы также можно классифицировать по способу организации и структурирования информации. Рассмотрим несколько категорий и сферы, в которых их применяют.

1. Реляционные (Greenplum, PostgreSQL, MySQL).

В этих СУБД информация структурирована в виде таблиц с заранее определённым набором полей. Строки содержат записи, а столбцы — атрибуты данных. Такая структура позволяет эффективно находить нужные сведения и устанавливать связи между ними.

Когда используют

Реляционные системы эффективны в ситуациях, когда информация имеет заранее определённую организацию и необходимо поддерживать строгие связи между различными таблицами. Они широко применяются, например, в программах для управления взаимодействием с клиентами (CRM) и в системах управления ресурсами предприятия (ERP).

Кто использует:
  • Банки и финансовые учреждения применяют реляционные системы для отслеживания данных о клиентах, их транзакциях, аналитики собственных продуктов и услуг.
  • Государственные учреждения — для координации регистрационных данных, налогов, социальных выплат и государственных программ.
  • Розничные магазины — для структурирования информации о товарах, их категориях, транзакциях, а также управления запасами на складе и их пополнением.
  • Медицинские учреждения. Хранение сведений о пациентах: историй болезней, диагнозов, результатов лабораторных исследований, назначений.
  • Транспортные и логистические организации. Управление грузоперевозками, заказами, клиентами и маршрутами.
  • Образовательные организации. Хранение и обработка данных о студентах, их оценках и учебных планах.

Кейсы

СУБД на основе открытого кода Greenplum использует ведущая розничная компания X5 Group. На базе СУБД организация построила платформу, которая позволяет собирать, структурировать и описывать данные в одном месте, чтобы ею могли одновременно пользоваться более 2000 аналитиков. При помощи такой СУБД компания анализирует все основные домены данных в ритейле: товары, чеки, заказчиков, контрагентов.

Российская горно-металлургическая компания «Норникель» занимается добычей и производством цветных металлов. Это технологически сложная отрасль со множеством E2E-процессов (end to end), генерирующих терабайты данных. Около 40% задач компании требуют работы с неструктурированными или слабоструктурированными данными. Для их решения используется платформа «Озеро данных», важным компонентом которой стала аналитическая СУБД на базе Greenplum. Data-платформа позволяет «Норникелю» в режиме, приближенному к реальному времени, обрабатывать данные с датчиков оборудования, пакетные данные из реляционных систем, подключать ML-модели, исследовать данные и получать аналитическую отчётность. Например, можно заранее определить неисправность измерительного оборудования и быстро принять решение по устранению проблемы.

2. «Ключ — значение» (Redis, Memcached, DynamoDB).

Один из наиболее доступных NoSQL-систем. В них информация представлена в виде пар: для каждого уникального идентификатора есть собственный определённый объект (простой или сложный).

Когда используют

Такие СУБД применяются, когда требуется оперативно сохранять и извлекать информацию по определённому признаку. Например, для кэширования, отслеживания действий пользователей или учёта покупок на сайте.

Кто использует:
  • Стриминговые сервисы — чтобы хранить данные о просмотрах/прослушиваниях пользователей.
  • Маркетплейсы — та же задача с содержимым корзин пользователей, а также кэширование часто запрашиваемых данных, анализа поисковых запросов и покупок в определённой категории товаров.
  • Контент-площадки — для кэширования изображений и метаданных.
  • Службы такси — для доступа к данным об автомобилях, маршрутах и поездках пассажиров.

Кейсы

Американский стриминговый сервис Disney+, имеющий более 149 миллионов подписчиков в 60 странах, применяет DynamoDB для хранения метаданных контента и событий, связанных с пользователями. Анализ этих данных позволяет настраивать персонализированные рекомендации и делать сервис более привлекательным для пользователей. Другой крупнейший стриминговый сервис Netflix применяет DynamoDB для проведения A/B-тестирования, которое также помогает настраивать рекомендации для более чем 260 миллионов клиентов платформы. Электронные СМИ, например The Washington Post, используют эту систему для воспроизведения и хранения контента.

Такие компании, как «Формула-1» (F1), используют системы «ключ — значение» для хранения больших объёмов данных, которые генерируются и сохраняются онлайн. Эта информация нужна для обучения ИИ-моделей, которые помогают прогнозировать исход гонок. Для тех же задач подобные системы используют спортивные лиги, например PGA, для работы на своей платформе.

3. Документные (CouchDB, MongoDB).

Наиболее распространённый тип NoSQL-систем, в котором основной единицей данных служит документ. Он может содержать самые разные форматы, например картинки, текст и видеоролики.

Когда используют

Когда необходимо сохранить в одной таблице объекты с различной структурой, к примеру списки или словари.

Кто использует
  • Онлайн-магазины — для хранения и анализа данных о продуктах в каталоге.
  • Издательства. Хранение сведений о произведениях и авторах, ведения каталогов и архивов.
  • Разработчики сайтов и приложений. Хранение информации о пользователях, их поведении, профиле и содержимом каталога.
  • Логистические и транспортные компании — для инвентаризации, отслеживания грузов, складских операций, хранения и анализа документов.

Кейсы

Toyota Connected North America — дочерняя компания Toyota Motor Corporation, специализирующаяся на разработке решений на базе ИИ, машинного обучения и анализе данных в автомобильной промышленности. Они предоставляют решение Toyota Safety Connect для более чем 9 миллионов автомобилей Toyota и Lexus в Северной Америке. Для работы продукта особенно важны быстрая передача данных и практически полное отсутствие простоев, которые обеспечивает документная СУБД MongoDB.

Компания предоставляет полный спектр услуг — от помощи на дороге до автоматического оповещения о столкновении. Сотни датчиков в автомобилях передают важные данные о пассажирах, ремнях безопасности, уровне топлива и даже качестве воздуха. С помощью платформы агенты службы безопасности компании даже помогают людям найти пропавшие автомобили. В дальнейшем организация планирует собирать ещё больше данных в случае чрезвычайных ситуаций и уделять больше внимания возможностям искусственного интеллекта для улучшения своих сервисов.

4. Графовые (Neo4j, InfiniteGraph, InfoGrid).

Тип СУБД, разработанная специально для работы с графами, их элементами и связями между ними. Помогает выявлять взаимосвязи и даёт представление о том, как различные точки данных соотносятся друг с другом.

Когда используют

Графовые системы используются, когда есть много связей между данными и сложно обеспечить их чёткую структуру. Эти СУБД способны выявлять закономерности в реальном времени, что позволяет применять их для создания рекомендательных систем и выявления мошенничества.

Кто использует:
  • Логистические компании — для поиска оптимальных маршрутов, прогнозирования перемещения транспорта и оценки пропускной способности дорог.
  • Банки и финансовые системы — для обнаружения закономерностей и отклонений от них, предотвращения мошеннических действий.
  • Социальные сети — для выявления связей между аккаунтами, рекомендации возможных друзей, персонализации рекламы и контента, определения влиятельных пользователей.
  • Компании из сферы кибербезопасности — для анализа угроз, поиска аномалий и отслеживания подозрительных активностей.
  • Компании из сферы здравоохранения и биомедицины — для анализа различных биологических данных, таких как геномные, протеомные, данные о белковых взаимодействиях и пр.
  • Онлайн-магазины — для изучения потребительского поведения, их покупок и формирования товарных рекомендаций.
  • Службы такси и аренды жилья — для управления взаимосвязями между водителями и пассажирами или арендаторами и владельцами недвижимости.
  • Платформы с контентом — для персонализированных рекомендаций на основе истории просмотров.

Кейсы

Нередко путь к постановке диагноза становится гонкой со временем: в среднем требуется от четырёх до восьми лет, чтобы выявить причину редкого заболевания. Немецкий фонд Care for rare использует графовую СУБД Neo4j и модели машинного обучения для идентификации редких заболеваний у детей.

Система и алгоритмы помогают установить связи между пациентами и более чем 8000 болезнями.

Специалисты фонда используют глубокое фенотипирование для документирования редких генетических мутаций, связывая их с однонуклеотидными полиморфизмами (ОНП). Каждый ОНП — незначительное изменение среди 3,2 миллиарда нуклеотидов ДНК — может указывать на одно из тысяч редких заболеваний. Каждый ребёнок в этом графе знаний обозначается узлом, связанным с другими узлами, представляющими симптомы, белки, фенотипы и другие данные. Исследователи применяют Cypher, язык запросов к графам Neo4j, чтобы выявить взаимосвязи и закономерности, которые помогают поставить точный диагноз. Сейчас специалисты фонда успешно выявляют генетические отклонения у 30% своих пациентов, что помогает подбирать индивидуальные схемы лечения.

5. Специализированные колоночные (ClickHouse, HBase, Cassandra).

В них информация представлена в виде колонок, которые можно сравнить с отдельными таблицами. Это даёт возможность оперативно и результативно выполнять сложные аналитические запросы, что особенно ценно при работе с большими объёмами данных.

Когда используют

Эти системы широко применяются для построения хранилищ данных в компаниях, которым важен быстрый доступ к информации. Для сравнения: обработка миллиона записей в колоночной ClickHouse занимает всего одну секунду, тогда как в строковой MySQL СУБД на эту же операцию требуется 823,64 с.

Кто использует:

  • Банки и финансовые организации — для анализа транзакций, подготовки отчётности и управления рисками.
  • Промышленные предприятия — для обработки данных, полученных с датчиков (например, показателей промышленных роботов), и онлайн-контроля линий производства.
  • Телеком-операторы — для хранения и анализа информации о звонках, SMS и интернет-трафике.
  • Онлайн-магазины — для анализа покупательского спроса, сбора данных о покупках клиентов, а также учёта товарных запасов на складе.
  • Онлайн-игры — для отслеживания активных пользователей, продолжительности сессий игроков, их платежей и оттока.

Кейсы

На базе ClickHouse консалтинговая компания Lens Consulting разработала инструмент для анализа зарплат. Этот инструмент позволяет проводить сравнение зарплат как внутри компании, так и на внешнем рынке, а также вычислять уровень справедливости вознаграждения, анализируя корреляцию окладов среди сотрудников. Это помогает организациям устанавливать конкурентные зарплаты в зависимости от навыков работников, оставаться привлекательными для соискателей, формировать адекватные диапазоны зарплат по вакансиям и оптимизировать затраты на оплату труда.

А «Магнит Маркет», маркетплейс с бесплатной доставкой заказов за один день, использует ClickHouse для хранения и обработки большого количества данных в системе аналитики событий на сайте и в мобильных приложениях. ClickHouse позволяет скрыть детали хранения от потребителей данных и делать как редкие запросы к холодным данным, так и частые запросы к горячим данным через единый интерфейс. Такой подход делает доступ к данным более удобным, а онбординг и поддержку пользователей — простыми.

Вывод


Выбор системы управления базами данных — довольно рутинная задача для современных компаний. Но, если верно подобрать подходящее решение, можно получить максимум пользы от накопленных данных и повысить эффективность работы компании в целом.

Автор статьи:

Антон Коваленко

Директор департамента продуктового маркетинга Arenadata.



Источник: Бизнес-секреты

Спасибо, что написали нам!

Мы обработаем заявку и свяжемся с вами в ближайшее время.

Будем рады помочь!

Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

Фамилия *
Имя *
Эл. почта *
Телефон *
Наименование компании *
Опишите ваш вопрос
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.