В мире, где каждый клик, покупка и взаимодействие оставляют свой цифровой след, данные стали ценным ресурсом для повышения прибыли. Компании с их помощью могут прогнозировать тренды, улучшать клиентский сервис и выделяться на фоне конкурентов. В этом помогают системы управления базами данных (СУБД).
Зачем компаниям СУБД
Системы управления базами данных — это программы, которые помогают хранить и обрабатывать информацию. Они появились более 50 лет назад, сегодня этот инструмент используют практически все организации мира.
Что могут делать СУБД с данными:
- Собирать. Накапливать данные для ИТ-системы компании в одном месте.
- Хранить. Обеспечивать надёжное хранение структурированных данных в определённом формате.
- Извлекать. Находить и считывать по запросу необходимые данные, соответствующие заданным параметрам.
- Защищать. Контролировать доступ к информации, обеспечивая её безопасность и целостность.
Аналитиков данных еще называют дата-аналитиками, в статье мы будем использовать оба понятия как синонимы. Дата-аналитиков часто путают с продуктовыми или системными. Но они фокусируются на обработке данных техническими и статистическими методами, а не на технических решениях или бизнес-процессах. Разберем на примере мобильного приложения для доставки еды.
Дата-аналитик смотрит, в какие дни недели или время суток покупатели чаще оформляют заказы. На основе этой информации он предлагает акции для менее популярных часов, чтобы равномерно распределить нагрузку на курьеров и увеличить выручку.
А продуктовый аналитик обращает внимание, как пользователи взаимодействуют с системой поиска ресторанов. Если много клиентов не находят нужную кнопку или бросают заказ на этапе оформления, аналитик предлагает улучшить интерфейс и сделать поиск интуитивно понятным.
Классификация систем по языку запросов
СУБД классифицируются на типы по разным признакам. Рассмотрим, какие бывают системы в двух классификациях: по языку запросов и способу организации информации. Также определим, какие задачи лучше всего решаются с помощью каждой из них.
В зависимости от языка запросов рассматривают:
1. SQL СУБД (Oracle, PostgreSQL, MySQL, Greenplum).
Этот тип — самый распространённый, на него приходится около 90% рынка. Чтобы найти необходимую информацию в таких системах, применяется язык структурированных запросов (SQL). Информация сохраняется в формате таблиц. Они связаны между собой уникальными и дополнительными идентификаторами.
Когда используют
Эти системы применяются в большей части информационных систем и предоставляют широкий спектр услуг для различных отраслей. Например, они помогают управлять профилями клиентов, финансовыми операциями, контентом, товарами и оформлением заказов.
2. NoSQL СУБД (HBase, Cassandra, MongoDB, Picodata).
Превосходно справляются с задачей хранения значительных объёмов неструктурированных данных, таких как тексты, картинки, видеоролики. С их помощью можно собрать информацию в виде документа, графа, столбца, списка или пары «ключ — значение».
Когда используют
Такие СУБД активно применяются для таких задач, как создание каталогов товаров, специализированных файловых систем, мобильных приложений, платформ с блогами и видео, геоаналитики.
Виды СУБД по способу организации информации и кейсы их применения
Системы также можно классифицировать по способу организации и структурирования информации. Рассмотрим несколько категорий и сферы, в которых их применяют.
1. Реляционные (Greenplum, PostgreSQL, MySQL).
В этих СУБД информация структурирована в виде таблиц с заранее определённым набором полей. Строки содержат записи, а столбцы — атрибуты данных. Такая структура позволяет эффективно находить нужные сведения и устанавливать связи между ними.
Когда используют
Реляционные системы эффективны в ситуациях, когда информация имеет заранее определённую организацию и необходимо поддерживать строгие связи между различными таблицами. Они широко применяются, например, в программах для управления взаимодействием с клиентами (CRM) и в системах управления ресурсами предприятия (ERP).
Кто использует:
- Банки и финансовые учреждения применяют реляционные системы для отслеживания данных о клиентах, их транзакциях, аналитики собственных продуктов и услуг.
- Государственные учреждения — для координации регистрационных данных, налогов, социальных выплат и государственных программ.
- Розничные магазины — для структурирования информации о товарах, их категориях, транзакциях, а также управления запасами на складе и их пополнением.
- Медицинские учреждения. Хранение сведений о пациентах: историй болезней, диагнозов, результатов лабораторных исследований, назначений.
- Транспортные и логистические организации. Управление грузоперевозками, заказами, клиентами и маршрутами.
- Образовательные организации. Хранение и обработка данных о студентах, их оценках и учебных планах.
Кейсы
СУБД на основе открытого кода Greenplum использует ведущая розничная компания X5 Group. На базе СУБД организация построила платформу, которая позволяет собирать, структурировать и описывать данные в одном месте, чтобы ею могли одновременно пользоваться более 2000 аналитиков. При помощи такой СУБД компания анализирует все основные домены данных в ритейле: товары, чеки, заказчиков, контрагентов.
Российская горно-металлургическая компания «Норникель» занимается добычей и производством цветных металлов. Это технологически сложная отрасль со множеством E2E-процессов (end to end), генерирующих терабайты данных. Около 40% задач компании требуют работы с неструктурированными или слабоструктурированными данными. Для их решения используется платформа «Озеро данных», важным компонентом которой стала аналитическая СУБД на базе Greenplum. Data-платформа позволяет «Норникелю» в режиме, приближенному к реальному времени, обрабатывать данные с датчиков оборудования, пакетные данные из реляционных систем, подключать ML-модели, исследовать данные и получать аналитическую отчётность. Например, можно заранее определить неисправность измерительного оборудования и быстро принять решение по устранению проблемы.
2. «Ключ — значение» (Redis, Memcached, DynamoDB).
Один из наиболее доступных NoSQL-систем. В них информация представлена в виде пар: для каждого уникального идентификатора есть собственный определённый объект (простой или сложный).
Когда используют
Такие СУБД применяются, когда требуется оперативно сохранять и извлекать информацию по определённому признаку. Например, для кэширования, отслеживания действий пользователей или учёта покупок на сайте.
Кто использует:
- Стриминговые сервисы — чтобы хранить данные о просмотрах/прослушиваниях пользователей.
- Маркетплейсы — та же задача с содержимым корзин пользователей, а также кэширование часто запрашиваемых данных, анализа поисковых запросов и покупок в определённой категории товаров.
- Контент-площадки — для кэширования изображений и метаданных.
- Службы такси — для доступа к данным об автомобилях, маршрутах и поездках пассажиров.
Кейсы
Американский стриминговый сервис Disney+, имеющий более 149 миллионов подписчиков в 60 странах, применяет DynamoDB для хранения метаданных контента и событий, связанных с пользователями. Анализ этих данных позволяет настраивать персонализированные рекомендации и делать сервис более привлекательным для пользователей. Другой крупнейший стриминговый сервис Netflix применяет DynamoDB для проведения A/B-тестирования, которое также помогает настраивать рекомендации для более чем 260 миллионов клиентов платформы. Электронные СМИ, например The Washington Post, используют эту систему для воспроизведения и хранения контента.
Такие компании, как «Формула-1» (F1), используют системы «ключ — значение» для хранения больших объёмов данных, которые генерируются и сохраняются онлайн. Эта информация нужна для обучения ИИ-моделей, которые помогают прогнозировать исход гонок. Для тех же задач подобные системы используют спортивные лиги, например PGA, для работы на своей платформе.
3. Документные (CouchDB, MongoDB).
Наиболее распространённый тип NoSQL-систем, в котором основной единицей данных служит документ. Он может содержать самые разные форматы, например картинки, текст и видеоролики.
Когда используют
Когда необходимо сохранить в одной таблице объекты с различной структурой, к примеру списки или словари.
Кто использует
- Онлайн-магазины — для хранения и анализа данных о продуктах в каталоге.
- Издательства. Хранение сведений о произведениях и авторах, ведения каталогов и архивов.
- Разработчики сайтов и приложений. Хранение информации о пользователях, их поведении, профиле и содержимом каталога.
- Логистические и транспортные компании — для инвентаризации, отслеживания грузов, складских операций, хранения и анализа документов.
Кейсы
Toyota Connected North America — дочерняя компания Toyota Motor Corporation, специализирующаяся на разработке решений на базе ИИ, машинного обучения и анализе данных в автомобильной промышленности. Они предоставляют решение Toyota Safety Connect для более чем 9 миллионов автомобилей Toyota и Lexus в Северной Америке. Для работы продукта особенно важны быстрая передача данных и практически полное отсутствие простоев, которые обеспечивает документная СУБД MongoDB.
Компания предоставляет полный спектр услуг — от помощи на дороге до автоматического оповещения о столкновении. Сотни датчиков в автомобилях передают важные данные о пассажирах, ремнях безопасности, уровне топлива и даже качестве воздуха. С помощью платформы агенты службы безопасности компании даже помогают людям найти пропавшие автомобили. В дальнейшем организация планирует собирать ещё больше данных в случае чрезвычайных ситуаций и уделять больше внимания возможностям искусственного интеллекта для улучшения своих сервисов.
4. Графовые (Neo4j, InfiniteGraph, InfoGrid).
Тип СУБД, разработанная специально для работы с графами, их элементами и связями между ними. Помогает выявлять взаимосвязи и даёт представление о том, как различные точки данных соотносятся друг с другом.
Когда используют
Графовые системы используются, когда есть много связей между данными и сложно обеспечить их чёткую структуру. Эти СУБД способны выявлять закономерности в реальном времени, что позволяет применять их для создания рекомендательных систем и выявления мошенничества.
Кто использует:
- Логистические компании — для поиска оптимальных маршрутов, прогнозирования перемещения транспорта и оценки пропускной способности дорог.
- Банки и финансовые системы — для обнаружения закономерностей и отклонений от них, предотвращения мошеннических действий.
- Социальные сети — для выявления связей между аккаунтами, рекомендации возможных друзей, персонализации рекламы и контента, определения влиятельных пользователей.
- Компании из сферы кибербезопасности — для анализа угроз, поиска аномалий и отслеживания подозрительных активностей.
- Компании из сферы здравоохранения и биомедицины — для анализа различных биологических данных, таких как геномные, протеомные, данные о белковых взаимодействиях и пр.
- Онлайн-магазины — для изучения потребительского поведения, их покупок и формирования товарных рекомендаций.
- Службы такси и аренды жилья — для управления взаимосвязями между водителями и пассажирами или арендаторами и владельцами недвижимости.
- Платформы с контентом — для персонализированных рекомендаций на основе истории просмотров.
Кейсы
Нередко путь к постановке диагноза становится гонкой со временем: в среднем требуется от четырёх до восьми лет, чтобы выявить причину редкого заболевания. Немецкий фонд Care for rare использует графовую СУБД Neo4j и модели машинного обучения для идентификации редких заболеваний у детей.
Система и алгоритмы помогают установить связи между пациентами и более чем 8000 болезнями.
Специалисты фонда используют глубокое фенотипирование для документирования редких генетических мутаций, связывая их с однонуклеотидными полиморфизмами (ОНП). Каждый ОНП — незначительное изменение среди 3,2 миллиарда нуклеотидов ДНК — может указывать на одно из тысяч редких заболеваний. Каждый ребёнок в этом графе знаний обозначается узлом, связанным с другими узлами, представляющими симптомы, белки, фенотипы и другие данные. Исследователи применяют Cypher, язык запросов к графам Neo4j, чтобы выявить взаимосвязи и закономерности, которые помогают поставить точный диагноз. Сейчас специалисты фонда успешно выявляют генетические отклонения у 30% своих пациентов, что помогает подбирать индивидуальные схемы лечения.
5. Специализированные колоночные (ClickHouse, HBase, Cassandra).
В них информация представлена в виде колонок, которые можно сравнить с отдельными таблицами. Это даёт возможность оперативно и результативно выполнять сложные аналитические запросы, что особенно ценно при работе с большими объёмами данных.
Когда используют
Эти системы широко применяются для построения хранилищ данных в компаниях, которым важен быстрый доступ к информации. Для сравнения: обработка миллиона записей в колоночной ClickHouse занимает всего одну секунду, тогда как в строковой MySQL СУБД на эту же операцию требуется 823,64 с.
Кто использует:
- Банки и финансовые организации — для анализа транзакций, подготовки отчётности и управления рисками.
- Промышленные предприятия — для обработки данных, полученных с датчиков (например, показателей промышленных роботов), и онлайн-контроля линий производства.
- Телеком-операторы — для хранения и анализа информации о звонках, SMS и интернет-трафике.
- Онлайн-магазины — для анализа покупательского спроса, сбора данных о покупках клиентов, а также учёта товарных запасов на складе.
- Онлайн-игры — для отслеживания активных пользователей, продолжительности сессий игроков, их платежей и оттока.
Кейсы
На базе ClickHouse консалтинговая компания Lens Consulting разработала инструмент для анализа зарплат. Этот инструмент позволяет проводить сравнение зарплат как внутри компании, так и на внешнем рынке, а также вычислять уровень справедливости вознаграждения, анализируя корреляцию окладов среди сотрудников. Это помогает организациям устанавливать конкурентные зарплаты в зависимости от навыков работников, оставаться привлекательными для соискателей, формировать адекватные диапазоны зарплат по вакансиям и оптимизировать затраты на оплату труда.
А «Магнит Маркет», маркетплейс с бесплатной доставкой заказов за один день, использует ClickHouse для хранения и обработки большого количества данных в системе аналитики событий на сайте и в мобильных приложениях. ClickHouse позволяет скрыть детали хранения от потребителей данных и делать как редкие запросы к холодным данным, так и частые запросы к горячим данным через единый интерфейс. Такой подход делает доступ к данным более удобным, а онбординг и поддержку пользователей — простыми.
Вывод
Выбор системы управления базами данных — довольно рутинная задача для современных компаний. Но, если верно подобрать подходящее решение, можно получить максимум пользы от накопленных данных и повысить эффективность работы компании в целом.
Автор статьи:

Антон Коваленко
Директор департамента продуктового маркетинга Arenadata.
Источник: Бизнес-секреты