Анализ данных
Аналитика Arenadata была основана на исследовании открытой информации с сайтов GitHub и LinkedIn. Были рассмотрены профили контрибьютеров и сопоставлены с представляемыми ими компаниями. В ряде случаев удалось установить только географическую принадлежность автора того или иного PR.Отметим, что Arenadata не впервые лидирует по числу PR в Greenplum: компания заняла первое место среди мировых контрибьютеров и в 2021 году, однако тогда принадлежность авторов изменений в ядро проекта была менее ясна.
Самые важные
Можно выделить несколько наиболее важных PR, внесённых в комьюнити Greenplum разработчиками Arenadata, за последние пару лет:- Zstandard (ZSTD) — алгоритм эффективного сжатия данных без дополнительной нагрузки на CPU. Наиболее эффективный алгоритм компрессии, который сегодня реализован в Open Source решениях для Big Data. При последовательном чтении и записи больших объёмов данных это позволяет снизить TCO (total cost of ownership). Arenadata реализовала поддержку ZSTD для колоночных таблиц в Arenadata DB 5 (Enterprise Edition). Позже это обновление появилось в Greenplum 6.0 (и в Arenadata DB 6, соответственно) и стало доступно всему комьюнити проекта Greenplum.
- Фильтр pushdown в PXF (Platform Extension Framework) — это фреймворк, позволяющий Greenplum параллельно обмениваться данными со сторонними системами. Arenadata реализовала в PXF фильтр pushdown для определённых форматов подключений. Pushdown даёт возможность перенести процесс вычислений на сторону системы источника данных. Такой алгоритм позволил многократно ускорить все этапы выполнения запроса на фильтрацию данных. Очень значимый функционал для Greenplum. Arenadata реализовала с ним много проектов. В частности, те из них, где компания разгружала данные с SAP Hana, из Oracle и реализовывала концепцию виртуального федеративного слоя, в котором обращение к многочисленным внешним системам происходит посредством Greenplum. Реализация pushdown-механизма позволила многократно ускорить фильтрацию данных во внешних запросах за счёт переноса процесса вычислений на сторону системы источника данных.
- Стабилизация Greenplum 6. По определённому стечению обстоятельств у Greenplum 6 было много проблем, связанных с новым функционалом: обновленный PostgreSQL 9.4, WAL репликация для зеркал, переработанный механизм расширеня кластера, обновленная ORCA с упором на OLTP нагрузку, и многое другое. Например, REPLICATED таблицы и BITMAP индексы принесли большое количество багов, которые долгое время выстреливали у заказчиков. Специалисты компании исправили многочисленные ошибки и научились в минимальные сроки быстро решать проблемы, которые мешали нормальной эксплуатации продукта в конкретном кейсе клиента. Arenadata умеет исправлять критические ситуации как на уровне кода ядра самого PostgreSQL, так и на уровне оптимизатора. Тот факт, что компания может влиять на оптимизатор, говорит об очень высоком уровне экспертизы команды, поскольку оптимизатор — наиболее критичная вещь в работе распределённой базы данных. Работа с ним подразумевает не только работу с исходным кодом, но ещё серьёзное использование математики и логики.
- Конфигурационный параметр с таймером. Разработчиками Arenadata был реализован конфигурационный параметр с таймером, который определяет, что клиент отсоединился во время выполнения запроса и прерывает в этом случае выполнение запроса.
«Для Arenadata важно быть частью сообщества Greenplum и оставаться сопричастной к росту этой Open Source технологии. Развивая собственную СУБД Arenadata DB, построенную на основе Greenplum, мы вносим существенный вклад в развитие проекта с открытым исходным кодом. И то, что мы являемся лидером по количеству PR в ядро Greenplum в мире среди комьюнити говорит о том, что наша работа важна для всего сообщества в целом».
Arenadata DB – аналитическая, распределённая СУБД. Она предназначена для хранения и обработки больших объёмов информации — до десятков петабайт. ADB прекрасно справляется с задачами построения корпоративного хранилища данных (КХД), аналитики с помощью BI-инструментов, ad-hoc- запросов и Data Science уровня предприятия. По мере роста объёма данных можно просто добавлять новые сервера в кластер — обо всём остальном ADB позаботится сама.