- комплекс консалтинговых услуг;
- система мониторинга и управления платформой;
- техническая поддержка;
- работа с Open Source — сообществом;
- программа подготовки кадров;
- работа с вузами и, главное, — партнёрства и технологические альянсы.
И, особенно благодарим наших гостей-спикеров за интересные доклады на конференции:
Александр Ермаков
Технический директор Arenadata
Q: Интересует статус работы ADB на Astra Linux.
На текущий момент поддерживаются только следующие ОС: CentOS, RHEL, Altlinux. К сожалению, в планах пока нет поддержки Astra Linux.Q: Что по поводу работы на CentOS 8 и архитектуры Power8?
Так как CentOS 8 был deprecated, мы смотрим на альтернативные свободно распространяемые ОС на идентичном ядре. Например, сейчас рассматривается Oracle Linux.Q: Расскажите про процесс актуализации документации по продуктам.
В конце 2021 года будет выпущена полностью обновлённая документация по Arenadata Hadoop на совершенно новом движке. В течение следующего года документация по всем остальным продуктам также будет перенесена и актуализирована в новом формате.Q: Какой сейчас штат у Arenadata? Support, разработка и т. д.
Сейчас в Arenadata трудится почти 200 человек. Технический блок, куда входят поддержка, разработка и тестирование, составляет более половины от общего числа сотрудников.Q: Каковы прогнозы/перспективы развития ваших продуктов в облаках в России? Можете рассказать о промежуточных результатах использования ваших продуктов в облаке?
Уже сейчас есть успешные реализации managed-сервисов в рамках облака Mail Cloud/VK Cloud Solutions. В частности, на площадке представлено два продукта — Arenadata DB и Arenadata Hadoop. Действительно, указанные решения относятся к классу систем MPP и требуют определённой настройки инфраструктурного уровня для обеспечения качественной и надёжной работы поверх облачных ресурсов, но нам совместно удалось справиться с этой задачей. Более подробно можно прочесть на Habr: https://habr.com/ru/company/vk/news/t/566616/ и https://habr.com/ru/company/vk/blog/566168/.Q: А можно подробнее о том, как ADB может заменить Oracle Exadata? Производительность и прочие отличия архитектуры OLAP, OLTP?
Когда мы сравниваем Oracle Exadata и Arenadata DB/Greenplum, то, естественно, мы говорим только об OLAP-нагрузке. В этом случае возникает неоспоримое преимущество MPP Shared-Nothing систем (Greenplum) за счёт возможности изолировать потребление ресурсов — в нашем случае дисковой подсистемы для обработки «тяжёлых» вложенных запросов — при соблюдении коллокации данных.Q: А с какими BI-системами и дашбордами вы уже подтвердили совместимость / выполнили проекты? Есть отечественные имена?
Если брать нашу платформу, ты мы можем интегрироваться практически с любой BI-системой, поддерживающей интеграцию через JDBC/ODBC. Но если мы говорим об эффективной интеграции, где будет поддерживаться функционал predicate push-down и in-database processing, то наиболее интересными выглядят решения, поддерживающие специализированные драйверы, например отечественные решения LuxmsBI или Visiology.Q: Можно ли использовать S3-совместимые хранилища для загрузки данных в ADB, есть ли коннекторы?
Да, это возможно. Текущая версия PXF для ADB поддерживает интеграцию с S3, в том числе и S3 Select.Q: Да, по поводу бекапов: как обстоят дела с инкрементальными бекапами, обеспечением консистентности и восстановлением из бекапов?
Arenadata DB поддерживает инкрементальный бекап для append-optimized и column-oriented таблиц, в этом случае возможно использовать соответствующий ключ для утилиты gpbackup/gprestore.Q: Есть ли функционал маскирования чувствительных данных?
Такой функционал поддерживается для Arenadata Hadoop 1.6 при хранении данных в Hive и использовании Apache Atlas как компонента кластера. Для Arenadata Hadoop 2.X функционал находится в проработке.Q: Каковы будут накладные расходы при денормализации таблиц на уровне Greenplum и передаче их в ClickHouse, каковы будут требования к СПД при учёте хотя бы нескольких десятков терабайт нагрузки?
Для подсчёта конкретных характеристик и нагрузки необходимо провести детальный аудит требований и структур данных. Но в целом эта задача решается стандартным сайзингом кластера и выполнением требования по пропускной способности интерконнекта между кластерами Greenplum и Clickhouse. Например, стандартной 10GbE сети должно быть достаточно для реализации такого сценария при условии использования параллельного коннектора Arenadata Thkemali.Q: Какие рекомендации по коэффициенту переподписки CPU в облачной среде для ADH?
Для ADH допустима переподписка 1:2 при условии доступности на аппаратном уровне Hyper-Threading или альтернативных решений.Q: Можно уточнить по Open Source — решениям для Data Management и BI: какие решения вы считаете наиболее перспективными? Какие у них основные минусы?
Если говорить о Data Management, то можно выделить проект Egeria от Linux Foundation https://odpi.github.io/egeria-docs/, так как в нём заключено множество эффективных принципов интеграции источников данных и управления каталогом. В части BI, к сожалению, на рынке нет явного лидера с полностью открытым кодом, так как большая часть такого рода решений относится к рынку Enterprise, среди прочих равных можно выделить лишь Metabase и Kibana как наиболее гибкие и динамично развивающиеся решения.Алексей Струченко
Директор направления Arenadata Postgres
Q: Будет ли сертифицированная по ИБ версия ADPG (аналогично Postgres Pro)?
Пока нет.Q: Есть ли планы на партнёрство новой БД с 1С?
Пока нет.Q: Почему кластеризация основана на патроне, а не пейсмекер/коросинк?
Вопрос с кластеризацией открыт. Нам кажется, что Patroni лучше, но с удовольствием послушаем аргументы за Pacemaker.Q: Поддержка ADPG на AstraLinux CE/SE предполагается?
По операционным системам пока целимся в RHEL/Centos/AltLinux.Q: А если сравнить с Postgres Pro?
Я думаю, что сравнивать нужно Enterprise Edition — у нас это будет не сразу! И мы пока не замахиваемся на такие глубокие вещи, как, например, Multi-Master. Нам кажется, что, если у нас получится сделать более удобными и дружелюбными бекап, кластеризацию и мониторинг, уже будет хорошо!Александр Тимчур
Директор департамента поддержки продаж Arenadata
Q: Чем обеспечиваете Data Quality?
Arenadata не производит и не сопровождает инструментов для обеспечения качества данных, ограничиваясь предложением партнёрского решения Informatica Data Quality. Кроме него возможно использовать любые другие инструменты подобного класса, например от IBM, SAS, Talend, Melissa Data и других компаний.Q: Что используется для типовых задач ETL/ELT как оркестратор?
Как оркестратор процессов загрузки мы используем Apache NiFi, входящий в продукт Arenadata Streaming. Если необходима ETL/ELT-платформа с расширенными возможностями, мы по аналогии с решениями Data Quality предлагаем партнёрский инструмент от Informatica. Ряд наших заказчиков используют Pentaho Data Integration (как платную, так и открытую версии), решения SAS Data Integration и IBM DataStage.В общем случае для работы с Arenadata DB мы рекомендуем использовать инструмент, поддерживающий параллельную загрузку с использованием GPLOAD/GPFDIST и возможность автоматической конвертации ETL-процесса в ELT в ADB/Greenplum.
Q: Какие форматы и размеры файлов были в архиве документов?
Это достаточно большие PDF-файлы (скан-копии бумажной документации), реже — электронные чертежи Catia/SolidWorks/AutoCAD с размером файлов от десятков до нескольких сотен мегабайт. Мы не рекомендуем хранить непосредственно в файловой системе Hadoop небольшие офисные документы ввиду крупного типового размера блока HDFS (64 МБ и более, так, в ADH 2.х размер блока по умолчанию равен 256 МБ) — это неэффективно и занимает физическую память на NameNode. Для таких случаев можно предложить объединение небольших файлов в более крупные средствами архиваторов клиентских рабочих станций (ZIP, RAR и т. п.) или специализированный подход с использованием HAR (Hadoop Archives).Q: Как выделяется пилотная область для проекта? Или все кейсы были сразу осмечены на полный проект?
Совместно с заказчиком мы выделяем предметную область и целевые показатели, которых надо достигнуть в проекте, по критериям минимизации планируемого затраченного времени и одновременно максимизации значимости целевых результатов. Такой подход в случае бесплатного пилотного проекта довольно стандартен и используется не только нами, но и 99% отделов поддержки продаж производителей ПО и системных интеграторов.Если же заказчик платит за пилотный проект, то он выбирает предметную область и объём работы самостоятельно, мы можем только рекомендовать стараться получить достижимые и адекватные технологиям цели.
Q: Кейс про хранение документов. Если объёмы — терабайты (немного), имеет ли право на жизнь кейс — хранить документы в ADB (как надёжном хранилище)? При условии, что это не единственная задача под ADB.
Хранение документов в таблицах реляционной СУБД — не лучший архитектурный шаблон; однако он вполне допустим при небольших и средних объёмах данных (сотен гигабайт, возможно до терабайтов данных). Для хранения типовых(*) структур с документами в Arenadata DB можно использовать Heap/Row oriented — таблицы с поддержкой первичных ключей и индексов, для хранения бинарных объектов надо использовать тип bytea.(*) Типовой структурой для хранения документов является следующая: идентификатор, бинарный документ и набор строковых или ссылочных полей метаданных.
Виталий Ранн
Product Manager, Data Platform, VK Cloud Solutions
Q: А что с точки зрения безопасности, как хранить чувствительные данные в облаке? Если говорить про КХД. И не очень было понятно, вы на гипервизоре мастер-ноды разворачиваете? И vk вроде нет в реестре ФСТЭК.
Про безопасность немного базовой информации здесь. Кроме этих мер есть ещё набор дополнительных, таких как тонкие настройки политик сетей, фаерволы, выделенные шлюзы, VPN и прочие сетевые ресурсы. Также есть ряд партнёров, которые занимаются проверкой безопасности у заказчиков, аудитом и observability — приложения, антивирусы и многое другое. Это лучше обсуждать отдельно. Несколько крупных клиентов держат у нас КХД, среди них финтех, нефтянка и крупный ритейл. Архитектура облака mcs — гипервизоры KVM + openstack. Все продукты Arenadata разворачиваются в отдельном гипервизоре. Иначе говоря, продукты DBaaS, которые размещены в другом гипервизоре, не влияют на ресурсы продуктов Arenadata. Это было одно из условий размещения продукта Arenadata — низкий уровень переподписки по отношению к другим сервисам (в конце 2020 мы делали тесты, на высоких нагрузках влияние получилось 2–3%).Про наш сертификат ФСТЭК есть в одной из статей. Можем предоставить оригинал по запросу.
Q: Подскажите, какой коэффициент переподписки у вас в облаке для ВМ-кластеров на базе Arenadata Hadoop?
Все продукты Arenadata находятся в отдельном гипервизоре KVM, поэтому влияние заказчиков друг на друга минимально. При последних тестах процент переподписки составлял 2–3% (на конец 2020 года), тестирование проводилось на десятках виртуальных машин на высоких нагрузках системы.Анна Ерманок
Генеральный директор Picodata