Ответы на вопросы с партнёрской конференции 24.11.21

08.12.2021
24 ноября мы провели вторую партнёрскую конференцию Arenadata: «Партнёрство в цифровой экосистеме». В этом году на мероприятие собралось почти 200 человек. Эта серьёзная цифра — ещё одно подтверждение, что наша компания очень выросла.

Сегодня в состав многофункциональной платформы Arenadata EDP входит уже 7 сложных разнопрофильных продуктов для работы с Big Data.
Сама Arenadata стала не просто вендором, а целой экосистемой продуктов, проектов и сервисов, куда, кроме компонентов платформы, входят:
  • комплекс консалтинговых услуг;
  • система мониторинга и управления платформой;
  • техническая поддержка;
  • работа с Open Source — сообществом;
  • программа подготовки кадров;
  • работа с вузами и, главное, — партнёрства и технологические альянсы.
Благодарим всех за то, что были с нами на этом мероприятии!

И, особенно благодарим наших гостей-спикеров за интересные доклады на конференции:

  • Виталия Ранна, Product Manager, Data Platform, VK Cloud Solutions, за доклад «Облачная синергия: VK Cloud Solutions и Arenadata»;

  • Анну Ерманок, CEO Picodata, за доклад «Пикодата — платформа для быстрых данных»;

  • Илью Щавинского, Product Manager «Скала-Р», за доклад «МБД8 — машина больших данных»;

  • Владимира Карагиоза, RHCE Red Hat, за доклад «Семейство операционных систем компании Red Hat. Почему именно сегодня лучший момент для перехода на Red Hat Enterprise Linux»;

  • Татьяну Алексеевну Миронову, Deputy General Director РФРИТ, за доклад «Программы государственной поддержки».

  • На конференции мы получили много вопросов, ответы на них предлагаем в этой статье.

    Александр Ермаков (CTO Arenadata)
    Александр Ермаков
    Технический директор Arenadata

    Q: Интересует статус работы ADB на Astra Linux.

    На текущий момент поддерживаются только следующие ОС: CentOS, RHEL, Altlinux. К сожалению, в планах пока нет поддержки Astra Linux.

    Q: Что по поводу работы на CentOS 8 и архитектуры Power8?

    Так как CentOS 8 был deprecated, мы смотрим на альтернативные свободно распространяемые ОС на идентичном ядре. Например, сейчас рассматривается Oracle Linux.

    Q: Расскажите про процесс актуализации документации по продуктам.

    В конце 2021 года будет выпущена полностью обновлённая документация по Arenadata Hadoop на совершенно новом движке. В течение следующего года документация по всем остальным продуктам также будет перенесена и актуализирована в новом формате.

    Q: Какой сейчас штат у Arenadata? Support, разработка и т. д.

    Сейчас в Arenadata трудится почти 200 человек. Технический блок, куда входят поддержка, разработка и тестирование, составляет более половины от общего числа сотрудников.

    Q: ​Каковы прогнозы/перспективы развития ваших продуктов в облаках в России? Можете рассказать о промежуточных результатах использования ваших продуктов в облаке?

    Уже сейчас есть успешные реализации managed-сервисов в рамках облака Mail Cloud/VK Cloud Solutions. В частности, на площадке представлено два продукта — Arenadata DB и Arenadata Hadoop. Действительно, указанные решения относятся к классу систем MPP и требуют определённой настройки инфраструктурного уровня для обеспечения качественной и надёжной работы поверх облачных ресурсов, но нам совместно удалось справиться с этой задачей. Более подробно можно прочесть на Habr: https://habr.com/ru/company/vk/news/t/566616/ и https://habr.com/ru/company/vk/blog/566168/.

    Q: А можно подробнее о том, как ADB может заменить Oracle Exadata? Производительность и прочие отличия архитектуры OLAP, OLTP?

    Когда мы сравниваем Oracle Exadata и Arenadata DB/Greenplum, то, естественно, мы говорим только об OLAP-нагрузке. В этом случае возникает неоспоримое преимущество MPP Shared-Nothing систем (Greenplum) за счёт возможности изолировать потребление ресурсов — в нашем случае дисковой подсистемы для обработки «тяжёлых» вложенных запросов — при соблюдении коллокации данных.

    Q: ​А с какими BI-системами и дашбордами вы уже подтвердили совместимость / выполнили проекты? Есть отечественные имена?

    Если брать нашу платформу, ты мы можем интегрироваться практически с любой BI-системой, поддерживающей интеграцию через JDBC/ODBC. Но если мы говорим об эффективной интеграции, где будет поддерживаться функционал predicate push-down и in-database processing, то наиболее интересными выглядят решения, поддерживающие специализированные драйверы, например отечественные решения LuxmsBI или Visiology.

    Q: Можно ли использовать S3-совместимые хранилища для загрузки данных в ADB, есть ли коннекторы?

    Да, это возможно. Текущая версия PXF для ADB поддерживает интеграцию с S3, в том числе и S3 Select.

    Q: Да, по поводу бекапов: как обстоят дела с инкрементальными бекапами, обеспечением консистентности и восстановлением из бекапов?

    Arenadata DB поддерживает инкрементальный бекап для append-optimized и column-oriented таблиц, в этом случае возможно использовать соответствующий ключ для утилиты gpbackup/gprestore.

    Q: Есть ли функционал маскирования чувствительных данных?

    Такой функционал поддерживается для Arenadata Hadoop 1.6 при хранении данных в Hive и использовании Apache Atlas как компонента кластера. Для Arenadata Hadoop 2.X функционал находится в проработке.

    Q: Каковы будут накладные расходы при денормализации таблиц на уровне Greenplum и передаче их в ClickHouse, каковы будут требования к СПД при учёте хотя бы нескольких десятков терабайт нагрузки?

    Для подсчёта конкретных характеристик и нагрузки необходимо провести детальный аудит требований и структур данных. Но в целом эта задача решается стандартным сайзингом кластера и выполнением требования по пропускной способности интерконнекта между кластерами Greenplum и Clickhouse. Например, стандартной 10GbE сети должно быть достаточно для реализации такого сценария при условии использования параллельного коннектора Arenadata Thkemali.

    Q: Какие рекомендации по коэффициенту переподписки CPU в облачной среде для ADH?

    Для ADH допустима переподписка 1:2 при условии доступности на аппаратном уровне Hyper-Threading или альтернативных решений.

    Q: Можно уточнить по Open Source — решениям для Data Management и BI: какие решения вы считаете наиболее перспективными? Какие у них основные минусы?

    Если говорить о Data Management, то можно выделить проект Egeria от Linux Foundation https://odpi.github.io/egeria-docs/, так как в нём заключено множество эффективных принципов интеграции источников данных и управления каталогом. В части BI, к сожалению, на рынке нет явного лидера с полностью открытым кодом, так как большая часть такого рода решений относится к рынку Enterprise, среди прочих равных можно выделить лишь Metabase и Kibana как наиболее гибкие и динамично развивающиеся решения.



    Алексей Струченко, Директор направления Arenadata Postgres
    Алексей Струченко
    Директор направления Arenadata Postgres

    Q: ​Будет ли сертифицированная по ИБ версия ADPG (аналогично Postgres Pro)?

    Пока нет.

    Q: ​Есть ли планы на партнёрство новой БД с 1С?

    Пока нет.

    Q: ​Почему кластеризация основана на патроне, а не пейсмекер/коросинк?

    Вопрос с кластеризацией открыт. Нам кажется, что Patroni лучше, но с удовольствием послушаем аргументы за Pacemaker.

    Q: ​Поддержка ADPG на AstraLinux CE/SE предполагается?

    По операционным системам пока целимся в RHEL/Centos/AltLinux.

    Q: ​А если сравнить с Postgres Pro?

    Я думаю, что сравнивать нужно Enterprise Edition — у нас это будет не сразу! И мы пока не замахиваемся на такие глубокие вещи, как, например, Multi-Master. Нам кажется, что, если у нас получится сделать более удобными и дружелюбными бекап, кластеризацию и мониторинг, уже будет хорошо!



    Александр Тимчур, Директор департамента поддержки продаж Arenadata
    Александр Тимчур
    Директор департамента поддержки продаж Arenadata

    Q: ​Чем обеспечиваете Data Quality?

    Arenadata не производит и не сопровождает инструментов для обеспечения качества данных, ограничиваясь предложением партнёрского решения Informatica Data Quality. Кроме него возможно использовать любые другие инструменты подобного класса, например от IBM, SAS, Talend, Melissa Data и других компаний.

    Q: Что используется для типовых задач ETL/ELT как оркестратор?

    Как оркестратор процессов загрузки мы используем Apache NiFi, входящий в продукт Arenadata Streaming. Если необходима ETL/ELT-платформа с расширенными возможностями, мы по аналогии с решениями Data Quality предлагаем партнёрский инструмент от Informatica. Ряд наших заказчиков используют Pentaho Data Integration (как платную, так и открытую версии), решения SAS Data Integration и IBM DataStage.

    В общем случае для работы с Arenadata DB мы рекомендуем использовать инструмент, поддерживающий параллельную загрузку с использованием GPLOAD/GPFDIST и возможность автоматической конвертации ETL-процесса в ELT в ADB/Greenplum.

    Q: Какие форматы и размеры файлов были в архиве документов?

    Это достаточно большие PDF-файлы (скан-копии бумажной документации), реже — электронные чертежи Catia/SolidWorks/AutoCAD с размером файлов от десятков до нескольких сотен мегабайт. Мы не рекомендуем хранить непосредственно в файловой системе Hadoop небольшие офисные документы ввиду крупного типового размера блока HDFS (64 МБ и более, так, в ADH 2.х размер блока по умолчанию равен 256 МБ) — это неэффективно и занимает физическую память на NameNode. Для таких случаев можно предложить объединение небольших файлов в более крупные средствами архиваторов клиентских рабочих станций (ZIP, RAR и т. п.) или специализированный подход с использованием HAR (Hadoop Archives).

    Q: Как выделяется пилотная область для проекта? Или все кейсы были сразу осмечены на полный проект?

    Совместно с заказчиком мы выделяем предметную область и целевые показатели, которых надо достигнуть в проекте, по критериям минимизации планируемого затраченного времени и одновременно максимизации значимости целевых результатов. Такой подход в случае бесплатного пилотного проекта довольно стандартен и используется не только нами, но и 99% отделов поддержки продаж производителей ПО и системных интеграторов.

    Если же заказчик платит за пилотный проект, то он выбирает предметную область и объём работы самостоятельно, мы можем только рекомендовать стараться получить достижимые и адекватные технологиям цели.

    Q: Кейс про хранение документов. Если объёмы — терабайты (немного), имеет ли право на жизнь кейс — хранить документы в ADB (как надёжном хранилище)? При условии, что это не единственная задача под ADB.

    Хранение документов в таблицах реляционной СУБД — не лучший архитектурный шаблон; однако он вполне допустим при небольших и средних объёмах данных (сотен гигабайт, возможно до терабайтов данных). Для хранения типовых(*) структур с документами в Arenadata DB можно использовать Heap/Row oriented — таблицы с поддержкой первичных ключей и индексов, для хранения бинарных объектов надо использовать тип bytea.

    (*) Типовой структурой для хранения документов является следующая: идентификатор, бинарный документ и набор строковых или ссылочных полей метаданных.



    Виталий Ранн, Product Manager, Data Platform, VK Cloud Solutions
    Виталий Ранн
    Product Manager, Data Platform, VK Cloud Solutions

    Q: А что с точки зрения безопасности, как хранить чувствительные данные в облаке? Если говорить про КХД. И не очень было понятно, вы на гипервизоре мастер-ноды разворачиваете? И vk вроде нет в реестре ФСТЭК.

    Про безопасность немного базовой информации здесь. Кроме этих мер есть ещё набор дополнительных, таких как тонкие настройки политик сетей, фаерволы, выделенные шлюзы, VPN и прочие сетевые ресурсы. Также есть ряд партнёров, которые занимаются проверкой безопасности у заказчиков, аудитом и observability — приложения, антивирусы и многое другое. Это лучше обсуждать отдельно. Несколько крупных клиентов держат у нас КХД, среди них финтех, нефтянка и крупный ритейл. Архитектура облака mcs — гипервизоры KVM + openstack. Все продукты Arenadata разворачиваются в отдельном гипервизоре. Иначе говоря, продукты DBaaS, которые размещены в другом гипервизоре, не влияют на ресурсы продуктов Arenadata. Это было одно из условий размещения продукта Arenadata — низкий уровень переподписки по отношению к другим сервисам (в конце 2020 мы делали тесты, на высоких нагрузках влияние получилось 2–3%).

    Про наш сертификат ФСТЭК есть в одной из статей. Можем предоставить оригинал по запросу.

    Q: ​Подскажите, какой коэффициент переподписки у вас в облаке для ВМ-кластеров на базе Arenadata Hadoop?

    Все продукты Arenadata находятся в отдельном гипервизоре KVM, поэтому влияние заказчиков друг на друга минимально. При последних тестах процент переподписки составлял 2–3% (на конец 2020 года), тестирование проводилось на десятках виртуальных машин на высоких нагрузках системы.



    Анна Ерманок, Генеральный директор Picodata
    Анна Ерманок
    Генеральный директор Picodata

    Q: На слайдах была озвучена программа обучения от Picodata, расскажите?

    У компании «Пикодата» есть 4-часовая программа обучения devops Tarantool.

    Спасибо, что написали нам!

    Мы обработаем заявку и свяжемся с вами в ближайшее время.

    Будем рады помочь!

    Отправьте ваш вопрос через форму ниже, и наши специалисты свяжутся с вами в ближайшее время.

    Фамилия *
    Имя *
    Эл. почта *
    Телефон *
    Наименование компании *
    Опишите ваш вопрос
    ошибка! проверьте правильно ли вы заполнили поля

    Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.