Вопросы и ответы с клиентской конференции Arenadata

30.04.2021
В апреле 2021 Arenadata провела свою первую клиентскую конференцию «Big Data Universe #1».

Мы неслучайно выбрали такое название, ведь в этом году человечество отметило большой юбилей — 60 лет со дня полёта Юрия Гагарина в Космос. В далёком 1961 это событие ознаменовало начало новой эпохи в развитии космической отрасли. Сегодня, в 2021, уже мы с вами вступаем в новую эпоху — эпоху Big Data, где эффективность человеческой деятельности начинает зависеть от качества работы с большими данными.

Arenadata тоже вносит свой вклад в формирование этой Вселенной. С момента появления нашей компании на рынке мы накопили большой опыт в этой области и решили регулярно делиться своими знаниями с профессиональным сообществом в новом формате.

В этом году в клиентской конференции Arenadata приняли участие более 450 человек из России, Казахстана, Киргизии, Украины, Белоруссии, Турции, Румынии, Чехии, США, Великобритании, Австрии, Германии и даже Малайзии.

Спикерами мероприятия стали эксперты компаний ВТБ, X5 Retail Group, «Банк ЦентрКредит» (Казахстан), Mail.ru Cloud Solutions, Accenture, DIS Group, «Диасофт» и, конечно, Arenadata.

Во время мероприятия мы получили несколько десятков вопросов от участников. Ответы на них предлагаем вашему вниманию в этой статье.

“Стратегическое развитие платформы Arenadata EDP”

Александр Ермаков (CTO Arenadata)
Александр Ермаков
Технический директор Arenadata


Q: Какие основные преимущества использования Tkhemali по сравнению с PXF/JDBC? Взаимодействие c ADQM через http или native/TCP?

Tkhemali — это отдельно реализованный плагин для PXF коннектора, он использует все его нативные функции, с точки зрения контроля выполнения транзакции на вставку. Таким образом гарантируется консистентность передачи данных. Особенностью является то, что процесс взаимодействия подразумевает параллельную интеграцию всех узлов кластера Greenplum со всеми узлами кластера Clickhouse напрямую, это даёт возможность обеспечить параллельный процесс обмена данными между системами и контроль целостности.

Q: Когда будет AirFlow 2?

Мажорный апдейт стека по версиям планируем не раньше следующего года.

Q: Каковы преимущества перед Cloudera Data Platform 7.x ?

Мы являемся открытым ванильным дистрибутивом с гибкой возможностью лицензирования и наличием свободно распространяемых редакций, в том числе и бинарных сборок. Полностью открытой системой управления и мониторинга.

Q: Почему во всех открытых источниках, что мы нашли переключение с мастера на слейв именно ручное? Решений по автоматическому переезду не нашли.

Процесс переключения как мастера, так и зеркал, является критичной операцией с точки зрения общего функционирования системы и в любом случае должен выполняться под контролем администраторов.

Q: Если на одном кластере Greenplum создать несколько больших баз данных, то что можно использовать в качестве средств обмена между этими базами? FDW нагружает мастер, а PXF не умеет использовать статистику…

Действительно, это либо PXF, либо FDW, так как больше это является ограничением Postgres. В любом случае нужно использовать координатор, который будет отвечать за целостность данных.

Q: Какой сейчас размер самого большого продакшн кластер Arenadata (нод, ПБ)?

Это несколько ПБ, и несколько сот узлов.

Q: Будет ли интеграция ADB c СРК, например, veritas или dell data domain?

Мы как раз сейчас прорабатываем. Это сейчас кардинальный вопрос внутри компании — поддержка различных механизмов обеспечения бекапирования и их сертификации.

Q: «Виртуальное хранилище на базе ADB» обязывает создавать внешние таблицы в ADB или можно без них? Если только с ними, то есть инструменты автоматического их создания или надо самим разрабатывать?

Да, как я уже ранее сказал, необходимо делать external таблицы, потому что механизм PXF реализован под этот сценарий. И этот механизм предполагает, что будут создаваться external таблицы именно в рамках внутренней структуры данных. Поэтому здесь единственный вариант — оценивать какие данные есть во внешних системах и в каких форматах, только это позволит с ними эффективно работать. Автоматических механизмов быть не может. Всё зависит от специфики, что находится на той стороне.

Q: Рассматривался ли в реализации Apache Gobblin?

Не рассматриваем.

Q: Какой продукт стека закрывает нишу OLTP?

Сейчас есть несколько сценариев. Мы пытались использовать такое решение как Hbase плюс Phoenix, потому что он реализует сценарий OLTP-обработки. Показал неплохой перфоманс в ряде кейсов, т.е. 70 тыс. RPS-ов на небольшом кластере, причём с виртуализацией. Но с точки зрения целевого стека, есть ряд решений, которые мы сейчас смотрим, например, Tarantool, который неплохо себя показывает.

Q: Postgres до сих пор поддерживаете?

Пока нет. Это не наш стек.

Q: Есть ли в платформе Arenadata (хотя бы в части Hadoop & Greenplum) решение по Disaster Recovery (резервное плечо во втором дата-центре)? Какое RTO & RPO?

Cамого решения (коробочного, тиражируемого) пока нет. Есть план развития и есть case by case сценарий, как это сделать. Всё очень сильно зависит от того, как это реализовано на стороне конкретного сценария использования архитектуры заказчика, какие используются решения. Тот стек технологий, с которым мы работаем, это MPP, Hadoop — решения, которые закрывают задачу доступности и консистентности, но не решают задачи, связанные с partition tolerance. Для этого необходимо использовать другой стек технологий. Это серьёзное ограничение практически всех массивно-параллельных систем (не только для Greenplum и др.), но и для других вендоров (например, Teradata). В Hadoop есть механизм нативного переноса данных, например, distcp репликация данных, на уровне Hbase есть синхронная и асинхронная репликация с возможностью восстановления в удалённом контуре. И это все мы умеем делать. У нас в компании есть отдельное направление, и мы помогаем реализовать заказчику эти задачи. В перспективе мы смотрим на возможность создания продукта, который обеспечит централизованное управление и контроль такого сценария.

Q: PXF работает с HDFS 3.x, если там вместо Replication Factor включена стратегия Erasure Coding?

Да. PXF работает с HDFS 3.x. На самом деле Replication Factor и Erasure Coding для PXF не играет никакой роли, потому что взаимодействие PXF делается через нативный клиент HDFS, а Erasure Coding по факту это просто механизм восстановления блоков данных.

Q: Подскажите, планируется ли поддержка работы ваших ПАКов на серверах с ARM? Вижу, что сейчас есть поддержка x86 и Power9, но ARM сейчас динамично развивается — есть ли интерес у заказчиков и у вас к альтернативным платформам?

Мы это видим, но в данный момент сосредоточены на x86 и Power-ах. Это достаточно большой рынок. При этом запросов на ARM пока мало. Они есть, но это вопрос времени и перспективного стека, который будет использоваться в будущем. Например, не все продукты могут нативно перейти на другую архитектуру работы.

Q: Есть ли поддержка Astra Linux, Alt linux?

Сейчас мы активно работаем с компанией Базальт и непосредственно занимаемся миграцией и сборкой нашего продуктового стека под Alt linux. Первым продуктом, который мы будем реализовать под Alt linux официально с дальнейшим развитием будет Arenadata DB. Для нас это наиболее подходящий дистрибутив, который меньше всего влияет на наш CI процесс, потому что это rpm со своим пакет-менеджером, и для нас это достаточно понятный путь. В дальнейшем мы планируем рассматривать другие операционные системы.

Q: Повлияло ли изменение политики выпуска OS CentOS на выбор целевой платформы?

Нет. В данный момент CentOS поддерживается и 7-я ветка OS CentOS будет поддерживаться до 2023 г. Идёт активное развитие community «на почве» ОС. Выводы делать рано, мы ждём реакцию community.

Q: Вопрос! Как взаимодействуете с Яндексом? На каких проектах?

Yandex является нашим технологическим партнёром по нескольким направлениям, в частности, в рамках развития ClickHouse, а также в рамках использования облака для процессов разработки и тестирования. Более того, Yandex помогает нам обеспечивать поддержку наших Enterprise-заказчиков по ClickHouse.

Q: Когда документацию приведёте в порядок ? У вас она с сайта Cloudera переведённая при помощи онлайн-переводчика, и сделана формально для того, чтобы было, большинство моментов по документации решить невозможно.

Это не совсем так, мы сильно отличаемся от Cloudera и на текущий момент от Hortonworks, в части системы управления и компонентного состава. Так большую часть, относящуюся к управлению сервисами, мы пишем самостоятельно. Ранее действительно мы использовали Ambari в качестве системы управления дистрибутивом Hadoop и многие вещи пересекались с тем, что было указано у упомянутых выше вендоров.

Q: Какие есть ещё признаки организации, которой, возможно, пора переходить на платформу Arenadata (помимо использования упомянутой Терадаты и Экзадаты)?

Использование нашей платформы, как правило, обусловлено следующими факторами: большие объёмы разнородной информации, различный паттерн входящего потока данных (batch и streaming), возможность уйти от vendor lock-in, снизить общий TCO системы за счёт возможности использования commodity-оборудования и стоимости самого решения.

Q: Входят ли в ADS инструменты класса CDC?

Нет, не входят.

Q: Почему Nifi в составе ADS вы не называете ETL tool?

Так как NiFi является инструментом класса streaming и micro-batch, и, к сожалению, он не предназначен для решения классической задачи Extract-Transform-Load ввиду своей архитектуры.

Q: Появятся ли компоненты виртуализации данных в составе вашей платформы? Неудобно разрабатывать ETL, тратить место хранилищ adb, adh.

На данный момент мы занимаемся вопросом переноса работы части сервисов в контейнеры, но само управление виртуализацией вне нашего скоупа.

Q: Open Source означает, что все ваши продукты бесплатны? Или какая-то часть, о которой Вы сейчас рассказываете, требует приобретения?

В нашем случае у каждого продукта есть Community-редакция, которая позволяет использовать его без каких-либо ограничений. Но данная редакция может не включать ряд особенностей Enterprise-версии, например, некоторые коннекторы или функционал безопасности.

Q: Какая задержка между появлением стабильной версии компонентов и их включением в дистрибутив платформы?

Зависит от продукта, например, для Arenadata DB релиз практически не отстаёт от upstream, для Arenadata Hadoop этот период может занимать довольно длительное время, так как требует апгрейда практически всех компонентов и сервисов входящих в дистрибутив.

Q: Как быстро появляются заявки в SD?

Мгновенно.

Q:Будет ли внутри платформы единая система разграничения прав доступа ко всем компонентам и данным платформы (Greenplum, Clickhouse etc)? Будет ли интеграция с AD?

Действительно, мы прорабатываем такой вопрос — объединить все наши продукты в рамках решения Arenadata Platform Security, но это вопрос несколько далёкой перспективы.

Q: Когда можно будет работающий кластер ADB завести под управление ADCM без переустановки кластера ADB?

На текущий момент мы поддерживаем только инсталляции Arenadata DB через ADCM начиная с самого релиза продукта. Если используется ванильный Greenplum, то в этом случае необходима миграция.

Q: Возможно ли керберизировать ADH 2.1 ?

В настоящий момент это приоритетная задача в разработке, до конца текущего года мы планируем выпустить данный функционал.

Q: Чем обусловлен состав продуктов, входящих в ADCM (в частности, визуализация на Graphite, Grafana)?

Указанные компоненты входят в сервис мониторинга платформы, их выбор был определён по фактору возможности масштабирования и производительности. Хотя на текущий момент мы рассматриваем альтернативные решения.

Q: Я, видимо, прослушал? Spark третий когда в прод придёт?

Мы ожидали релиз Spark 3.1 и на текущий момент идут активные работы по его добавлению в дистрибутив. Ориентировочно летом мы сможем его уже представить.

Q: Предусмотрена ли версионность ETL-сценариев, реализуемых в ADS (в т.ч. с возможностью отката на предыдущие версии)?

Да это возможно с помощью NiFi Registry для версионирования потоков.

Q: Когда ожидается версия 2.1.4 ADH?

Мы ожидаем его выпуск в Q3 2021

Q: Непонятно нужно ли лицензировать отдельно Java или она идёт в комплекте и если идёт в комплекте кто осуществляет её поддержку.

Используется OpenJDK использующаяся в рамках ОС, поддержка JDK, как правило, предоставляется вендором ОС.

Q: Включена ли поддержка Java в состав стоимости решения, включая предоставление обновлений безопасности?

Нет, мы используем OpenJDK и за поддержку, как правило, отвечает поставщик ОС.

Q: Уже было несколько вопросов про CDC. Не планируете debezium вписать в свою экосистему?

Нет.

Q: Когда будет следующее обновление Greenplum? (PostgreSQL более высокой версии, чем сейчас).

В конце года планируется релиз Greenplum 7, включающий Postgres 12.

Q: Правильно понимаю, что Arenadata DB Command Center платная штука? Возможно, пропустил, нет возможности слушать весь доклад.

Да, Arenadata Command Center входит в поставку Enterprise-версии Arenadata DB.

Q: Какими инструментами можно создать бизнес-глоссарий и репозиторий мета-данных?

В нашем случае возможно использовать Apache Atlas.

Q: Когда Greenplum и Hadoop будет поддерживать работу на виртуальных серверах? Vmware и т.д.

Они поддерживают работу на виртуализации, но сильно зависят от её характеристик и архитектурных особенностей, в части производительности.

Q: Перефразируя предыдущий вопрос: когда будет тестовая виртуалка?

В планах таких возможностей нет. Мы целимся на возможность быстрого деплоймента с использованием ADCM.

Q: Планируется ли обновление хадуп-стека в ближайшее время?

В ближайшее время планируется выпуск различных security фичей для текущего стека, после мы сможем перейти на возможность обновления текущих версий до upstream.

Q: Что насчёт Change data capture? Планируется ли развитие ADS в данном направлении?

Пока нет.

Q: PXF работает с HDFS 3.x, если там вместо Replication Factor включена стратегия Erasure Coding?

Да. PXF работает с HDFS 3.x. На самом деле Replication Factor и Erasure Coding для PXF не играет никакой роли, потому что взаимодействие PXF делается через нативный клиент HDFS, а Erasure Coding по факту – это просто механизм восстановления блоков данных.

Q: Ранее была упомянута важность data lineage, что Arenadata предлагает для решения этой задачи?

В нашем случае возможно использовать Apache Atlas для версии ADH 1.6, для новой версии данный функционал ещё в разработке. Текущий функционал построения lineage ограничен рамками экосистемы Hadoop.

“Технологические тренды ближайших лет в области данных”

Александр Тимчур (Presales Director Arenadata)
Александр Тимчур
Руководитель направления пресейла Arenadata


Q: Цифровой двойник не нарушает права и законодательство той страны, гражданином которой он является? Я имею в виду 152 ФЗ или GDPR.

Нет, не нарушает, если не говорить о сборе биометрических персональных данных. Когда мы говорим о цифровом двойнике, как о некоей обезличенной копии человека, в которой отсутствуют приватные данные, эта копия ни 152-ФЗ, ни GDPR нарушить не может. Это сферический двойник человека в вакууме, который обладает агрегированным признаками не одного человека, а группы.

Q: Есть ли статистика по России (по использованию двойников)

У нас такой статистики нет.

Q: В Вашем докладе Вы сфокусированы на “числовых” данных, немного упоминали гео-привязки. А как быть с видео, звуком, биометрией и т.п.?

Если мы говорим о видеоданных, данных биометрии и звуке, то это в чистом виде объекты для сбора и обработки IoT-платформой. Исторически, видео, и звук — это первые IoT-данные, которые появились ещё тогда, когда про термин IoT никто не знал. Можно говорить об этих трендах отдельно, но я пока сфокусировался на технологических трендах, которые касаются роста данных и влияют на обычные хранилища (с которыми мы работаем сейчас). Если же говорить о взрывном росте видео, например, когда платформа видеообработки развёрнута в масштабах города и после сбора видеоданных необходим их анализ, то здесь нужно более предметно говорить о том, как эти данные собрать, как при помощи дата-технологий обработать и получить инсайты, то есть знания.

Q: Возможно ли сотрудничество с ВУЗами в части поделиться датасетами. Имеется в виду возможность предоставить студентам датасеты для образовательных проектов, в частности, ML.

Не вижу проблем в данном случае. Часть компаний предлагают подобные датасеты именно для университетских программ. Поскольку у Arenadata тоже есть университетская программа, нам есть смысл подумать о создании подобных датасетов, которые можно будет раздавать студентам в вузах.

Q: В России какие технологии вышли на первое место во время пандемии?

Здесь некая калька с гарднеровского отчёта. Безусловно, все видят рост облачных предложений и облачного потребления, таких как удалённые рабочие места, перенос части рабочей нагрузки в облака (например, контура тестирования) — всё это стало распространённой практикой. С одной стороны, это экономия на бюджетах, с точки зрения вложений в оборудование, программное обеспечение и процессы. Мы понимаем, что это привлекает заказчиков, точно так же как и во всём мире, так и в пределах СНГ. И в России, и в Казахстане облачное потребление растёт не только для обеспечения удалённого доступа, но и для аналитики. Но, несмотря на такие рыночные успехи облачных технологий, часть заказчиков всё ещё не готова к переносу данных и рабочих процессов в облака.

Q: Data Quality инструменты планируются в вашей линейке?

Для нас это пока открытый вопрос и причина, наверное, в том что исторически ETL- и Data Quality-платформы — это достаточно зрелые инструменты. На рынке достаточное количество производителей, которые предлагают качественные продукты подобного назначения. Здесь мы (Arenadata) можем потерять время, предлагая примерно то же самое на базе open source-технологий, заходя с худшим качеством и меньшим удобством на весьма конкурентный рынок. Именно поэтому создания и вывода на массовый рынок Data Quality-продуктов в рамках платформы Arenadata я бы не ждал в течение ближайших 2 лет.

Q: Есть более подробная информация по развитию прикладных направлений в компаниях в области ИИ? Какие основные тренды, на ваш взгляд?

Я бы выделил 3 основных тренда, которые начали прослеживаться ещё в прошлом году: искусственный интеллект и поиск знаний в медицине — эта тема начиналась с ранней диагностики раковых заболеваний при недостатке квалифицированных диагностов и активно развилась в попытках быстрой диагностики COVID-19. Второй тренд — это гиперавтоматизация рабочих процессов на базе ИИ. Третий, как переосмысление Smart (Safe) City — это искусственный интеллект на страже безопасности.

Q: Часты ли случаи, когда при подготовке агрегированных данных важна не точность ответов, а скорость ответов?

Безусловно, бывают. Как правило, это случаи, когда допустима ошибка (например, в целевой аудитории), но предложение надо сделать максимально оперативно, — прямо сейчас. В таких случаях, ошибкой в определении целевой аудитории пренебрегают.

Q: Делали ли вы проверку на чистоту собранных данных? И какими процедурами пользовались?

Нет, это не наша задача.

“Цифровизация ВТБ: единая платформа данных”

Ирина Петровская (вице-президент, заместитель руководителя департамента управления и координации технологических изменений Банка ВТБ)
Ирина Петровская
Вице-президент, заместитель руководителя департамента управления и координации технологических изменений Банка ВТБ


Q: Что было самым сложным при внедрении? Пришлось ли обучать персонал и команды?

Сложнее всего было организовать одновременный старт трансформации, все 15 программ были запущены практически в одно время. Дополнительная сложность заключается в том, что новые требования приходится реализовывать с поддержкой сразу двух архитектур: старой и новой. То есть мы, реализуя новую архитектуру, продолжаем поддерживать старую, при этом увеличиваем темп внедрения изменений и качество.

Отвечая на вторую часть вопроса, да, мы вместе с командой Arenadata организовали процесс обучения. Мы переобучаем сотрудников с опытом работы на других технологических стеках, обучаем «с нуля» молодых специалистов. Это позволяет нам быстро увеличивать состав наших кросс-функциональных команд, как в части сотрудников Банка, так и в части сотрудников нашей технологической дочерней структуры.

Q: Операционный слой с Oracle Exadata не планируете переносить? Дорогое удовольствие же…

При миграции на новую платформу Arenadata DB осуществляется полный перенос данных, включая детальный слой.

Что касается стоимости, то более дорогим во всех смыслах будет продолжать работать одновременно на двух платформах Exadata и Arenadata DB.

Q: За счет чего сократили t2m? Перестановка кубиков не дает такого прироста

Основным драйвером сокращения T2M является внедрения практики DevSecOps и перехода на новый производственный процесс на базе практик Agile.

Q: Этот проект — митигация риска использования иностранного ПО?

Этот проект — переход на единую высокотехнологичную платформу данных с целью оптимизации как операционных составляющих, так и достижения бизнес показателей.

Импортозамещение — это важная и стратегическая задача, которая, безусловно, принималась во внимание при выборе решения.

Но выбор новой платформы — это результат комплексного анализа, и решение Arenadata показало лучшие результаты по многим тестам.

Q: Это текущая архитектура на 2019? (прим. организаторов — демонстрировалась на слайде)

На слайдах представлена и архитектура до старта Программы (слайд №3) и целевая архитектура (слайд №8).

Q: Какие проекты у вас в планах?

В наших планах дальнейшая реализация программ трансформации, которые охватывают весь периметр ИТ-преобразований. При этом, в периметре трансформации находится не только разработка и внедрение новых систем, включая омниканальные решения, но и повышение надежности систем Банка.

Q: Ирина, а на нижнем уровне – где ВТБ размещает оборудование? В собственных ЦОД или в арендованных?

Мы размещаем оборудование как на собственном ЦОДе, так и на площадях арендуемого ЦОДа.

Q: В программе ВТБ указаны миграции хранилищ данных от нескольких компаний, которые слились в одну. Какой подход к миграции данных был принят? Уточню вопрос, приведение данных к единым форматам до миграции, или после?

Да, при объединении хранилищ мы используем новую единую модель данных. Все целевые источники загружаются сразу в неё, а исторические данные разово загружаем в данную модель из текущих хранилищ данных. Преобразование в единые форматы данных производится на уровне ETL целевого хранилища данных.

“Масштабируемое хранилище данных X5 Retail Group”

Павел Денисенко (руководитель управления архитектуры данных X5 Retail Group)
Павел Денисенко
Руководитель управления архитектуры данных X5 Retail Group


Q: Какой оркестратор используете?

Мы используем SAS Data Integration Studio, как, с одной стороны, кодогенератор и, с другой стороны, как оркестратор. SAS не имеет встроенного планировщика, поэтому у нас есть самописный планировщик, который дорабатывается силами нашей внутренней команды по тем требованиям, которые мы им ставим.

Q: Data vault будет грузить систему join или вы обратно собираете в 3nf?

У нас нет доступа к Data vault со стороны потребителей. Data vault используется только для сборки конечных витрин. В 3nf мы не собираем. Мы собираем в «Снежинку». Это у нас ядро нашей модели, там хранятся данные, которые соответствует методологии, принятым на уровне всей компании. Но, кроме этого, мы собираем кастомные витрины под конкретные пользовательские нужды и задачи.
Эти витрины собираются также на Data vault. Data vault нам нужен для того, чтобы:
а) распараллелить потоки,
б) упростить процесс доработки этой логики, т.е. декомпозировать её и ускорить time to market, распараллелив работу над развитием хранилища.

Q: Расскажите, пожалуйста, как вы сейчас Data Vault 2.0 внедряете в Х5

К моменту старта проекта в Х5 у нашей команды архитекторов был опыт (частично успешный) внедрения DV на другом проекте. Мы внимательно изучили литературу по этой теме, учли предыдущий опыт, а также наш текущий контекст и сформировали паттерны проектирования модели и потоков данных на основе этих вводных. После примерно полугода применения нашей концепции на практике, мы съездили на курсы в Европу и Америку, где получили возможность пообщаться с экспертами в этой области. После чего наши подходы были доуточнены. Чуть более подробно я рассказывал про основные наши принципы на митапе, который Arenadata проводила совместно с Х5 в 2019 году https://youtu.be/UeSoaiQJHpo

Q: Data vault 2?

За основу мы взяли методологию Data Vault 2.0 и доопределили её на основе: а) нашего контекста, б) нашего опыта.

Q: X5 как рассчитывали, где использовать облака, где использовать аренду серверов и где использовать свои ЦОДы?

Эта работа в процессе. Мы работаем в режиме on premise. В ЦОДе стоит наша стойка, где наши айтишники монтируют сервера каждый раз, когда нам нужно расширяться. У нас есть фактура относительно того, сколько этого стоит. Мы добавили этот вопрос в повестку. Смотрим с точки зрения функциональности. В первую очередь смотрим – заработает это для нас в принципе. Если да, то сколько это будет стоить. А дальше уже пойдёт сравнительная характеристика. Пока, к сожалению, такой фактуры нет.

Q: Широкие таблицы в ClickHouse выносите или пока нет?

Мы вносили широкие таблицы в ClickHouse и это дало очень хороший результат. Но к сожалению, по ClickHouse у нас не так много экспертизы. И мы рассматриваем ClickHouse как одну из технологий хранения для того, чтобы высоконагруженные витрины туда внести. Основным является HANA. По HANA достаточного много экспертизы и большой опыт использования (в компании много где внедряется). Но ограничений каких-либо, с точки зрения архитектуры или инфраструктуры, нет. Эту интеграцию мы протестировали, она даёт хороший результат. Для того чтобы использовать на регламентной и промышленной основе нам нужно соответствующую компетенцию собрать и экспертизу, чтобы это было полноправным компонентом нашей платформы.

Q: Какие bottlenek встречаются при экспанде кластера?

  • Заказ оборудования (1-1,5 месяца).
  • Квант расширения (нельзя добавить произвольное количество нод – чтобы не нарушать правильное (безопасное) распределение сегментов по нодам.
  • Во время перераспределения данных на новые сегменты, добавленные во время экспанда, производительность запросов снижается.

Q: Тестированием занимаются выделенные QA Engineer’ы или Data Engineer’ы?

Очень хороший вопрос. Мы проделали очень большую работу. У нас был экстенсивный рост хранилища за последний год. Можно сказать, start up. Мы были сфокусированы на том, чтобы загрузить больше данных, сделать больше потоков. Тестированием занимались аналитики и этот вопрос не был достаточно регламентирован. Сейчас с ростом пользователей, мы столкнулись с ростом количества инцидентов и это вопрос №1, который сейчас находится в проработке, и мы планируем выделять отдельную роль (сейчас её уточняем) – специалисты по тестированию хранилищ. Скорей всего будем взращивать изнутри. Но роль будет точно отдельная.

“Решение Informatica и Arenadata для финансового сектора”

Болатхан Беккулиев (главный IT-менеджер направления Data Engineering блока IT АО «Банк ЦентрКредит»)
Болатхан Беккулиев
Главный IT-менеджер направления Data Engineering блока IT АО «Банк ЦентрКредит» (Казахстан)


Q: Какой объём хранилища?

Текущий объём хранилища занимает около 50 Тбайт. Это только структурированные данные. В планах у нас подключение неструктурированных данных, ожидаем увеличения потока. Также у нас банковские приложения переходят на событийно- ориентированную архитектуру, и мы планируем в будущем в режиме онлайн через кафку загружать все события, которые генерируют наши источники данных.

Q: На чём реализовали ODS?

Текущее хранилище реализовано на Oracle. Планируем миграцию на Arenadata DB.

Олег Гиацинтов (технический директор DIS Group)
Олег Гиацинтов
Технический директор DIS Group

Q: Вы используете динамические меппинги в Informatica?

Поскольку коллеги в основном всё это время используют наш PowerCenter, конкретно в данном случае динамические мэппинги не были предусмотрены, поэтому в банке «Центр Кредит» они ещё не использовались. Но, естественно, в рамках построения Big Data это всё будет. Эту часть коллеги только недавно начали реализовать, но уже обучились, как это использовать.

Q: Вопрос по Informatica: умеет ли информатика работать с партиционированными таблицами в части exchange partition?

Здесь важно уточнить, в части какой СУБД. Вообще, с партиционированными таблицами информатика работать умеет. И умеет много лет это делать. Есть её собственное внутреннее партиционирование, это касается в данном случае PowerCenter с Greenplum, которое может ориентироваться на партиционирование на уровне СУБД.

Q: Как будет проводиться заливка данных из ORACLE в ODS на Greenplum?

Напрямую через PowerCenter.

“Будущее Big Data: Data Platforms в облаке”

Дмитрий Лазаренко (директор по продукту Mail.ru Cloud Solutions)
Дмитрий Лазаренко
Директор по продукту Mail.ru Cloud Solutions


Q: MCS используете свои ЦОДы и мощности? Или разделили процессы между арендованными и своими?

В целом у Mail.ru порядка 10 ЦОДов, часть из них собственные, часть арендованные. Если мы говорим про предоставление коммерческих услуг, то это арендованные ЦОДы, которые сертифицированы по PCI DSS и которые обладают нужной степенью надёжности — это Tier 3 и хорошая надёжность. Здесь мы полагаемся на доверенных поставщиков.

Q: Почему вы считаете, что объектное хранилище дешевле блочного? Ведь объектное хранилище на нижнем уровне использует то же блочное, при этом имеется дополнительный overhead за счёт кэширования и хранения метаданных.

Смотрите здесь, наверное, ключевое, что объектное хранилище не должно работать полностью на дисках, NVME-дисках, на SSD-дисках. И не всегда необходима такая производительность, какую даёт блочное хранилище. То объектное хранилище, которое мы построили у себя, оно для клиента стоит в два раза дешевле, чем блочное хранилище на обыкновенных hdd-дисках. Наша практика и архитектура показывают, что блочное хранилище дороже объектного примерно два-три раза, по крайней мере, в случае mail.ru нам удалось достичь такого эффекта.

Q: Есть ли пример использования Arenadata DB у конкретного клиента? Какие есть кейсы?

Да, есть. Мы говорим про облако, это кейс компании Ашан, которые используют Arenadata DB, как сервис в облаке Mail.ru Cloud Solutions. Про него можно почитать по этой ссылке. Ещё недавно была наша конференция для e-commerce сектора, где представители Ашан рассказывали про этот кейс (ссылка на запись конференции). Там хорошая экономия, они делают важное дело для компании — анализируют спрос с помощью Arenadata в облаке и экономят небольшое количество процентов, порядка 3%, но в живых деньгах это очень много.

Q: Используете ли графовые СУБД для соц. сетей?

Внутри соцсетей, да, используются графовые СУБД, но это больше внутренние разработки. Фактически там очень много. Если мы говорим про графовые СУБД, то даже на Тарантуле реализуются подобные кейсы, но не во всех соцсетях.

“Data driven re-invention: мировые тренды”

Лариса Малькова (управляющий директор практики Applied Intelligence Accenture в России)
Лариса Малькова
Управляющий директор практики Applied Intelligence Accenture в России


Q: При объединении данных нескольких систем в одну мегасистему проблема защиты данных как будет решаться? Персональные данные тоже объединятся?

Здесь, наверное, имеется в виду при создании таких партнёрств, глубокой интеграции партнёров между собой. Безусловно, защита персональных данных будет решаться, то есть, естественно, никто персональными данными напрямую обмениваться не будет. Поэтому сейчас разные наши клиенты (образующие экосистемы) начинают обсуждение некого идентификатора, который будет единым не только по всей компании, а, возможно, в рамках этой экосистемы и позволит мэтчить клиента, но при этом не обмениваться непосредственно прямой клиентской информацией, именно персональными данными.

Q: Не приведёт ли к краху, если разбивать данные на мелкие части?

Конечно. Вот как раз в этом и состоит задача, чтобы это не привело к краху. Конечно, это делает историю настолько сложной, настолько комплексной, но это реалии. То есть с этим нужно научиться жить и работать. В том-то и дело, что если с этим не научиться жить и работать, это, совершенно верно, приведёт к краху, это будет неуправляемая ситуация. Так или иначе, очень многие компании уже сделали первый поход к снаряду в части управления данными, в части выстраивания процессов Data Governance не только с технологической, но и, с организационно-процессной точки зрения. А вот теперь перед нами новый челлендж, а как сшить динамичные процессы продуктовой разработки по agile (гибкая методология разработки) и с архитектурной стороны – микросервисную архитектуру с распределёнными моделями данных с процессами Data Governance, которые классически перпендикулярны этому.

Q: Можно пару слов о решении проблемы AGILE DATA GOVERNANCE

Здесь выложена презентация на эту тему, а здесь (с 05:00:00) видеодоклад нашего спикера на конференции DataTalks 2.0.

“Подходы к решению задач импортозамещения. Реальные кейсы”

Дмитрий Гребенщиков (директор по технологиям импортозамещения Диасофт)
Дмитрий Гребенщиков
Директор по технологиям импортозамещения «Диасофт»


Q: Ранее шла речь о том, что ADB (Greenplum, в частности) не совсем подходит для OLTP-нагрузки. А разве решение «Диасофт» не создаёт дополнительную OLTP-нагрузку?

Проект по миграции – это совместный проект, это коллаборация. Внутри ADB есть Greenplum, но там есть много и чего другого, и коллеги из Arenadata сегодня об этом рассказывают. Решение «Диасофт» – это не совсем OLTP система, в нашем решении есть сервисный слой, написанный на Java, который позволяет оптимизировать нагрузку, т.е. часть логики реализовано на Java. Поэтому OLTP нагрузка распределена правильно, как это сделано у лучших: Amazon, Google, WeChat; она тщательно проработана и дополнительно оптимизирована. Поэтому GP в ADB не является «бутылочным горлышком» и СУБД демонстрирует высокую производительность.

Q: Digital Q только для банков подходит или можно и в органах гос.власти использовать, для подготовки отчётности на федеральном уровне?

Спасибо за этот вопрос, в компании «Диасофт» я отвечаю за развитие проектов с гос.органами и рад сообщить, что ряд компаний – представителей гос.учреждений уже используют нашу платформу для построения управленческой и аналитической отчётности. Например, наше решение «Электронный паспорт муниципальных образований», которое внедрено в республике Бурятия (и разрабатывалось специально для Главы республики Бурятия). Решение собирает все ключевые показатели, оперативную информацию по всем муниципальным образованиям (количество угля в отопительный сезон, статистика заболевших/выздоровевших COVID-19 и т.д.) и на ежедневной основе. На основании собранной информации строится управленческая и большая часть аналитической отчётности. Платформу Digital Q Analitics & Reporting Solutions (ранее FLEXTERA BI) мы рекомендуем использовать в органах государственной власти.

“Когда без техподдержки будет сложно: три кейса из практики Arenadata”

Андрей Киселев (директор департамента технической поддержки Arenadata)
Андрей Киселев
Директор департамента технической поддержки Arenadata


Q: Какое минимальное время реагирование на тикеты?

Если мы говорим о времени реакции, то это происходит моментально. Когда пользователь регистрирует запрос, он появляется в системе и автоматически назначается на соответствующего исполнителя. Если мы говорим о времени предоставления первого ответа, то это время, в рамках которого мы предоставляем готовое решение, консультацию или обходное решение. Мы можем запрашивать дополнительную диагностическую информацию, если предоставленной пользователем было недостаточно. Время предоставления первого ответа зависит от приоритета обращения и может быть от двух до 24 рабочих часов.

Q: 2-я линия обычно работает в собственной системе ITSM клиента, Вы работаете в сервисе DBA в таких системах? Или как то интегрируетесь с 1й линией клиентов?

Мы работаем в ITSM-системе Arenadata и можем принимать зарегистрированные обращения пользователей или через web-портал или через электронную почту.

Q: Есть у Вас ТОП самых частых вопросов и тикетов?

Есть. В каком-то виде я обозначил их в презентации на слайде с ТОП-3.

Q: При эскалации тикета до генерального директора у самого директора возникают в связи с этим какие-то обязательства, например, написать письмо с извинениями?

Такая возможность действительно есть, потому что для нас приоритетом является, в том числе исполнение SLA перед заказчиком. Генеральный директор включён в схему эскалации.

Q: Какой штат сотрудников работает в техподдержке. Какой квалификацией обладают сотрудники второй линии?

По квалификации у нас сотрудники — это Linux-администраторы со знанием и опытом работы с Postgresql, Greenplum, а также со знанием стека технологий экосистемы Hadoop. Плюс у нас в штате второй линии DBA (Database administrator, администратор баз данных) с богатым опытом работы с общеизвестными широко распространёнными продуктами, в том числе Oracle. Количество сотрудников в службе поддержки обеспечивает выполнение SLA с учётом текущей и планируемых нагрузок.

Q: Каким образом АВТОМАТИЧЕСКИ назначается ИСПОЛНИТЕЛЬ?

В нашей ITSM-системе автоматизация настроена таким образом, что обращение назначается на команду, которая поддерживает тот или иной продукт. Дальше внутри этой команды по определённому алгоритму обращение назначается на свободного исполнителя.

“Как научиться работать с продуктами Arenadata: обзор курсов”

Ольга Володько (менеджер по обучению Arenadata)
Ольга Володько
Менеджер по обучению Arenadata


Q: Курсы проводите только на текущие продукты?

Да, курсы проводятся по актуальным версиям продукта.

Q: Какой силой обладают сертификаты? Я имею ввиду, если принимать участие в других проектах?

Сертификат от вендора показывает, что специалист прошёл курс и выполнил экзаменационное задание по данному продукту.

Q: За 24 астрономических часа невозможно подготовить специалиста уровня Эксперт. Планируется ли в целях популяризации платформы создание фундаментальных трудов по ADB уровня Тома Кайта для Oracle, хотя бы в электронном виде?

Пока не планировали каких-то открытых курсов, которые азы бы затрагивали, но мы подумаем над этим.

Q: Есть ли возможность получить сертификат, сдав экзамены, без обучения?

Данная опция возможна только для партнёров Arenadata.

Q: Есть ли курсы для менеджеров по продажам решений Arenadata для партнёров?

Пока таких курсов нет, но мы рассмотрим возможность их создания.

Читайте также

все новости
ошибка! проверьте правильно ли вы заполнили поле Email

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.