Система хранения и обработки неограниченного объёма данных

Arenadata Hadoop (ADH) — экосистема сервисов для хранения, обработки и анализа больших объёмов данных любого типа. Используется как основа для построения озёр данных, в том числе в проектах, связанных с машинным обучением и искусственным интеллектом

получить предложение ДОКУМЕНТАЦИЯ

Целевые сценарии применения

Хранение и обработка больших объёмов данных любого типа:

Распределённая обработка данных
Системы управления документами и контентом
Хранение и регистрация событий
Данные датчиков, каталоги товаров
Резервное копирование других СУБД

Построение озёр и фабрик данных:

Единый центр хранения всех данных компании
Быстрое развёртывание «песочниц» для пилотных проектов и проверки статистических гипотез
Работа со всеми аналитическими инструментами в единой среде

Машинное обучение и искусственный интеллект:

Обучение моделей на основе больших данных
Распределённое машинное обучение на основе Spark
Эффективная эксплуатация моделей в SQL-среде с помощью встроенных функций MADlib

Импортозамещение и разгрузка иностранных систем:

Миграция с иностранных систем (Oracle BDA, Cloudera и др.) с минимумом рисков и сохранением всех преимуществ

Хотите больше узнать о продукте?

Да, хочу

Корпоративный дистрибутив для распределённой масштабируемой обработки данных

Arenadata Hadoop (ADH) — это корпоративный дистрибутив на основе Apache Hadoop, предназначенный для хранения, обработки и анализа больших объёмов структурированных и неструктурированных данных.

Он включает различные компоненты экосистемы Hadoop, такие как HDFS, MapReduce, YARN и другие проекты Apache.

В его состав также входят дополнительные инструменты, упрощающие развёртывание и управление и привносящие новые сценарии использования Hadoop в корпоративных средах.

Российский продукт

Свидетельство о государственной регистрации программы для ЭВМ

Номер регистрации

2019660896

Дата регистрации

15.08.2019

Включён в единый реестр российских программ для электронных вычислительных машин и баз данных

Номер реестровой записи

6355

Дата формирования

07.04.2020

Продукт Arenadata Hadoop внесен в государственный реестр сертифицированных средств защиты информации ФСТЭК России

Номер сертификата

4821

Дата формирования

13.06.2024

Поддерживает российские операционные системы:

А также операционные системы:

Техническая поддержка

Средний SLA службы технической поддержки.

Базовая

Премиальная

Расширенная

Средний SLA службы технической поддержки.

Хотите узнать больше о технической поддержке?

Да, хочу

Дополнительная экспертиза для успеха проекта

Клиентам Arenadata необязательно разбираться в том, как устроены продукты компании и как реализовать проект на их основе с минимальными рисками и затратами

Экспертиза вендора

Arenadata сопровождает заказчиков на всех этапах реализации проекта.

Наши эксперты предлагают оптимальные архитектурные и проектные решения, проводят аудиты, формируют рекомендации и консультируют по широкому кругу технических вопросов.

Экспертиза партнёров

У Arenadata более сотни партнёров, в числе которых облачные провайдеры, OEM-производители, разработчики ПО, системные интеграторы и консалтинговые организации.

Каждый из них обладает экспертизой по своему направлению и понимает, как работать с продуктами Arenadata. Наше программное обеспечение совместимо с продуктами многих вендоров, включая российские операционные системы, системы класса BI, АБС, NRT и AI.

Курсы по продуктам

В учебном центре Arenadata под руководством опытных преподавателей слушатели курсов учатся установке, настройке, конфигурированию и обслуживанию наших продуктов.

Мы предлагаем курсы:

Эксплуатация Arenadata Hadoop Управление информационной безопасностью кластера Arenadata Hadoop Основы работы с Apache Spark в экосистеме Arenadata Hadoop

Альтернатива иностранным системам

Благодаря технической зрелости и функциональности продукты нашей компании замещают решения многих иностранных вендоров

Узнать подробнее

Технические возможности

01/

Универсальность

Обработка и хранение данных любых типов и форматов как в реляционном виде, так и в виде файлов в распределённой иерархической сетевой файловой системе

02/

Отказоустойчивость

Поддерживается режим высокой доступности с автоматическим управлением для сервисов HDFS, YARN, Flink, Airflow2

03/

Система безопасности

Наличие системы безопасности Arenadata Platform Security на базе Kerberos, Ranger и Knox с возможностью интеграции со службой Active Directory или FreeIPA предприятия

04/

Пакет утилит для полной офлайн-установки и настройки

Набор инструментов для автоматической установки и настройки компонентов как на физических серверах, так и в облаке

05/

Простота управления

Оркестратор Arenadata Cluster Manager работает в автоматическом и полуавтоматическом режиме, является multi-cloud-системой и может быть развёрнут на любой имеющейся инфраструктуре

06/

Индивидуальный подход

Наши клиенты могут влиять на планы по развитию Arenadata Hadoop, а мы готовы взять на поддержку полноценный компонент продукта

07/

Нет vendor lock-in

Предоставляем тиражируемый продукт, совместимый с upstream-версиями Open Source проектов, — без привязки к поставщику

Стоимость решения

Стоимость временной/постоянной лицензии и технической поддержки на продукт зависит от количества физических ядер, типа кластера (prod, test) и рассчитывается индивидуально

запросить детали

Состав компонентов Arenadata Hadoop

ADH 3.2.4.3

ADH 3.3.6.1

ADH 3.3.6.2

ADH 3.3.6.3

ADH 3.3.6.4

Storage

HDFS

Масштабируемая и отказоустойчивая распределённая файловая система для хранения данных — основа платформы ADH

Released

ADH 3.2.4.3

3.2.4

ADH 3.3.6.1

3.3.6

ADH 3.3.6.2

3.3.6

In Development

ADH 3.3.6.3

3.3.6

Scheduled

ADH 3.3.6.4

3.3.6

3.2.4

3.3.6

Ozone

Масштабируемое распределённое объектное хранилище в экосистеме Hadoop

Releaded

ADH 3.3.6.2

1.4.1

In Development

ADH 3.3.6.3

1.4.1

Scheduled

ADH 3.3.6.4

2.0.0

1.4.1

2.0.0

Resource Management

YARN

Система управления вычислительными ресурсами и планирования задач в кластере Hadoop

Released

ADH 3.2.4.3

3.2.4

ADH 3.3.6.1

3.3.6

ADH 3.3.6.2

3.3.6

In Development

ADH 3.3.6.3

3.3.6

Scheduled

ADH 3.3.6.4

3.3.6

3.2.4

3.3.6

Coordination

ZooKeeper

Сервис для координации больших распределённых систем, широко используемый в кластерах Hadoop

Released

ADH 3.2.4.3

3.5.10

ADH 3.3.6.1

3.8.4

ADH 3.3.6.2

3.8.4

In Development

ADH 3.3.6.3

3.8.4

Scheduled

ADH 3.3.6.4

3.8.4

3.5.10

3.8.4

storage management

SSM

Инструмент для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др.

Smart Storage Manager — инструмент для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др.

Released

ADH 3.2.4.3

1.6.0

ADH 3.3.6.1

2.0.0

ADH 3.3.6.2

2.0.1

In Development

ADH 3.3.6.3

2.1.0

Scheduled

ADH 3.3.6.4

2.1.0

1.6.0

2.0.0

2.0.1

2.1.0

Data Access

Zeppelin

Веб-блокнот для поиска и визуализации, их обмена и взаимодействия с Hadoop и Spark

Released

ADH 3.2.4.3

0.11.1

ADH 3.3.6.1

0.11.1

ADH 3.3.6.2

0.11.1

In Development

ADH 3.3.6.3

0.11.2

Scheduled

ADH 3.3.6.4

0.11.2

0.11.1

0.11.2

Kyuubi

Распределённый многопользовательский SQL-шлюз для операций на корпоративных хранилищах и озёрах данных, простой и безопасный доступ к любому ресурсу кластера через единую точку входа

Released

ADH 3.2.4.3

1.8.1

ADH 3.3.6.1

1.9.0

ADH 3.3.6.2

1.9.2

In Development

ADH 3.3.6.3

1.10.1

Scheduled

ADH 3.3.6.4

1.10.1

1.8.1

1.9.0

1.9.2

1.10.1

HUE

Популярный веб-интерфейс для анализа данных: запрос, поиск и анализ имеющихся данных без потери контекста

Released

ADH 3.3.6.1

4.11.0

ADH 3.3.6.2

4.11.0

In Development

ADH 3.3.6.3

4.11.0

Scheduled

ADH 3.3.6.4

4.11.0

Data Processing

Hive

Инфраструктура хранилища данных для обобщения, запросов и анализа больших наборов данных, хранящихся в Hadoop

Released

ADH 3.2.4.3

3.1.3

ADH 3.3.6.1

4.0.0

ADH 3.3.6.2

4.0.0

In Development

ADH 3.3.6.3

4.0.1

Scheduled

ADH 3.3.6.4

4.0.1

3.1.3

4.0.0

4.0.1

Spark2

Единый механизм для масштабируемой отказоустойчивой обработки больших объёмов данных, обладающий расширенными аналитическими возможностями

Released

ADH 3.2.4.3

2.3.2

ADH 3.3.6.1

2.3.2

ADH 3.3.6.2

2.3.2

In Development

ADH 3.3.6.3

Scheduled

ADH 3.3.6.4

2.3.2

Spark3

Released

ADH 3.2.4.3

3.4.2

ADH 3.3.6.1

3.5.1

ADH 3.3.6.2

3.5.2

In Development

ADH 3.3.6.3

3.5.4

Scheduled

ADH 3.3.6.4

3.5.4

3.4.2

3.5.1

3.5.2

3.5.4

Impala

Распределённый сервис для быстрого и эффективного исполнения SQL-запросов на сверхбольших объёмах данных в экосистеме Hadoop

Released

ADH 3.2.4.3

4.4.0

ADH 3.3.6.1

4.4.0

ADH 3.3.6.2

4.4.0

In Development

ADH 3.3.6.3

4.4.0

Scheduled

ADH 3.3.6.4

4.5.0

4.4.0

4.5.0

Flink

Компонент предоставляет распределённую вычислительную среду для обработки данных в реальном времени, которая может быть легко интегрирована с пакетной обработкой

Released

ADH 3.2.4.3

1.18.1

ADH 3.3.6.1

1.19.1

ADH 3.3.6.2

1.19.1

In Development

ADH 3.3.6.3

1.20.1

Scheduled

ADH 3.3.6.4

1.20.1

1.18.1

1.19.1

1.20.1

HBase

База данных NoSQL, которая обеспечивает доступ в режиме реального времени для чтения/записи больших массивов данных, хранящихся в Hadoop

Released

ADH 3.2.4.3

2.4.17

ADH 3.3.6.1

2.5.8

ADH 3.3.6.2

2.5.10

In Development

ADH 3.3.6.3

2.5.10

Scheduled

ADH 3.3.6.4

2.6.1

2.4.17

2.5.8

2.5.10

2.6.1

Solr

Сервис, обеспечивающий распределённую индексацию, репликацию и балансировку нагрузки при запросах, автоматическое восстановление, централизованную настройку и др.

Released

ADH 3.2.4.3

8.11.2

ADH 3.3.6.1

8.11.3

ADH 3.3.6.2

8.11.3

In Development

ADH 3.3.6.3

8.11.3

Scheduled

ADH 3.3.6.4

8.11.3

8.11.2

8.11.3

Sqoop

Инструмент для передачи данных между реляционными базами данных и кластерами Hadoop

Released

ADH 3.2.4.3

1.4.7

ADH 3.3.6.1

1.4.7

ADH 3.3.6.2

1.4.7

In Development

ADH 3.3.6.3

Scheduled

ADH 3.3.6.4

1.4.7

Trino

Федеративный аналитический SQL-движок для обработки больших объёмов данных из разных источников

Released

ADH 3.3.6.2

468

In Development

ADH 3.3.6.3

468

Scheduled

ADH 3.3.6.4

468

Orchestration

Airflow2

Сервис для программного создания, планирования и мониторинга выполнения сложных процессов обработки данных (workflows)

Released

ADH 3.2.4.3

2.6.3

ADH 3.3.6.1

2.6.3

ADH 3.3.6.2

2.6.3

In Development

ADH 3.3.6.3

2.6.3

Scheduled

ADH 3.3.6.4

2.6.3

Security

Knox

Шлюз для обеспечения безопасного доступа к кластерам Hadoop и другим системам больших данных

Released

ADH 3.2.4.3

1.6.0

ADH 3.3.6.1

2.0.0

ADH 3.3.6.2

2.0.0

In Development

ADH 3.3.6.3

2.0.0

Scheduled

ADH 3.3.6.4

2.0.0

1.6.0

2.0.0

Ranger

Система безопасности, обеспечивающая контроль доступа на основе политик и авторизацию для дата-приложений и аналитики в Hadoop

Released

ADH 3.3.4.2

2.4.0

ADH 3.3.6.1

2.5.0

ADH 3.3.6.2

2.5.0

In Development

ADH 3.3.6.3

2.5.0

Scheduled

ADH 3.3.6.4

2.5.0

2.4.0

2.5.0

Kerberos

Сетевой протокол аутентификации

Released

ADH 3.3.4.2

latest

ADH 3.3.6.1

latest

ADH 3.3.6.2

latest

In Development

ADH 3.3.6.3

latest

Scheduled

ADH 3.3.6.4

latest

Cluster Management

ADCM

Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта

Released

ADH 3.2.4.3

latest

ADH 3.3.6.1

latest

ADH 3.3.6.2

latest

In Development

ADH 3.3.6.3

latest

Scheduled

ADH 3.3.6.4

latest

Released

ADH 3.2.4.3

ADH 3.3.6.1

ADH 3.3.6.2

In Development

ADH 3.3.6.3

Scheduled

ADH 3.3.6.4

Deprecated

Отличия от Hadoop

Качественная сборка совместимых компонентов

Hadoop — это множество сервисов, призванных взаимодействовать друг с другом. Дистрибутив Arenadata Hadoop включает последние и стабильные версии компонентов экосистемы больших данных Apache, они гарантированно совместимы и управляются из единого центра — Arenadata Cluster Manager.

Безопасность

Единая, интегрированная во все сервисы система безопасности Arenadata Platform Security на основе Kerberos, Ranger и Knox. Хранилище ключей и HDFS-шифрование. Поддержка единой защищённой точки доступа к сервисам. Поддержка SSL. Шифрование чувствительных данных в файлах конфигурации.

Дополнительные инструменты

Функции отказоустойчивости и аварийного восстановления, автоматизация управления и мониторинга, высокопроизводительные коннекторы для интеграции Arenadata Hadoop с другими продуктами Arenadata и внешними системами.

Документация

Для всех продуктов Arenadata создана и постоянно поддерживается в актуальном состоянии оригинальная интерактивная документация на русском и английском языках. Документация

Техническая экспертиза

Наша команда оценивает исправления багов, полученные от сообщества Hadoop, и определяет, какие из них следует включить в продукт, а также разрабатывает собственные сервисы. Все продукты Arenadata тщательным образом тестируются, а также проверяются на наличие уязвимостей и вредоносного кода.

Коннекторы

ADB Spark Connector

Специализированный коннектор для параллельного обмена данными между Apache Spark в составе Arenadata Hadoop и Arenadata DB.

Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции. Входит в пакет поставки Arenadata Hadoop.

Документация

ADQM Spark Connector

Многофункциональный коннектор с поддержкой параллельных операций чтения-записи между Apache Spark в составе Arenadata Hadoop и Arenadata QuickMarts.

Автоматически формирует схему данных, поддерживает партиционирование, операторы push-down и batch-операции. Входит в пакет поставки Arenadata Hadoop.

Документация

Хотите изучить базовые возможности Arenadata Hadoop?

Скачайте комьюнити-версию

скачать

Нам доверяют

Остались вопросы?

Если вы не нашли ответа на свой вопрос, вы можете воспользоваться формой обратной связи

хочу спросить

Чем Arenadata Hadoop отличается от Hadoop?

Под термином Hadoop, как правило, понимается не только распределённая файловая система HDFS и менеджер ресурсов YARN, но и целый набор инструментов для работы с большими данными. Собрать такой набор инструментов, чтобы они работали вместе, и обеспечивать их эксплуатацию — сложная инженерная задача. Однако c использованием Arenadata Cluster Manager (ADCM) это становится легко. Благодаря ADCM вы практически сразу получите сборку Arenadata Hadoop (ADH), которая состоит из самых последних и стабильных версий продуктов фонда Apache — экосистемы больших данных: HDFS, YARN, Ozone, HBase, Kyuubi, HUE, Spark, Hive, Flink, Impala, Trino. Кроме того, в отличие от Hadoop, ADH имеет систему безопасности на основе Kerberos, Rangеr и Knox c возможностью интеграции со службой Active Directory предприятия. И, конечно, в составе продукта Arenadata есть система мониторинга для непрерывного отслеживания состояния компонентов ADH.

Какие отличия в редакциях Community и Enterprise?

Различия в компонентах:

Компоненты	Enterprise Edition	Community Edition
HDFS (NameNode/DataNode/HTTPFS)	+	+
Journal Nodes	+	–
ZKFC	+	–
Ozone	+	–
Smart Storage Manager	+	–
YARN (Resource Manager/Node Manager)	+	+
Hive (Metastore/Server/Thrift) + + Impala + +	+	+
HBase (Master/Region Server/Thrift Server)	+	+
Phoenix Query Server	+	+
Tez/Tez UI	+	+
Sqoop	+	+
Spark/History Server	+	+
Solr Server	+	+
Airflow	+	+
Flink (JobMaster/TaskMaster)	+	+
Zeppelin	+	+
Zookeeper	+	+
Impala	+	+
Clients (HDFS, YARN, Hive, Tez, HBase, Spark, Sqoop, Impala)	+	+
Ranger Admin	+	–
Ranger UserSync	+	–
Ranger Embedded Services (Zookeeper, Solr)	+	–
Knox	+	–
Kerberos	+	–
ADB-Spark Connector	+	–
ADQM-Spark Connector	+	–

Различия в функционале редакций Hadoop:

Возможности	Enterprise Edition	Community Edition
Развертывание сервисов и конфигурация	+	+
Наличие сервисов и системных метрик	+	+
Erasure Coding	+	+
Работа в отказоустойчивом режиме YARN NodeManager, HBase Master, Hive Metastore	+	–
Множественные NameNodes	+	–
Работа в отказоустойчивом режиме NameNode (Active/Standby)	+	–
Автоматическое переключение NameNode при аварии	+	–
Автоматизированное многотемпературное хранение	+	–
Кросс-кластерная репликация данных с низкой нагрузкой на источник (CDC style)	+	–
Kerberos конфигурация (AD/MIT/FreeIPA)	+	–
Поддержка сервисных политик доступа к данным (Ranger)	+	–
Аудит обращений к данным (Ranger)	+	–
Хранилище ключей и HDFS шифрование	+	–
Поддержка единой защищенной точки доступа к сервисам	+	–
Поддержка SSL	+	–
Поддержка российских ОС	+	–

В случае приобретения enterprise-редакции ПО у заказчиков Arenadata есть возможность
воспользоваться дополнительными консалтинговыми услугами.

Кроме того, заказчикам enterprise-редакции мы обеспечиваем корпоративную техническую
поддержку в режиме 24/7 в соответствии с согласованными стандартами SLA.

Какие возможности по масштабированию есть у Arenadata Hadoop?

Поддержка работы в кластере из множества серверов.
Линейная горизонтальная масштабируемость.
Возможность вынести аналитическую нагрузку за пределы основного кластера благодаря Impala.

Благодаря чему обеспечивается отказоустойчивость?

Нативная отказоустойчивость без доработок ПО.
Наличие поддержки автоматического распределения данных между серверами кластера и возможность балансировки нагрузки на серверах кластера.

Какие средства управления и мониторинга есть в Arenadata Hadoop?

Инструмент управления сервисами в кластере.
Централизованное управление кластером с возможностью выполнения следующих действий: запуск, остановка и переконфигурация сервисов в рамках всего кластера, управление ресурсами.
Инструментарий пошаговой установки сервисов на любое количество хостов.
Настройка прав доступа к строкам и столбцам таблиц баз данных, отдельным файлам распределённой иерархической файловой системы, в том числе с использованием доменной авторизации по протоколу LDAP.
Пакет утилит для полной установки без доступа к интернету.
Установка, настройка и обновление кластеров Arendata Hadoop осуществляется с помощью универсального оркестратора гибридного ландшафта Arenadata Cluster Manager

Как реплицируются данные по серверам?

Распределённая файловая система HDFS предназначена для надёжного хранения очень больших файлов. Каждый файл разбивается на последовательность блоков одинакового размера. Блоки файла реплицируются для обеспечения отказоустойчивости на различные сервера.

Какие форматы хранения поддерживаются?

Концепция «Озера данных», которую реализуют с использованием Hadoop, предполагает загрузку данных в кластер на начальном этапе с последующей обработкой. Поэтому в широком смысле поддерживаются все форматы. Однако если вы планируете реализовывать аналитическое хранилище и использовать такие инструменты, как Spark, Hive, Impala, то для них наиболее предпочтительно выбирать колоночные форматы хранения с большим количеством реализованных механизмов оптимизации — это parquet и orc.

Какой максимальный объём данных можно хранить в Hadoop?

Сейчас о максимальном объёме можно говорить только теоретически, так как его достаточно трудно достичь и опытным путём определить верхнюю границу. В открытых источниках есть примеры кластеров, которые содержат более 100 Пб данных в HDFS. По заявлению компании LinkedIn, её кластер имеет более 10 000 узлов и хранит более 500 Пб.

Поддерживается ли сжатие?

Да, поддерживается. Более того, сжатие рекомендуется использовать, так как это не только экономит дисковое пространство, но и повышает производительность в аналитической обработке данных.

Есть ли поддержка транзакции в Arenadata Hadoop?

В состав ADH входит распределённая система выполнения SQL-запросов Hive, которая поддерживает требования к транзакционной системе (ACID).

ADH поддерживает Apache Iceberg — открытый формат таблиц для больших хранилищ данных, который обеспечивает ACID-транзакции и предоставляет другие возможности работы с данными. Таблицы Iceberg работают аналогично SQL-таблицам и могут интегрироваться с вычислительными движками, такими как Spark, Hive, Impala и т.д.

Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.

Что можно использовать для машинного обучения?

Для машинного обучения наиболее подходящим решением является библиотека MLlib в составе Spark.

Что можно использовать для обработки графов?

Для выполнения графовой аналитики на больших данных подходящим решением является библиотека GraphX в составе Spark.

Что можно использовать для MLOps?

Строго говоря, MLOps — это набор практик машинного обучения, который позволяет специалистам по обработке данных, исследователям, инженерам данных и другим ИТ-командам сотрудничать, в частности увеличивать темпы разработки и развёртывания моделей посредством мониторинга, проверки и управления моделями машинного обучения. Также под этим термином часто понимают применение какого-либо программного обеспечения для разработки и эксплуатации моделей машинного обучения.

Arenadata Hadoop для целей MLOps можно использовать в нескольких вариантах. Первое — как источник данных на этапах их сбора и подготовки, моделирования и обучения. Второе — как среду вычисления (инференс) для Data Intensive, офлайн-моделей. И последнее — в составе Arenadata Hadoop есть Airflow, наиболее популярное средство построения конвейеров машинного обучения и эксплуатации.

Какие технические характеристики у Arenadata Hadoop?

Основными техническими характеристиками кластера Arenadata Hadoop являются:

количество дискового пространства, отведённого под файловую систему HDFS (определяется в терабайтах);
количество вычислительных ресурсов, выделенных для менеджера YARN (определяется в ядрах процессора и оперативной памяти).

Эти показатели зависят от количества узлов-обработчиков (Worker Node), которые входят в кластер, и наполнения отдельного, типового обработчика. Как правило, обработчик (Worker Node) — это отдельный, так называемый стоечный commodity-сервер с дюжиной и более дисков для HDFS в составе.

Какие требования к оборудованию?

Принцип построения Hadoop предполагает использование недорогих и однотипных серверов с большим количеством HDD-накопителей в режиме JBOD (подключение непосредственно в сервер). Это позволяет обеспечивать хранение более 50 Тб на одном сервере при низкой стоимости оборудования.

Где я могу найти документацию по Hadoop?

Официальная документация по продукту ADH доступна на портале: https://docs.arenadata.io/ru/ADH/current/introduction/intro.html

Вы также можете ознакомиться с документацией к Apache Hadoop: https://hadoop.apache.org/docs/current/

Ждём ваши вопросы!

Задать вопрос