Администрирование кластера Arenadata Hadoop

Администрирование, установка и настройка кластера Hadoop

Расширенный курс «Администрирование кластера Arenadata Hadoop» поможет вам получить актуальные знания по работе с Arenadata Hadoop и успешно применять их на практике.
программа курса
Что представляет собой курс «Администрирование кластера Arenadata Hadoop»
Аудитория курса
Как проходит курс
Сертификация
Что представляет собой курс «Администрирование кластера Arenadata Hadoop»

«Администрирование кластера Arenadata Hadoop» — 5-дневный практический курс по администрированию, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе Arenadata Hadoop. В его рамках будут разобраны вопросы безопасности Kerberos, Apache Ranger, Atlas, Knox, мониторинга, репликации и резервного копирования, взаимодействия с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Аудитория курса

Курс будет интересен системным администраторам и архитекторам, разработчикам. Для успешного прохождения обучения желателен опыт работы в Unix и с текстовым редактором vi.

Как проходит курс

Существует несколько вариантов прохождения курса «Администрирование кластера Arenadata Hadoop». Занятия могут проводиться в учебных классах исполнителя, нашего учебного партнёра «Школы Больших Данных», на территории заказчика. Также предоставляется возможность прослушать курс дистанционно в онлайн-формате.

Лекторы читают курсы для двух форматов групп:

  • Корпоративные (заказчик записывает на курс команду от десяти человек);
  • Открытые (смешанные группы, в которые входят представители нескольких компаний).
Сертификация

Слушатели, успешно сдавшие экзамен по курсу «Администрирование кластера Arenadata Hadoop», станут обладателями именного сертификата. Те, кто уже обладает знаниями по решению, могут пройти сертификацию отдельно от обучения, и получат статус сертифицированного специалиста ADCS Hadoop: System Administrator.

Программа курса

Введение в Big Data и администрирование кластера Arenadata Hadoop
  • Что такое Big Data. Понимание проблемы Big Data
  • Эволюция систем распределенных вычислений Hadoop
  • Принципы формирование pipelines и Data Lake
Архитектура Arenadata Hadoop
  • Hadoop сервисы и основные компоненты. Name node. Data Node.
  • YARN сервис
  • HDFS
  • Отказоустойчивость и высокая доступность
Hadoop Distributed File System
  • Архитектура HDFS. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS.
  • Дисковые квоты
  • Поддержка компрессии
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
  • Импорт(загрузка) данных на HDFS
  • Организация Tiering для хранения данных
  • Архивное хранение HDFS
  • Локальное чтение и распределенное кэширование
Map Reduce
  • Введение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2
  • Ограничения и параметры MapReduce и YARN
  • Управление запуском пользовательских задач (jobs) под MapReduce
Дизайн кластера Hadoop
  • Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения.
  • Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке.
  • Сравнение Cloud решений для Hadoop. Amazon EMR.
  • Интеграция с другими решениями: streaming (DataFlow), NoSQL
Установка кластера
  • Установка Hadoop кластера. Выбор начальной конфигурации
  • Оптимизация уровня ядра для узлов
  • Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций
  • Установка Hadoop клиентов. Установка Hadoop кластера в облаке.
  • Автоматическая установка
  • Установка и настройка кластера Hadoop в изолированном окружении (offline).
Операции обслуживания кластера Hadoop
  • Дисковая подсистема
  • Квоты
  • Остановка, запуск, перезапуск
  • Управление узлами
  • Управление обновлениями и создание локального репозитория.
Оптимизация и управление ресурсами
  • Поиск узких мест.
  • Производительность. Файловая система. Data Node. Сетевая производительность
  • Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
  • Особенности управления ресурсами для разных дистрибутивов
Управление кластером Hadoop с использованием Apache Ambari
  • Установка Apache Ambari
  • Интерфейс управления Apache Ambari
  • Базовые операции обслуживания и управление задачами с использованием Apache Ambari
  • Диагностика и trobleshooting с Apache Ambari
  • Использование Ambari View для управления кластером
Безопасность Hadoop
  • Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива Arenadata Hadoop: Apache Ranger, Apache Atlas, Apache Knox.
  • Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа.
  • Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).
  • Best practices Arenadata Hadoop
Мониторинг и администрирование кластера Hadoop
  • Встроенные средства мониторинга Apache Ambari Metrics, Grafana
  • Логи сервисов и компонент
  • Внешние системы мониторинга: Zabbix, JMX
Troubleshooting
  • Data Node
  • Name Node
  • Восстановление Name Node
Инструментарий Hadoop экосистемы дистрибутива Arenadata Hadoop
  • Графический интерфейс сервиса Ambari Views/ HUE.
  • Использование Apache Pig для ETL преобразований.
  • Введение в Apache Hive, понятие Hive таблицы, установка Hive.
  • Импорт и экспорт SQL данных с применением Apache sqoop.
  • Работа с потоковыми данными с использованием Apache Flume.
  • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Spark, Apache Zookeeper, Apache Oozie

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Оставьте заявку на прохождение курса

Вы хотите пройти курс «Администрирование кластера Arenadata Hadoop»? В таком случае заполните форму обратной связи. Отдельное внимание обратите на поле «Комментарий»: в нём нужно указать количество предполагаемых слушателей от вашей компании.
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.