Навыки работы с кластерами Apache Hadoop

Хотите получить теоретические и практические навыки по работе с кластерами Apache Hadoop? Это можно сделать в рамках курса «Основы Hadoop», который проводится на базе нашего дистрибутива Arenadata Hadoop с открытым исходным кодом.
программа курса
Что представляет собой курс «Основы Hadoop»
Аудитория курса
Как проходит курс
Сертификация
Что представляет собой курс «Основы Hadoop»

«Основы Hadoop» — 3-дневный практический курс, слушатели которого ознакомятся с основами кластера Hadoop, научатся его устанавливать и настраивать в облаке, производить основные операции с файловой системой HDFS, запускать задачи и управлять ресурсами MapReduce и YARN, взаимодействовать с компонентами экосистемы Hadoop: Spark, Hive, sqoop, Flume.

Акцент курса сделан на практические занятия: их будет не менее 60% от общей программы. Лабораторные работы выполняются в кластерной среде Amazon Web Services с использованием дистрибутивов Arenadata Hadoop и программного обеспечения Apache Ambari.

Аудитория курса

Курс «Основы Hadoop» будет полезен системным администраторам и архитекторам, разработчикам Hadoop. Предварительный уровень подготовки:

  • Опыт работы в Unix;
  • Опыт работы с текстовым редактором vi (желателен).
Как проходит курс

Курс «Основы Hadoop» может проходить на территории заказчика, исполнителя, классах нашего учебного партнёра — «Школы Больших Данных», а также дистанционно в онлайн-формате.

Лекторы читают курсы для двух форматов групп:

  • Корпоративные (заказчик записывает на курс команду от десяти человек);
  • Открытые (смешанные группы, в которые входят представители нескольких компаний).
Сертификация

Пройдя курс «Основы Hadoop» и успешно сдав экзамен, слушатель станет обладателем именного сертификата, подтверждающего полученные знания. Ему будет присвоен статус сертифицированного специалиста ADCS Hadoop: Fundamental.

При желании, уже обладая знаниями по Arenadata Hadoop, вы можете пройти сертификацию отдельно от обучения.

Программа курса

Введение в Big Data
  • Что такое Big Data. Понимание проблемы Big Data.
  • Эволюция систем распределенных вычислений Hadoop.
  • Принципы формирование pipelines и Data Lake.
Архитектура Arenadata Hadoop
  • Hadoop сервисы и основные компоненты. Name node. Data Node. YARN сервис. Планировщик. HDFS.
  • Отказоустойчивость и высокая доступность.
Hadoop Distributed File System
  • Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии.
  • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.
  • Импорт (загрузка) данных на HDFS.
MapReduce
  • Введение в MapReduce. Компоненты MapReduce. Работа программ MapReduce.
  • ARN MapReduce Ограничения и параметры MapReduce и YARN.
  • Управление запуском пользовательских задач (jobs) под MapReduce.
Установка кластера
  • Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций.
  • Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Автоматические варианты установки. Установка и настройка кластера Hadoop в изолированном окружении (offline).
Оптимизация и управление ресурсами
  • Поиск узких мест. Производительность. Файловая система. Data Node.
  • Сетевая производительность. FIFO scheduler. Планировщик емкости (Capacity scheduler).
  • Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.
Управление кластером Hadoop с использованием Apache Ambari
  • Установка Apache Ambari. Интерфейс управления Apache Ambari.
  • Базовые операции обслуживания и управление задачами с использованием Apache Ambari.
  • Диагностика и trobleshooting с Apache Ambari.
Инструментарий Hadoop экосистемы дистрибутива Arenadata
  • Графический интерфейс сервиса Zeppelin/HUE.
  • Введение Apache Pig.
  • Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez.
  • Введение в Apache sqoop — установка и выполнение базовых операций.
  • Введение в Apache Flume — установка и выполнение базовых операций.
  • Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apach Spark, Apache Flink, Apache Zookeeper.>

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

Оставьте заявку на прохождение курса

Если вы хотите пройти курс «Основы Hadoop», оставьте заявку посредством формы обратной связи. В поле «Комментарий» укажите, какое количество слушателей от вашей компании его посетят.
ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.