Основы работы с Apache Spark в экосистеме Arenadata Hadoop

Экскурс в мир экосистемы Arenadata Hadoop на примере Apache Spark

Курс «Основы работы с Apache Spark в экосистеме Arenadata Hadoop» поможет получить актуальные знания по основам работы с Apache Spark в экосистеме продуктов Arenadata и успешно применять их на практике.
программа курса

Преимущества курса «Основы работы с Apache Spark в экосистеме Arenadata Hadoop»

Курс единственного в мире вендора-разработчика открытого дистрибутива Hadoop.

Arenadata — единственный вендор, который на базе Apache Hadoop разрабатывает собственный дистрибутив, адаптированный для корпоративного использования и предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.

Теоретические знания и практический опыт

В рамках курса участники:

  • ознакомятся с основам языка Scala и инструментами разработки;
  • начнут разбираться в архитектуре Apache Spark и её базовых возможностях — RDD, DataFrame, DataSet;
  • смогут настраивать производительность и управлять памятью;
  • получат знания по обработке данных из различных источников (файлы, СУБД, потоки);
  • изучат дополнительные возможности обработки и алгоритмы Spark GraphX и Spark MLlib.

Знания с нуля

Слушатели курса без предварительных знаний научатся использовать современные инструменты для разработки (IDE, интерактивные), сборки (Maven, sbt) и запуска приложений Apache Spark на языке программирования Scala (Python, Java), включая различные режимы и способы размещения приложений в Arenadata Hadoop.

Сертификация

Прохождение курса «Основы работы с Apache Spark в экосистеме Arenadata Hadoop» подтверждается именным сертификатом. Чтобы получить его, слушателям необходимо успешно пройти итоговое тестирование.

Аудитория курса и начальные требования
Как проходит курс
Аудитория курса и начальные требования

Курс будет интересен разработчикам, аналитикам и архитекторам в области Data Sciencе, которые хотят получить знания и опыт по основам разработки Apache Spark на языке Scala в экосистеме продуктов Arenadata.

Как проходит курс

«Основы работы с Apache Spark в экосистеме Arenadata Hadoop» — четырёхдневный практический курс по основам Apache Spark.

Программа

Обзор экосистемы Arenadata Enterprise Data Platform (EDP).
  • Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
  • Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
Apache Spark: работа с большими данными
  • Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet.
  • Настройка окружения и запуск приложений:
    • инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
    • среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
    • способы запуска программ (client/cluster).
  • Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции
  • Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
  • Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
  • Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
  • Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
  • Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
  • MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
  • GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.
Итоговое тестирование

Даты
ближайших
курсов

  • 26-29 Февраля осталось мало мест!
  • 13-16 Мая
  • 12-15 Августа

Спасибо, что написали нам

Мы обработаем вашу заявку как можно быстрее. Ждите ответа в ближайшее время.

ошибка! проверьте правильно ли вы заполнили поля

Этот сайт использует cookie-файлы и другие технологии, чтобы помочь вам в навигации, а также предоставить лучший пользовательский опыт, анализировать использование наших продуктов и услуг, повысить качество рекламных и маркетинговых активностей.