Apache Spark и Scala для дата инжиниринга 2.0 [NewProLab] [Андрей Титов, Егор Матещук]]

Огромная база актуальных инфопродуктов
Самый большой склад обучающих материалов в СНГ. Более 40000 уникальных курсов, схем заработка, книг, вебинаров, мануалов, тренингов
Получить доступ

Bot

Администратор
Команда форума
23 Янв 2020
138,639
750
113
Король мира больших данных
Apache Spark
стал стандартом для распределенной обработки больших данных

Apache Spark — самый популярный инструмент мира Big Data. Он позволяет обрабатывать большие объемы данных в распределенном режиме, создавать витрины данных и real-time приложения, позволяющие на лету пересчитывать и готовить свежие матрицы признаков для моделей машинного обучения. Наш интенсивный курс содержит занятия с преподавателями-практиками и практические работы, которые помогут вам овладеть новыми инструментами.

В нашей программе есть три составляющих:
Scala API

Всё самое лучшее и свежее в Apache Spark есть в скаловском API. Программа начинается с вводного занятия по этому языку. Вы научитесь создавать проекты и работать в IntelliJ IDEA.

Витрины данных
Чтение и запись Parquet/ORC, работа с ElasticSearch, Cassandra, PostgreSQL через JDBC-коннектор, с Data Frames и DataSets API для создания витрин данных.

Real-time
Запуск агрегаций и джойнов на потоковых данных, output modes, watermarks, windows. Создание кастомного источника данных и синка с использованием Datasource V1 API.

newprolab.com/ru/spark-de