Python для Data Science [2021] [robot dreams] [Анна Пылева]

Огромная база актуальных инфопродуктов
Самый большой склад обучающих материалов в СНГ. Более 40000 уникальных курсов, схем заработка, книг, вебинаров, мануалов, тренингов
Получить доступ

Bot

Администратор
Команда форума
23 Янв 2020
138,643
749
113
Python для Data Science [2021]
robot dreams
Анна Пылева
Освойте ключевой инструмент в сфере аналитики и машинного обучения.


Спойлер: Описание курса
Наиболее эффективный способ заставить данные «говорить» ― освоить Python и его библиотеки. С этим вам поможет курс от robot_dreams. Вы научитесь парсить сайты, работать с сырыми данными, автоматизировать процесс анализа и визуализации, валидировать гипотезы и строить простые ML-модели.
Спойлер: После курса вы сможете
1. Работать с разными типами и структурами данных
2. Использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
3. Строить продвинутые и интерактивные визуализации
4. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
5. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
6. Заполнять пробелы в данных
7. Валидировать гипотезы и анализировать результаты А/В-тестирования
8. Строить простые ML-модели
9. Начать путь в Data Science
Спойлер: Кому будет полезен курс
1. Analysts / Data Analysts / Product Analysts
  • Вы откроете новый подход к аналитике больших данных благодаря Python. Научитесь пользоваться библиотеками языка и с помощью простого кода проводить манипуляции над данными: парсить сайты и находить информацию, очищать данные и заполнять пробелы в массивах, строить интерактивные визуализации и на основе глубокого анализа предлагать бизнес-решения, которые точно сработают.
  • После курса вы сможете начать свой путь в Data Science.
2. Developers
  • Вы научитесь использовать Python для работы с данными. Будете проводить Exploratory Data Analysis, решать задачи прогнозирования и строить простые ML-модели. Узнаете, как находить инсайты в графиках и диаграммах, а потом на основе анализа формулировать и валидировать статистические гипотезы.
  • В результате ― вы освоите инструменты аналитики и заложите фундамент развития в Data Science.
Спойлер: Содержание
Модуль 1 - Введение в Data Science. Знакомство с задачами и инструментами
  • Разберитесь, какие задачи входят в область Data Science.
  • Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory].
  • Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками.
  • Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.
Модуль 2 - NumPy. Линейная алгебра и статистика
  • Возобновите знания по линейной алгебре и статистике.
  • Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy.
  • Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.
Модуль 3 - Pandas. Работа с табличными данными
  • Узнайте, какие задачи Data Science помогает решить библиотека Pandas.
  • Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу.
  • Узнайте, что делать, чтобы не перегружать оперативку.
Модуль 4 - Matplotlib и Seaborn. Визуализация данных
  • Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram].
  • Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn.
  • Узнайте о трех способах визуализации данных из Pandas в Dataframe.
Модуль 5 - Plotly. Продвинутые и интерактивные визуализации
  • Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot].
  • Постройте базовую интерактивную визуализацию в Plotly.
  • Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.
Модуль 6 - Exploratory Data Analysis и очистка данных
  • Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных.
  • Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.
Модуль 7 - Поиск и устранение отсутствующих значений
  • Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки.
  • Обучитесь нескольким техникам заполнения отсутствующих значений.
Модуль 8 - Статистический анализ данных
  • Ознакомьтесь с библиотекой SciPy.
  • Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин.
  • Изучите основы проверки статистических гипотез.
  • Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.
Модуль 9 - Задача прогнозирования. Линейная регрессия
  • Подготовьте данные для задачи линейной регрессии.
  • Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn.
  • Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn.
  • Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.
Модуль 10 - Задача прогнозирования. Другие виды регрессий
  • Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть».
  • Научитесь улучшать качество линейной регрессии с помощью регуляризации.
  • Узнайте, что делать в случае высокого bias OR высокого variance модели.
Модуль 11 - Задача классификации. Логистическая регрессия
  • Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии.
  • Обучите модель логистической регрессии для классификации данных и оцените ее качество.
  • Научитесь оценивать качество модели мультиклассовой классификации.
Модуль 12 - Деревья принятия решений
  • Изучите принцип работы модели «Деревья принятия решений».
  • Определите отличия этой модели от остальных.
  • Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.
Модуль 13 - Ансамбли моделей
  • Изучите базовые техники построения ансамблей.
  • Научитесь строить и обучать разные типы ансамблей моделей.
  • Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.
Модуль 14 - Библиотеки CatBoost и XGBoost
  • Ознакомьтесь с библиотеками CatBoost и XGBoost.
  • Узнайте, какие задачи они решают и чем отличаются друг от друга.
  • Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.
Модуль 15 - Кластерный анализ данных
  • Узнайте, как обучить модель без учителя с помощью кластеризации.
  • Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering.
  • Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.
Модуль 16 - Отбор признаков и уменьшение соразмерности данных
  • Изучите простые способы выбора признаков.
  • Выберите признаки так, чтобы оставить только самые значимые для модели.
  • Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].

Примечание: на момент создания темы актуальная цена не известна.
Продажник