Python для Data Science [2021] [robot dreams] [Анна Пылева]

Bot · 6 Авг 2021

Python для Data Science [2021]
robot dreams
Анна Пылева
Освойте ключевой инструмент в сфере аналитики и машинного обучения.

Спойлер: Описание курса
Наиболее эффективный способ заставить данные «говорить» ― освоить Python и его библиотеки. С этим вам поможет курс от robot_dreams. Вы научитесь парсить сайты, работать с сырыми данными, автоматизировать процесс анализа и визуализации, валидировать гипотезы и строить простые ML-модели.
Спойлер: После курса вы сможете
1. Работать с разными типами и структурами данных
2. Использовать библиотеки NumPy, Pandas, Matplotlib, Seaborn, Plotly, Sweetviz, Pandas Profiling, SciPy, Scikit-learn, CatBoost и XGBoost
3. Строить продвинутые и интерактивные визуализации
4. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
5. Проводить Exploratory Data Analysis и находить взаимосвязи в данных
6. Заполнять пробелы в данных
7. Валидировать гипотезы и анализировать результаты А/В-тестирования
8. Строить простые ML-модели
9. Начать путь в Data Science
Спойлер: Кому будет полезен курс
1. Analysts / Data Analysts / Product Analysts

Вы откроете новый подход к аналитике больших данных благодаря Python. Научитесь пользоваться библиотеками языка и с помощью простого кода проводить манипуляции над данными: парсить сайты и находить информацию, очищать данные и заполнять пробелы в массивах, строить интерактивные визуализации и на основе глубокого анализа предлагать бизнес-решения, которые точно сработают.
После курса вы сможете начать свой путь в Data Science.

2. Developers

Вы научитесь использовать Python для работы с данными. Будете проводить Exploratory Data Analysis, решать задачи прогнозирования и строить простые ML-модели. Узнаете, как находить инсайты в графиках и диаграммах, а потом на основе анализа формулировать и валидировать статистические гипотезы.
В результате ― вы освоите инструменты аналитики и заложите фундамент развития в Data Science.

Спойлер: Содержание
Модуль 1 - Введение в Data Science. Знакомство с задачами и инструментами

Разберитесь, какие задачи входят в область Data Science.
Освойте инструменты для интерактивной работы с Python [IPython, Jupyter Notebook и Google Collaboratory].
Ознакомьтесь с библиотекой NumPy и разберитесь в ее преимуществах перед обычными списками.
Научитесь создавать массивы и выполнять базовые операции над ними в NumPy.

Модуль 2 - NumPy. Линейная алгебра и статистика

Возобновите знания по линейной алгебре и статистике.
Научитесь вызывать векторное умножение, поэлементное сложение OR вычитание и другие функции в NumPy.
Научитесь вводить и выводить матрицы и массивы разной величины, находить std и mean, выводить гистограмму одномерного массива.

Модуль 3 - Pandas. Работа с табличными данными

Узнайте, какие задачи Data Science помогает решить библиотека Pandas.
Научитесь создавать, импортировать и экспортировать табличные данные в Pandas Dataframe, манипулировать данными, обновлять их значения по индексу.
Узнайте, что делать, чтобы не перегружать оперативку.

Модуль 4 - Matplotlib и Seaborn. Визуализация данных

Разберите базовые типы визуализации [line chart, scatter plot, bar plot, histogram].
Постройте базовые визуализации с помощью Python в Matplotlib и Seaborn.
Узнайте о трех способах визуализации данных из Pandas в Dataframe.

Модуль 5 - Plotly. Продвинутые и интерактивные визуализации

Разберитесь в типах продвинутых визуализаций [heatmap, box plot, pair plot, cumulative plot].
Постройте базовую интерактивную визуализацию в Plotly.
Научитесь быстро и удобно анализировать отсутствующие значения в наборе данных с помощью визуализации.

Модуль 6 - Exploratory Data Analysis и очистка данных

Научитесь быстро понимать структуру набора данных любого размера и решать проблему наличия выбросов и дубликатов в наборе данных.
Проведите Exploratory Data Analysis (EDA) с помощью Pandas, а затем ― с помощью библиотек Sweetviz и Pandas Profiling.

Модуль 7 - Поиск и устранение отсутствующих значений

Научитесь выявлять отсутствующие значения в наборе данных, отделять случайно отсутствующие значения от значений, отсутствующих ввиду системной ошибки.
Обучитесь нескольким техникам заполнения отсутствующих значений.

Модуль 8 - Статистический анализ данных

Ознакомьтесь с библиотекой SciPy.
Научитесь генерировать случайные величины разных вероятностных распределений, проводить тесты нормальности и сравнивать распределения двух случайных величин.
Изучите основы проверки статистических гипотез.
Проведите статистический тест в SciPy и проанализируйте результаты А/В-тестирования.

Модуль 9 - Задача прогнозирования. Линейная регрессия

Подготовьте данные для задачи линейной регрессии.
Ознакомьтесь с моделью многомерной линейной регрессии и библиотекой Scikit-learn.
Постройте многомерную линейную регрессию с помощью NumPy и с помощью Scikit-learn.
Научитесь оценивать качества линейной регрессии с помощью метрик MSE, RMSE, MAE.

Модуль 10 - Задача прогнозирования. Другие виды регрессий

Ознакомьтесь с моделями полиномиальной регрессии, гребневой регрессии, регрессии по методу LASSO и регрессии «эластичная сеть».
Научитесь улучшать качество линейной регрессии с помощью регуляризации.
Узнайте, что делать в случае высокого bias OR высокого variance модели.

Модуль 11 - Задача классификации. Логистическая регрессия

Ознакомьтесь с задачей бинарной классификации и моделью логистической регрессии.
Обучите модель логистической регрессии для классификации данных и оцените ее качество.
Научитесь оценивать качество модели мультиклассовой классификации.

Модуль 12 - Деревья принятия решений

Изучите принцип работы модели «Деревья принятия решений».
Определите отличия этой модели от остальных.
Обучите модель «Деревья принятия решений» для решения задач регрессии и классификации.

Модуль 13 - Ансамбли моделей

Изучите базовые техники построения ансамблей.
Научитесь строить и обучать разные типы ансамблей моделей.
Определите, какой способ ансамблирования необходимо использовать в случае high bias, а какой ― в случае high variance.

Модуль 14 - Библиотеки CatBoost и XGBoost

Ознакомьтесь с библиотеками CatBoost и XGBoost.
Узнайте, какие задачи они решают и чем отличаются друг от друга.
Научитесь улучшать XGBoost-модель за счет оптимальных гиперпараметров модели.

Модуль 15 - Кластерный анализ данных

Узнайте, как обучить модель без учителя с помощью кластеризации.
Изучите теорию и разберите на примерах, как работают методы кластеризации в моделях K-Means, DBSCAN и Agglomerative Clustering.
Найдите группы похожих экземпляров в массиве данных с помощью кластеризации.

Модуль 16 - Отбор признаков и уменьшение соразмерности данных

Изучите простые способы выбора признаков.
Выберите признаки так, чтобы оставить только самые значимые для модели.
Научитесь применять методы уменьшения соразмерности данных для ML-модели [Singular Value Decomposition, Principal Component Analysis, Linear Discriminant Analysis].

Примечание: на момент создания темы актуальная цена не известна.
Продажник

Для просмотра скрытого содержимого необходимо Войти или Зарегистрироваться.

Автор темы	Похожие темы	Форум	Дата
A	[Stepik, Future People] Python для Excel с библиотекой openpyxl (2025)	Программирование	25 Мар 2026
A	[TutorPlace, Константин Сергеев] Python для Начинающих (2026)	Программирование	21 Мар 2026
B	[Аудиокниги] Быстрый Python. Автоматизация рутинных задач за неделю [Максим Практик] + Python для абсолютно начинающих [Атохон Ганиев]	Скоро	18 Янв 2026
B	[Питер] Python для data science [Васильев Ю.]	Скоро	5 Апр 2023
B	[Питер] Основы Python для Data Science [Кеннеди Берман]	Скоро	21 Ноя 2022

Python для Data Science [2021] [robot dreams] [Анна Пылева]

Bot

Администратор