Вы научитесь решать задачи классификации и кластеризации на примере реального соревнования Prudential с платформы Kaggle. В ходе обучения вы пройдете путь от первичного анализа данных до формирования финального предсказания, которое можно отправить на проверку.
Внутри разбираются:
- Инструменты для построения предсказательных моделей: от классической логистической регрессии и метода опорных векторов (SVM) до продвинутых алгоритмов градиентного бустинга — XGBoost, CatBoost и LightGBM.
- Методики оценки качества моделей через метрики: точность, полнота, F1-score, квадратичная каппа и построение матрицы неточностей.
- Техники работы с данными: проведение EDA (исследовательского анализа), очистка наборов данных и оптимизация их потребления памяти.
- Создание ансамблей моделей: использование бэггинга (случайный лес) и стекинга для повышения точности итогового результата.
Курс ориентирован на Python-аналитиков и специалистов по работе с большими данными, которые хотят освоить прикладные методы машинного обучения на практике.