2017年最新Kaggle 神器:XGBoost 从基础到实战
课程介绍:
XGBoost是极端梯度提升(eXtreme Gradient Boosting)的简称。XGBoost源于梯度提升框架,但是更加高效,秘诀就在于算法能并行计算、近似建树、对稀疏数据的有效处理以及内存使用优化,这使得XGBoost至少比现有梯度提升实现有至少10倍的速度提升。XGBoost可以处理回归、分类和排序等多种任务。由于它在预测性能上的强大且训练速度快,XGBoost已屡屡斩获Kaggle各大竞赛的冠军宝座。
面向人群:
数学要求低,初级Python编程基础; 想深入学习XGBoost原理及调参; 对机器学习(尤其是竞赛)感兴趣的学生或从业人员。
课程目标:
从数学原理到项目实战: 1)理解模型基本原理,掌握XGBoost参数调优 2)进击Kaggle竞赛 举一反三,更快更好学习其他机器学习模型 1)掌握机器学习模型的一般原理及XGBoost的特别之处
课程目录:
第一讲: 初识XGBoost
一、XGBoost简介 Gradient Boosting简介 XGBoost的特别之处 二、XGBoost的优势 速度 性能 三、与XGBoost的第一次亲密接触 数据科学任务的一般处理流程 XGBoost独立使用 与scikit-learn一起使用(学习率、交叉验证) 四、案例:XGBoost安装包自带数据集(蘑菇分类)
第二讲:暂别XGBoost
一、监督学习 模型 参数 目标函数(损失、正则、过拟合/欠拟合) 优化:梯度下降、常用损失函数的梯度推导 二、分类回归树 模型/参数/目标函数/优化(分裂与剪枝) 三、随机森林 Bagging/行、列随机采样 四、案例:Kaggle蘑菇分类任务
第三讲:重回XGBoost
一、Boosting 基本思想 AdaBoost 二、Gradient Boosting 基本框架 L2Boosting/AdaBoost 三、XGBoost 性能改进:规范的正则、损失函数二阶近似、建树&剪枝、缺失值处理 速度改进:稀疏特征、并行、Cache、分布式 四、案例:Kaggle的Allstate Instance Claim任务
第四讲:XGBoost实战
一、特征工程 常规数据检查流程 特征类型变换编码 特征工程一般原则 二、XGBoost参数调优 评估准则 复习交叉验证 三、XGBoost其他高级应用 多线程,并行 四、案例:Kaggle的Two Sigma Connect:Rental Listing Inquiries任务
课程大小
相关资源