这篇文章翻译自Complete Guide to Parameter Tuning in XGBoost (with codes in Python),它详细介绍了XGBoost中参数的含义,然后在一个实例中对参数调整进行了实验。
kaggle系列(3):Rental Listing Inquiries(二):XGBoost
上一节我们对数据集进行了初步的探索,并将其可视化,对数据有了初步的了解。这样我们有了之前数据探索的基础之后,就有了对其建模的基础feature,结合目标变量,即可进行模型训练了。我们使用交叉验证的方法来判断线下的实验结果,也就是把训练集分成两部分,一部分是训练集,用来训练分类器,另一部分是验证集,用来计算损失评估模型的好坏。
kaggle系列(2):Rental Listing Inquiries(一):EDA
一、比赛简介
1.1 比赛目的
这个kaggle比赛是由Sigma和RentHop两家公司共同推出的比赛。比赛的数据来自于RentHop的租房信息,大概的思路就是根据出租房的一系列特征,比如地理位置(经纬度、街道地址)、发布时间、房间设施(浴室、卧室数量)、描述信息、发布的图片信息、价格等来预测消费者对出租房的喜好程度。
这样可以帮助RentHop公司更好地处理欺诈事件,让房主和中介更加理解租客的需求与偏好,做出更加合理的决策。
数据分析系列(3):数据倾斜
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。
数据分析系列(2):卡方检验
$\chi^2$检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法,,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
数据分析系列(1):SQL查询执行顺序
SQL语句有一个让大部分人都感到困惑的特性,就是:SQL语句的执行顺序跟其语句的语法顺序并不一致。SQL语句的执行顺序是:
Kaggle系列(1):Kaggle 数据挖掘比赛经验分享
转载自知乎:Kaggle 数据挖掘比赛经验分享 作者是陈成龙,目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。
简介
Kaggle 于 2010 年创立,专注于开展数据科学、机器学习相关的竞赛,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。
机器学习算法系列(19):机器学习性能评价指标
一、分类问题的评价指标
1.1 混淆矩阵
对一个二分类问题,将实例分成正类(postive)或者负类(negative),但在实际分类中,会出现以下四种情况:
- True Positive(真正,TP):将正类预测为正类数
- True Negative(真负,TN):将负类预测为负类数
- False Positive(假正,FP):将负类预测为正类数
- False Negative(假负,FN):将正类预测为负类数
深度学习系列(12):pytorch实现卷积神经网络
1.载入模块
|
|
其中torchvision.transforms 用于数据预处理,torchvision.datasets加载内置数据集
深度学习系列(11):神经网络防止过拟合的方法
过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好,而在测试集上的效果很差,模型的泛化能力比较弱。