kaggle系列（4）：Rental Listing Inquiries（三）：XGBoost调参指南

发表于 2017-06-14 | 分类于 Kaggle

这篇文章翻译自Complete Guide to Parameter Tuning in XGBoost (with codes in Python)，它详细介绍了XGBoost中参数的含义，然后在一个实例中对参数调整进行了实验。

kaggle系列（3）：Rental Listing Inquiries（二）：XGBoost

发表于 2017-06-13 | 分类于 Kaggle

上一节我们对数据集进行了初步的探索，并将其可视化，对数据有了初步的了解。这样我们有了之前数据探索的基础之后，就有了对其建模的基础feature，结合目标变量，即可进行模型训练了。我们使用交叉验证的方法来判断线下的实验结果，也就是把训练集分成两部分，一部分是训练集，用来训练分类器，另一部分是验证集，用来计算损失评估模型的好坏。

阅读全文 »

kaggle系列（2）：Rental Listing Inquiries（一）：EDA

发表于 2017-06-13 | 分类于 Kaggle

一、比赛简介

1.1 比赛目的

这个kaggle比赛是由Sigma和RentHop两家公司共同推出的比赛。比赛的数据来自于RentHop的租房信息，大概的思路就是根据出租房的一系列特征，比如地理位置（经纬度、街道地址）、发布时间、房间设施（浴室、卧室数量）、描述信息、发布的图片信息、价格等来预测消费者对出租房的喜好程度。

这样可以帮助RentHop公司更好地处理欺诈事件，让房主和中介更加理解租客的需求与偏好，做出更加合理的决策。

阅读全文 »

数据分析系列（3）：数据倾斜

发表于 2017-06-11 | 分类于数据分析

数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。

阅读全文 »

数据分析系列（2）：卡方检验

发表于 2017-06-10 | 分类于数据分析

$\chi^2$检验（chi-square test）或称卡方检验，是一种用途较广的假设检验方法，，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

阅读全文 »

数据分析系列（1）：SQL查询执行顺序

发表于 2017-06-09 | 分类于数据分析

SQL语句有一个让大部分人都感到困惑的特性，就是：SQL语句的执行顺序跟其语句的语法顺序并不一致。SQL语句的执行顺序是：

阅读全文 »

Kaggle系列（1）：Kaggle 数据挖掘比赛经验分享

发表于 2017-06-05 | 分类于 Kaggle

转载自知乎：Kaggle 数据挖掘比赛经验分享作者是陈成龙，目前在腾讯社交与效果广告部任职数据挖掘工程师，负责 Lookalike 相似人群扩展相关工作。曾在 Kaggle 数据科学家排行榜排名全球第十，国内第一。

简介

Kaggle 于 2010 年创立，专注于开展数据科学、机器学习相关的竞赛，是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始，陆续参加了多场 Kaggle上面举办的比赛，相继获得了 CrowdFlower 搜索相关性比赛第一名（1326支队伍）和 HomeDepot 商品搜索相关性比赛第三名（2125支队伍），曾在 Kaggle 数据科学家排行榜排名全球第十，国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师，负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。

阅读全文 »

机器学习算法系列（19）：机器学习性能评价指标

发表于 2017-05-24 | 分类于机器学习

一、分类问题的评价指标

1.1 混淆矩阵

对一个二分类问题，将实例分成正类（postive）或者负类（negative），但在实际分类中，会出现以下四种情况：

True Positive（真正，TP）：将正类预测为正类数
True Negative（真负，TN）：将负类预测为负类数
False Positive（假正，FP）：将负类预测为正类数
False Negative（假负，FN）：将正类预测为负类数

阅读全文 »

深度学习系列（12）：pytorch实现卷积神经网络

发表于 2017-05-21 | 分类于深度学习

1.载入模块

import torch 
import torch.nn as nn
import torchvision.datasets as dsets
import torchvision.transforms as transforms
from torch.autograd import Variable

其中torchvision.transforms 用于数据预处理，torchvision.datasets加载内置数据集

阅读全文 »

深度学习系列（11）：神经网络防止过拟合的方法

发表于 2017-05-20 | 分类于深度学习

过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好，而在测试集上的效果很差，模型的泛化能力比较弱。

阅读全文 »

Free Will

人类被赋予了一种工作，那就是精神的成长