数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。
数据分析系列(2):卡方检验
$\chi^2$检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法,,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
数据分析系列(1):SQL查询执行顺序
SQL语句有一个让大部分人都感到困惑的特性,就是:SQL语句的执行顺序跟其语句的语法顺序并不一致。SQL语句的执行顺序是:
Kaggle系列(1):Kaggle 数据挖掘比赛经验分享
转载自知乎:Kaggle 数据挖掘比赛经验分享 作者是陈成龙,目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。
简介
Kaggle 于 2010 年创立,专注于开展数据科学、机器学习相关的竞赛,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。
机器学习算法系列(19):机器学习性能评价指标
一、分类问题的评价指标
1.1 混淆矩阵
对一个二分类问题,将实例分成正类(postive)或者负类(negative),但在实际分类中,会出现以下四种情况:
- True Positive(真正,TP):将正类预测为正类数
- True Negative(真负,TN):将负类预测为负类数
- False Positive(假正,FP):将负类预测为正类数
- False Negative(假负,FN):将正类预测为负类数
深度学习系列(12):pytorch实现卷积神经网络
1.载入模块
|
|
其中torchvision.transforms 用于数据预处理,torchvision.datasets加载内置数据集
深度学习系列(11):神经网络防止过拟合的方法
过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好,而在测试集上的效果很差,模型的泛化能力比较弱。
深度学习系列(10):DMC—卷积神经网络分享
深度学习系列(9):Batch Normalization
batch normalization(Ioffe and Szegedy, 2015) 是优化深度神经网络中最激动人心的创新之一。实际上它并不是一个优化算法,而是一个自适应的重新参数化 的方法,试图解决训练非常深层模型的困难。
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
机器学习领域有一个很重要的假设:iid独立同分布假设,就是假设训练数据和测试数据满足相同分布,这是通过训练数据训练出来的模型能够在测试集上获得好的效果的一个基本保证。Batch Normalization就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。
深度学习系列(8):激活函数
深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的activation function,传入到下一层神经元;再经过该层神经元的activate function,继续往下传递,如此循环往复,直到输出层。其中的激活函数的主要作用是提供网络的非线性建模能力,使得神经网络有足够的capacity来抓取复杂的pattern,在各个领域取得state-of-the-art的结果。