当训练数据近似线性可分时,通过软间隔最大化学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机。
机器学习算法系列(12):SVM(1)—线性可分支持向量机
当训练数据线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机。
一般地,当训练数据集线性可分时,存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个。线性可分支持向量机利用间隔最大化求分离超平面,解是唯一的。也就是它不仅将正负实例点分开,而且对最难分的实例点(离分离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。
机器学习算法系列(11):聚类(4)—密度最大值聚类
五、密度最大值聚类
5.1 引言
2014年6月,Alex Rodriguez和Alessandro Laio在$Science$上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,提供了一种简洁而优美的聚类算法,是一种基于密度的聚类方法,可以识别各种形状的类簇,并且参数很容易确定。它克服了DBSCAN中不同类的密度差别大、邻域范围难以设定的问题,鲁棒性强。
在文章中提出的聚类方法DPCA算法(Desity Peaks Clustering Algorithm)基于这样一种假设:对于一个数据集,聚类中心被一些低局部密度的数据点包围,而且这些低局部密度点距离其他有高局部密度的点的距离都比较大。
机器学习算法系列(11):聚类(3)—DBSCAN
四、DBSCAN算法
4.1 密度聚类方法
密度聚类方法的指导思想是,只要样本点的密度大于某阈值,则将该样本添加到最近的簇中。这类算法能克服基于距离的算法只能发现“类圆”(凸)的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。但计算密度单元的计算复杂度大,需要建立空间索引来降低计算量。
其代表算法为DBSCAN算法和密度最大值算法。
机器学习算法系列(11):聚类(2)—Kmeans
三、K-Means算法
3.1 原理
K-Means算法属于基于划分的聚类算法,对N 维欧氏空间中的点进行聚类,是一种最简单的无监督学习方法。它通过迭代来实现,其基本思想是:每次确定K个类别中心,然后将各个结点归属到与之距离最近的中心点所在的Cluster,然后将类别中心更新为属于各Cluster的所有样本的均值,反复迭代,直至类别中心不再发生变化或变化小于某阈值。
机器学习算法系列(11):聚类(1)—简介
一、引言
聚类(Clustering)算法就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。聚类是一种无监督算法。
给定一个有$N$个对象的数据集,构造数据的$K$个簇,$k≤n$,同时满足,每个簇至少包含一个对象,每一个对象属于且仅属于一个簇,将满足上述条件的$K$个簇称作一个合理划分。它的主要思想是对于给定的类别数目$K$,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好。
机器学习算法系列(10):朴素贝叶斯
朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征条件假设的分类方法。
对于给定的训练数据集,首先基于特征条件独立假设学习输入、输出的联合分布;然后基于此模型,对给定的输入$x$,利用贝叶斯定理求出后验概率最大的输出$y$。
朴素贝叶斯实现简单,学习与预测的效率都很高,是一种常用的方法。
机器学习算法系列(9):感知机
Introduction
感知机(perceptron)是二类分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1二值。
感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,导入基于误分类的损失函数,利用梯度下降对损失函数进行极小化,求得感知机模型,属于判别模型
感知机学习算法简单易于实现,分为原始形式和对偶形式。1957年由Rosenblatt提出,是神经网络和支持向量机的基础
笑忘录(7):观影清单
个人观影清单
机器学习算法系列(8):XgBoost
一、XGBoost简介
在数据建模中,经常采用Boosting方法通过将成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的预测模型。这个模型会不断地迭代,每次迭代就生成一颗新的树。但在数据集较复杂的时候,可能需要几千次迭代运算,这将造成巨大的计算瓶颈。