一、统计学习
1.1 特点
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。赫尔伯特·西蒙曾对学习定义为:“如果一个系统能够执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过数据及统计方法提高系统性能的机器学习。
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。赫尔伯特·西蒙曾对学习定义为:“如果一个系统能够执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过数据及统计方法提高系统性能的机器学习。
期望最大值(Expectation Maximization,简称EM算法)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。其主要思想就是通过迭代来建立完整数据的对数似然函数的期望界限,然后最大化不完整数据的对数似然函数。本文将尽可能详尽地描述EM算法的原理。并结合高斯混合模型介绍EM算法是如何求解的。
在数据挖掘与机器学习中,关联规则(Association Rules)是一种较为常用的无监督学习算法,与分类、聚类等算法不同的是,这一类算法的主要目的在于发掘数据内在结构特征之间的关联性。
简单一点来说,就是在大规模的数据集中寻找一些有意义有价值的关系。有了这些关系,一方面,可以帮助我们拓宽对数据及其特征的理解;另一方面,则可以实现推荐系统的构建与应用(例如购物篮分析等)。
在对关联规则有了基本的认识后,我们对其进行进一步的细分,以日常生活中的关联性举例,在逛超市的顾客中,购买面包的人很大程度上会购买牛奶,这一类的关联性被称为简单关联规则;再例如,购买汽车遮阳板的很多顾客会在近期内购买零度玻璃水,这样的事例不仅反映了事物间的关联关系,而且还具有时间上的先后顺序,因此这一类的关联性被称为序列关联规则。
广义上的关联规则包含了简单关联和序列关联,接下来我们分别对这两块知识进行深入学习。
随着Netflix Prize推荐比赛的成功举办,近年来隐语义模型(Latent Factor MOdel,LFM)受到越来越多的关注。隐语义模型最早在文本挖掘领域被提出,用于寻找文本的隐含语义,相关的模型常见的有潜在语义分析(Latent Semantic Analysis,LSA)、LDA(Latent Dirichlet Allocation)的主题模型(Topic Model)、矩阵分解(Matrix Factorization)等等。
基于邻域的算法是推荐系统中最基本的算法,在学术界和业界都有广泛研究与应用。它分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。
本文讲述LR与SVM的异同点
原文地址:支持向量机:Duality
在之前关于 support vector 的推导中,我们提到了 dual ,这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题,而是对于所有带约束的优化问题都适用的,是优化理论中的一个重要部分。简单来说,对于任意一个带约束的优化都可以写成这样的形式:
SMO算法是一种启发式算法,其基本思想是:如果所有变量的解都满足最优化问题的KKT条件,那么这个优化问题的解就得到了,因为KKT条件是该优化问题的充分必要条件。否则,选择两个变量,固定其他变量,针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该是更接近原始二次规划问题的解,因为这会使得原始二次规划问题的目标函数值变得更小。重要的是,这时子问题可以通过解析方法求解,这样就可以大大提升整个算法的计算速度。子问题有两个变量,一个是违反KKT条件最严重的那个,另一个由约束条件自动确定。如果SMO算法将原问题不断分解为子问题并对子问题求解,进而达到求解原问题的目的。
当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积。通过使用核函数可以学习非线性支持向量机,等价于隐式地在高维的特征空间中学习线性支持向量机。此为核方法,是比支持向量机更为一般的机器学习方法。