近似非常不错
一、数据集与任务介绍
MNIST数据集是一个基本的手写字体识别数据集,该数据原本是包含60000个训练图像和10000个测试图像,但这里我们事先对数据进行了划分,从训练样本中抽取10000个数据作为验证集,所以处理后的数据集包含50000个训练样本(training data)、10000个验证样本(validation data)10000个测试样本(test data),都是28乘以28的分辨率。
近似非常不错
MNIST数据集是一个基本的手写字体识别数据集,该数据原本是包含60000个训练图像和10000个测试图像,但这里我们事先对数据进行了划分,从训练样本中抽取10000个数据作为验证集,所以处理后的数据集包含50000个训练样本(training data)、10000个验证样本(validation data)10000个测试样本(test data),都是28乘以28的分辨率。
2016人大考研总算是落下了帷幕,大半年来的努力终于落定。在北京的春天里,窗外飘着杨絮,在图书馆的沙发上码下这难忘时光的的锤炼与凝结。
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。赫尔伯特·西蒙曾对学习定义为:“如果一个系统能够执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过数据及统计方法提高系统性能的机器学习。
期望最大值(Expectation Maximization,简称EM算法)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。其主要思想就是通过迭代来建立完整数据的对数似然函数的期望界限,然后最大化不完整数据的对数似然函数。本文将尽可能详尽地描述EM算法的原理。并结合高斯混合模型介绍EM算法是如何求解的。
在数据挖掘与机器学习中,关联规则(Association Rules)是一种较为常用的无监督学习算法,与分类、聚类等算法不同的是,这一类算法的主要目的在于发掘数据内在结构特征之间的关联性。
简单一点来说,就是在大规模的数据集中寻找一些有意义有价值的关系。有了这些关系,一方面,可以帮助我们拓宽对数据及其特征的理解;另一方面,则可以实现推荐系统的构建与应用(例如购物篮分析等)。
在对关联规则有了基本的认识后,我们对其进行进一步的细分,以日常生活中的关联性举例,在逛超市的顾客中,购买面包的人很大程度上会购买牛奶,这一类的关联性被称为简单关联规则;再例如,购买汽车遮阳板的很多顾客会在近期内购买零度玻璃水,这样的事例不仅反映了事物间的关联关系,而且还具有时间上的先后顺序,因此这一类的关联性被称为序列关联规则。
广义上的关联规则包含了简单关联和序列关联,接下来我们分别对这两块知识进行深入学习。
随着Netflix Prize推荐比赛的成功举办,近年来隐语义模型(Latent Factor MOdel,LFM)受到越来越多的关注。隐语义模型最早在文本挖掘领域被提出,用于寻找文本的隐含语义,相关的模型常见的有潜在语义分析(Latent Semantic Analysis,LSA)、LDA(Latent Dirichlet Allocation)的主题模型(Topic Model)、矩阵分解(Matrix Factorization)等等。
基于邻域的算法是推荐系统中最基本的算法,在学术界和业界都有广泛研究与应用。它分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。
本文讲述LR与SVM的异同点