所谓决策,就是在几个方案中选择一个方案,分为风险决策和非风险决策。在非风险决策中,各个方案的结果都是确定的。在风险决策中,有的方案有的结果是不确定的,即可能发生,也可能不发生。我们这里谈及的就是风险决策。
自然语言处理系列(1):词向量和语言模型
日知录(1):MacTips
机器学习算法系列(40):机器学习中的数据清洗与特征处理综述
一、背景
随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。
本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。主要内容已经在内部公开课”机器学习InAction系列”讲过,本博客的内容主要是讲座内容的提炼和总结。
机器学习算法系列(39):实例详解机器学习如何解决问题
一、前言
随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。本文主要结合实际问题,概要地介绍机器学习解决实际问题的整个流程,包括对问题建模、准备训练数据、抽取特征、训练模型和优化模型等关键环节;另外几篇则会对这些关键环节进行更深入地介绍。
机器学习算法系列(38):外卖订单量预测异常报警模型实践
机器学习算法系列(37):外卖O2O的用户画像实践
美团外卖经过3年的飞速发展,品类已经从单一的外卖扩展到了美食、夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、白领、社区以及商旅,甚至包括在KTV等娱乐场所消费的人群。随着供给和消费人群的多样化,如何在供给和用户之间做一个对接,就是用户画像的一个基础工作。所谓千人千面,画像需要刻画不同人群的消费习惯和消费偏好。
机器学习算法系列(36):GBDT算法原理深入解析
梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术[1],属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。Boosting方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。通俗地说,就是“三个臭皮匠顶个诸葛亮”的道理。梯度提升同其他boosting方法一样,通过集成(ensemble)多个弱学习器,通常是决策树,来构建最终的预测模型。
机器学习算法系列(35):使用Sklearn进行集成学习(实践)
待更新
机器学习算法系列(34):使用Sklearn进行集成学习(理论)
一、前言
很多人在竞赛(Kaggle,天池等)或工程实践中使用了集成学习(例如,RF、GTB等),确实也取得了不错的效果,在保证准确度的同时也提升了模型防止过拟合的能力。但是,我们真的用对了集成学习吗?