之前都是在spark shell上执行,当数据量达到一定程度,我们可以利用Spark的集群模式来运行,增加算力,而且本地小数据量验证成功的代码可以直接放到集群上跑。
这一小节从提交一个集群环境下的Spark Job出发,讨论了在集群运行Spark Job时的配置项,再讲到Spark基础的架构,最后讲解了一下Spark Job性能调试的经验。
之前都是在spark shell上执行,当数据量达到一定程度,我们可以利用Spark的集群模式来运行,增加算力,而且本地小数据量验证成功的代码可以直接放到集群上跑。
这一小节从提交一个集群环境下的Spark Job出发,讨论了在集群运行Spark Job时的配置项,再讲到Spark基础的架构,最后讲解了一下Spark Job性能调试的经验。
这一章节我们来看一下在Spark常用来进行聚合操作的Pair RDD,其实类似于字典,由key-value对构成,同样的,Pair RDD也有很多的操作接口,比如reduceByKey()、join(),下面会逐一对介绍,很多语言的语法都是相同的,这里的聚合操作就类似于SQL中的group by或者python中的groupby,所以领会起来也不难。
然后再看一下数据分区相关的内容,数据分区对分布式集群上跑数据来说及其重要,一个小的优化就会极大的降低时间成本和内存开销,这一块也是写Spark Job过程中需要重点关注的。
点击率预估需要解决的超高维度离散特征空间模式识别的问题,它需要算法在做到可以有效发现当前数据规律的同时,还要具有足够的泛化能力去应对线上多变的user-context-content模式,所以到目前为止有许多的CTR模型被应用于实际场景中,诸如LR、DNN、Tree Model、FM/FFM,这些模型都有各自的优势,但也存在缺陷,整理如下:
推荐和广告已成为互联网公司的标配,这两者之间有相通的地方,推荐系统被广泛的应用于计算广告中,是其不可或缺的模块,当然推荐系统可以有更多其他的场景,比如淘宝京东的商品推荐、APP Store的应用推荐,今日头条的内容推荐等等,它需要兼顾媒体和用户这样个参与者;而广告作为互联网公司的核心业务模块,需要有推荐系统的支持,它将来自广告主的广告更有效的推荐给在媒体端观看的用户,串联的是广告主、媒体、用户三个参与方,必须要这三方玩的开心。广告的永恒目标是直接或者间接地帮助公司盈利,偏重商业,而推荐更多的是改善用户体验,提高留存,偏重产品。
Spark笔记系列我们准备以《Spark大数据分析》这本书的总体框架为主线,从RDD编程的核心概念说起,到基本的RDD操作、数据IO、Spark Job,以及Spark SQL、Spark Streaming、Spark MLlib这些Spark组件,结合实例系统的进行讲解,之后会将其延伸开来,争取照顾到Spark的方方面面。
几年前,我经过一次短暂的国外旅行回到英国(当时我任剑桥大学三一学院的院长),伦敦希思罗机场的移民局官员在极其细致地查看了我的印度护照后,提出了一个从哲学角度来看颇为棘手的问题。他注视着我在入境单上所填的家庭住址(剑桥三一学院院长公寓),问该院长——我肯定与院长有着很好的关系——是不是我的一个亲密朋友。他的问题让我犹豫了片刻,因为我不知道我自己能否称得上是我自己的朋友。思索片刻后,我得出结论,回答应该是肯定的,因为我对待自己一向不赖。并且,即使有时我说错了什么话,像我自己这样的朋友,对自己也没有任何恶意。但由于我迟疑了片刻才给出答案,移民局官员希望知道我犹豫的原因,尤其是他想了解清楚我是否不合法地居住在英国。
本文是《哈佛商业评论》创刊以来重印次数最多的文章之一。作者彼得·德鲁克,自1971年后长期在美国加利福尼亚州克莱尔蒙特研究生大学任教。该文首次发表于1999年,节选自其著作《21世纪的管理挑战》(Management Challenges for the 21st Century,HarperCollins出版社,1999)。本文有删节。
我们生活的这个时代充满着前所未有的机会:如果你有雄心,又不乏智慧,那么不管你从何处起步,你都可以沿着自己所选择的道路登上事业的顶峰。
意志自由理论是统治阶级的一个发明。——尼采[1]
许多人曾经以不同的进路(理论的和诗意的)强调自由的重要性。如果仅仅就对促进人们充分理解自由的重要性并为之行动而言,哈耶克的所有著作也许并不比裴多菲的名章“生命诚可贵,爱情价更高,若为自由故,两者皆可抛”对于一个民族或一个普通人具有更大的作用。因为,从根本上看,自由于人之可贵并不在于它有一个重要的很能自圆其说的论证;而在于自由是人的生命的一种需求。