经典基础著作
《哈林顿在现金桌》:重复学习德州扑克的理论基础,是你成功的地基。
《cash:理论与实践》:掌握基本的理论规则
《cash:数学那点事》:扑克的基本核心就是数学,一定要掌握基础数学知识,并且在牌桌上动脑算牌!
《哈林顿在现金桌》:重复学习德州扑克的理论基础,是你成功的地基。
《cash:理论与实践》:掌握基本的理论规则
《cash:数学那点事》:扑克的基本核心就是数学,一定要掌握基础数学知识,并且在牌桌上动脑算牌!
在搜索广告的场景中,query 和 document 使用不同的单词、同一个单词的不同形态(如:缩写、时态、单复数)来表达同一个概念。如果简单的通过文本的单词匹配来计算 query 和 document 的相似性,则效果不好。
一种解决方式是:利用潜在语义模型latent semantic model (如:LSA),将 query 和 document 都降维到低维语义空间,然后根据二者在低维空间的距离来计算二者相似度。
RDD之间的依赖关系可以分为两类,即宽依赖和窄依赖,宽依赖与窄依赖的区分主要是父partition与子partition的对应关系,区分宽窄依赖主要就是看父RDD的一个partition的流向,要是流向一个的话就是窄依赖,流向多个的话就是宽依赖。。
书名 | 作者 | 出版社 | 豆瓣评分 |
---|---|---|---|
存在与时间 | [德] 马丁·海德格尔 | 生活·读书·新知三联书店 | 8.7 / 3305人评价 |
林中路 | [德] 马丁·海德格尔 | 上海译文出版社 | 8.8 / 913人评价 |
形而上学导论 | [德] 马丁·海德格尔 | 商务印书馆 | 8.6 / 565人评价 |
路标 | [德] 马丁·海德格尔 | 商务印书馆 | 8.9 (352人评价) |
海德格尔存在哲学 | [德] 马丁·海德格尔 | 九州出版社 | 8.2 (136人评价) |
人,诗意地安居 | [德] 马丁·海德格尔 | 广西师范大学出版社 | 8.1 (539人评价) |
尼采(上下) | [德] 马丁·海德格尔 | 商务印书馆 | 8.8 / 423人评价 |
荷尔德林诗的阐释 | [德] 马丁·海德格尔 | 商务印书馆 | 8.7 / 392人评价 |
面向思的事情 | [德] 马丁·海德格尔 | 商务印书馆 | 8.7 / 350人评价 |
演讲与论文集 | [德] 马丁·海德格尔 | 生活·读书·新知三联书店 | 9.1 / 310人评价 |
论真理的本质 | [德] 马丁·海德格尔 | 华夏出版社 | 9.3 / 129人评价 |
现象学之基本问题 | [德] 马丁·海德格尔 | 上海译文出版社 | 9.0 / 128人评价 |
尼采十讲 | [德] 马丁·海德格尔 | 中国言实出版社 | 7.6 / 108人评价 |
同一与差异 | [德] 马丁·海德格尔 | 商务印书馆 | 9.1 / 96人评价 |
哲学论稿 | [德]马丁·海德格尔 | 商务印书馆 | 9.3 / 90人评价 |
物的追问 | [德]马丁·海德格尔 | 上海译文出版社 | 9.1 / 85人评价 |
思的经验 | [德]马丁·海德格尔 | 人民出版社 | 8.0 / 75人评价 |
康德与形而上学疑难 | [德]马丁·海德格尔 | 上海译文出版社 | 9.4 / 75人评价 |
时间概念史导论 | [德]马丁·海德格尔 | 商务印书馆 | 9.1 / 71人评价 |
系于孤独之途 | [德]马丁·海德格尔 | 天津人民出版社 | 8.2 / 62人评价 |
荷尔德林的新神话 | [德] 马丁·海德格尔 | 华夏出版社 | 8.2 / 37人评价 |
存在论 | [德]马丁·海德格尔 | 人民出版社 | 8.3 / 37人评价 |
根据律 | [德] 马丁·海德格尔 | 商务印书馆 | 9.6 / 16人评价 |
在通向语言的途中 | [德]马丁·海德格尔 | 商务印书馆 | 9.3 / 10人评价 |
柏拉图的《智者》 | [德]马丁·海德格尔 | 商务印书馆 | 9.4 (19人评价) |
亚里士多德哲学的基本概念 | [德] 马丁·海德格尔 | 华夏出版社 | 9.1(22人评价) |
海德格尔文集 | [德] 马丁·海德格尔 | 华夏出版社 | 9.1 / 22人评价 |
形式显示的现象学 | 马丁·海德格尔 | 同济大学出版社 | 8.7 (89人评价) |
大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则,千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原理,以及相关参数的说明,同时给出各个参数的调优建议。
继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。
亲爱的朋友:
您的信让我激动,因为借助这封信,我又看到了自己十四五岁时的身影,那是在奥德亚将军独裁统治下的灰色的利马,我时而因为怀抱着总有一天要当上作家的梦想而兴奋,时而因为不知道如何迈步、如何开始把我感到的抱负付诸实施而苦闷;我感到我的抱负仿佛一道紧急命令:写出让读者眼花缭乱的故事来,如同那几位让我感到眼花缭乱的作家的作品一样,那几位我刚刚供奉在自己设置的私人神龛里的作家:福克纳、海明威、马尔罗、多斯·帕索斯、加缪、萨特。
在互联网商业模式中,如果把商业化产品比作是船体,其核心作用是作为流量与变现的载体,那么数据就是引擎,没有数据的指引,商业模式就会很低效,机器学习作为数据提高效率的机器,则充当了这艘船的船长的地位。
在竞价广告中,广告主能否获得某个广告位是由其变现能力也就是eCPM的大小来决定的。在以CPC结算即点击结算的单子中,eCPM即千次展示期望收入的计算公式为:其中:
在开发完Spark作业之后,就该为作业配置合适的资源了。spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会及其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论哪种情况,都会导致spark作业的运行效率低下,甚至根本无法运行。因此我们必须对spark作业的资源使用原理有一个清晰的认识,并知道spark作业运行过程中,有哪些资源参数是可以设置的,以及如何设置合适的参数值。