Spark笔记（3）：集群运行Spark程序实例讲解

发表于 2019-06-26 | 分类于 Spark

之前都是在spark shell上执行，当数据量达到一定程度，我们可以利用Spark的集群模式来运行，增加算力，而且本地小数据量验证成功的代码可以直接放到集群上跑。

这一小节从提交一个集群环境下的Spark Job出发，讨论了在集群运行Spark Job时的配置项，再讲到Spark基础的架构，最后讲解了一下Spark Job性能调试的经验。

Spark笔记（2）：Pair RDD与数据分区

发表于 2019-06-22 | 分类于 Spark

这一章节我们来看一下在Spark常用来进行聚合操作的Pair RDD，其实类似于字典，由key-value对构成，同样的，Pair RDD也有很多的操作接口，比如reduceByKey()、join()，下面会逐一对介绍，很多语言的语法都是相同的，这里的聚合操作就类似于SQL中的group by或者python中的groupby，所以领会起来也不难。

然后再看一下数据分区相关的内容，数据分区对分布式集群上跑数据来说及其重要，一个小的优化就会极大的降低时间成本和内存开销，这一块也是写Spark Job过程中需要重点关注的。

阅读全文 »

计算广告面面观（2）：大规模分片线性模型MLR

发表于 2019-06-21 | 分类于计算广告

点击率预估需要解决的超高维度离散特征空间模式识别的问题，它需要算法在做到可以有效发现当前数据规律的同时，还要具有足够的泛化能力去应对线上多变的user-context-content模式，所以到目前为止有许多的CTR模型被应用于实际场景中，诸如LR、DNN、Tree Model、FM/FFM，这些模型都有各自的优势，但也存在缺陷，整理如下：

阅读全文 »

计算广告面面观（1）：经久不衰的逻辑回归

发表于 2019-06-19 | 分类于计算广告

推荐和广告已成为互联网公司的标配，这两者之间有相通的地方，推荐系统被广泛的应用于计算广告中，是其不可或缺的模块，当然推荐系统可以有更多其他的场景，比如淘宝京东的商品推荐、APP Store的应用推荐，今日头条的内容推荐等等，它需要兼顾媒体和用户这样个参与者；而广告作为互联网公司的核心业务模块，需要有推荐系统的支持，它将来自广告主的广告更有效的推荐给在媒体端观看的用户，串联的是广告主、媒体、用户三个参与方，必须要这三方玩的开心。广告的永恒目标是直接或者间接地帮助公司盈利，偏重商业，而推荐更多的是改善用户体验，提高留存，偏重产品。

阅读全文 »

Redis笔记（1）

发表于 2019-06-19 | 分类于数据库

Redis简介

Redis ( Remote Dictionary Server ) 是由 Salvatore Sanfilippo 开发的 key-value 缓存数据库。

阅读全文 »

Redis笔记（2）

发表于 2019-06-19 | 分类于数据库

Redis 命令

Redis 命令用于在 Redis 服务上执行操作，我们使用 Redis 服务自带的 redis-cli 客户端来发送命令，最新版的 redis-cli 会有命令提示功能，比较方便。

阅读全文 »

Spark笔记（1）：RDD编程

发表于 2019-06-19 | 分类于 Spark

Spark笔记系列我们准备以《Spark大数据分析》这本书的总体框架为主线，从RDD编程的核心概念说起，到基本的RDD操作、数据IO、Spark Job，以及Spark SQL、Spark Streaming、Spark MLlib这些Spark组件，结合实例系统的进行讲解，之后会将其延伸开来，争取照顾到Spark的方方面面。

阅读全文 »

林中路（9）：阿玛蒂亚·森 | 身份与暴力：命运的幻象

发表于 2019-04-20 | 分类于林中路

几年前，我经过一次短暂的国外旅行回到英国（当时我任剑桥大学三一学院的院长），伦敦希思罗机场的移民局官员在极其细致地查看了我的印度护照后，提出了一个从哲学角度来看颇为棘手的问题。他注视着我在入境单上所填的家庭住址（剑桥三一学院院长公寓），问该院长——我肯定与院长有着很好的关系——是不是我的一个亲密朋友。他的问题让我犹豫了片刻，因为我不知道我自己能否称得上是我自己的朋友。思索片刻后，我得出结论，回答应该是肯定的，因为我对待自己一向不赖。并且，即使有时我说错了什么话，像我自己这样的朋友，对自己也没有任何恶意。但由于我迟疑了片刻才给出答案，移民局官员希望知道我犹豫的原因，尤其是他想了解清楚我是否不合法地居住在英国。

阅读全文 »

林中路（8）：德鲁克 | 管理自己

发表于 2019-04-14 | 分类于林中路

本文是《哈佛商业评论》创刊以来重印次数最多的文章之一。作者彼得·德鲁克，自1971年后长期在美国加利福尼亚州克莱尔蒙特研究生大学任教。该文首次发表于1999年，节选自其著作《21世纪的管理挑战》（Management Challenges for the 21st Century，HarperCollins出版社，1999）。本文有删节。

我们生活的这个时代充满着前所未有的机会：如果你有雄心，又不乏智慧，那么不管你从何处起步，你都可以沿着自己所选择的道路登上事业的顶峰。

阅读全文 »

林中路（7）：朱苏力 | 《自由秩序原理》读书笔记

发表于 2019-02-17 | 分类于林中路

意志自由理论是统治阶级的一个发明。——尼采[1]

哈耶克的进路

　
许多人曾经以不同的进路（理论的和诗意的）强调自由的重要性。如果仅仅就对促进人们充分理解自由的重要性并为之行动而言，哈耶克的所有著作也许并不比裴多菲的名章“生命诚可贵，爱情价更高，若为自由故，两者皆可抛”对于一个民族或一个普通人具有更大的作用。因为，从根本上看，自由于人之可贵并不在于它有一个重要的很能自圆其说的论证；而在于自由是人的生命的一种需求。

阅读全文 »

Free Will

人类被赋予了一种工作，那就是精神的成长