Spark笔记（6）：Spark性能优化之开发调优篇

发表于 2019-07-09 | 分类于 Spark

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。

然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。

Spark的性能调优实际上是由很多部分组成的，不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以及数据情况，对Spark作业进行综合性的分析，然后进行多个方面的调节和优化，才能获得最佳性能。

阅读全文 »

Spark笔记（5）：Spark SQL

发表于 2019-06-28 | 分类于 Spark

Spark SQL所使用的数据抽象并非RDD，而是DataFrame。DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，它不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从Mysql到DataFrame的转化，并且支持SQL查询。

阅读全文 »

Spark笔记（4）：RDD编程 Scala版本

发表于 2019-06-27 | 分类于 Spark

创建

从本地文件系统/分布式文件系统HDFS加载：

1 2	scala > val path = '' scala > val lines = sc.textFile(path)

阅读全文 »

Spark笔记（3）：集群运行Spark程序实例讲解

发表于 2019-06-26 | 分类于 Spark

之前都是在spark shell上执行，当数据量达到一定程度，我们可以利用Spark的集群模式来运行，增加算力，而且本地小数据量验证成功的代码可以直接放到集群上跑。

这一小节从提交一个集群环境下的Spark Job出发，讨论了在集群运行Spark Job时的配置项，再讲到Spark基础的架构，最后讲解了一下Spark Job性能调试的经验。

阅读全文 »

Spark笔记（2）：Pair RDD与数据分区

发表于 2019-06-22 | 分类于 Spark

这一章节我们来看一下在Spark常用来进行聚合操作的Pair RDD，其实类似于字典，由key-value对构成，同样的，Pair RDD也有很多的操作接口，比如reduceByKey()、join()，下面会逐一对介绍，很多语言的语法都是相同的，这里的聚合操作就类似于SQL中的group by或者python中的groupby，所以领会起来也不难。

然后再看一下数据分区相关的内容，数据分区对分布式集群上跑数据来说及其重要，一个小的优化就会极大的降低时间成本和内存开销，这一块也是写Spark Job过程中需要重点关注的。

阅读全文 »

计算广告面面观（2）：大规模分片线性模型MLR

发表于 2019-06-21 | 分类于计算广告

点击率预估需要解决的超高维度离散特征空间模式识别的问题，它需要算法在做到可以有效发现当前数据规律的同时，还要具有足够的泛化能力去应对线上多变的user-context-content模式，所以到目前为止有许多的CTR模型被应用于实际场景中，诸如LR、DNN、Tree Model、FM/FFM，这些模型都有各自的优势，但也存在缺陷，整理如下：

阅读全文 »

计算广告面面观（1）：经久不衰的逻辑回归

发表于 2019-06-19 | 分类于计算广告

推荐和广告已成为互联网公司的标配，这两者之间有相通的地方，推荐系统被广泛的应用于计算广告中，是其不可或缺的模块，当然推荐系统可以有更多其他的场景，比如淘宝京东的商品推荐、APP Store的应用推荐，今日头条的内容推荐等等，它需要兼顾媒体和用户这样个参与者；而广告作为互联网公司的核心业务模块，需要有推荐系统的支持，它将来自广告主的广告更有效的推荐给在媒体端观看的用户，串联的是广告主、媒体、用户三个参与方，必须要这三方玩的开心。广告的永恒目标是直接或者间接地帮助公司盈利，偏重商业，而推荐更多的是改善用户体验，提高留存，偏重产品。

阅读全文 »

Redis笔记（2）

发表于 2019-06-19 | 分类于数据库

Redis 命令

Redis 命令用于在 Redis 服务上执行操作，我们使用 Redis 服务自带的 redis-cli 客户端来发送命令，最新版的 redis-cli 会有命令提示功能，比较方便。

阅读全文 »

Spark笔记（1）：RDD编程

发表于 2019-06-19 | 分类于 Spark

Spark笔记系列我们准备以《Spark大数据分析》这本书的总体框架为主线，从RDD编程的核心概念说起，到基本的RDD操作、数据IO、Spark Job，以及Spark SQL、Spark Streaming、Spark MLlib这些Spark组件，结合实例系统的进行讲解，之后会将其延伸开来，争取照顾到Spark的方方面面。

阅读全文 »

Redis笔记（1）

发表于 2019-06-19 | 分类于数据库

Redis简介

Redis ( Remote Dictionary Server ) 是由 Salvatore Sanfilippo 开发的 key-value 缓存数据库。

阅读全文 »

Free Will

人类被赋予了一种工作，那就是精神的成长