双塔模型的结构
下面开始讲双塔模型的结构。我们先来看用户的特征,我们知道用户ID还能从用户填写的资料和用户行为中获取很多特征,包括离散特征和连续特征。
学习本文之前,你务必把基于物品的协同过滤搞清楚,然后你才能轻松理解,其实基于用户的协同过滤,两者本质一样
我们继续学习推荐系统链路上的召回环节,本文要讲的方法叫做基于用户的协同过滤,简称user cf,它跟前面介绍的items cf有很多相似之处,
本文介绍ItemCF的一个变体,叫做Swing,在工业界很常用。Swing跟ItemCF非常像,唯一的区别就是怎么样定义物品的相似度。我们先回顾一下上节课介绍的ItemCF,ItemCF这样定义两个物品之间的相似度。
今天讲解基于物品的协同过滤,缩写是Item-Cf。Item指的是物品,就是你平时看的电影,买的商品,听得音乐,定的外卖啥的等等物品。
CF是collaboration filter的缩写,意思是协同过滤。
推荐系统算法工程师的日常工作就是改进模型和策略,目标是提升推荐系统的业务指标。所有对模型和策略的改进,都需要经过线上AB测试,用实验数据验证模型和策略是否有效。
如果大家没有用过小红书,不妨安装一个小红书app,这样方便一起学习相关背景。
打开小红书,按默认进入发现页面,这个页面展示推荐系统分发给你的内容,这个页面展示的内容叫做笔记,都是由用户自己创作的(UGC),我们把用户创作内容展示给其他用户,形成陌生人社交的社区。
《哈林顿在现金桌》:重复学习德州扑克的理论基础,是你成功的地基。
《cash:理论与实践》:掌握基本的理论规则
《cash:数学那点事》:扑克的基本核心就是数学,一定要掌握基础数学知识,并且在牌桌上动脑算牌!
在搜索广告的场景中,query 和 document 使用不同的单词、同一个单词的不同形态(如:缩写、时态、单复数)来表达同一个概念。如果简单的通过文本的单词匹配来计算 query 和 document 的相似性,则效果不好。
一种解决方式是:利用潜在语义模型latent semantic model (如:LSA),将 query 和 document 都降维到低维语义空间,然后根据二者在低维空间的距离来计算二者相似度。
RDD之间的依赖关系可以分为两类,即宽依赖和窄依赖,宽依赖与窄依赖的区分主要是父partition与子partition的对应关系,区分宽窄依赖主要就是看父RDD的一个partition的流向,要是流向一个的话就是窄依赖,流向多个的话就是宽依赖。。