回顾ItemCF
本文介绍ItemCF的一个变体,叫做Swing,在工业界很常用。Swing跟ItemCF非常像,唯一的区别就是怎么样定义物品的相似度。我们先回顾一下上节课介绍的ItemCF,ItemCF这样定义两个物品之间的相似度。
如果喜欢物品$I_1$和$I_2$的用户有很大的重叠,那么判定物品$I_1$与$I_2$相似,Item cf基于这样的假设,如果用户喜欢物品$I_1$,而且物品$I_1$与$I_2$相似,那么用户很可能也喜欢物品$I_2$。Item cf就是基于这样的假设做推荐,再复习一下item计算两个物品相似度的公式,
把喜欢物品$I_1$的用户记作集合$W_1$,$W_1$是用户的集合,把喜欢物品$I_2$的用户记作集合$W_2$,把集合$W_1$,$W_2$的交际记作V集合,V中的用户同时喜欢物品$I_1$和$I_2$。用上面这个公式计算物品$I_1$,$I_2$的相似度,公式中的分子是集合V的大小,这是对两个物品都感兴趣的用户人数,分母是集合$W_1$、$W_2$的大小的乘积,再取根号,这样计算出的相似度一定是一个介于零到一之间的数,数值越大表示两个物品越相似。
我画个图来解释ItemCF的物品相似度,下图左右两边各是一个物品,
中间这六个人是用户,推荐系统记录了这些用户对哪些物品感兴趣,比方说用户给一个物品点赞,就说明用户对物品感兴趣。左边这五个箭头表示有五个用户对左边红色物品感兴趣,右边这五个箭头表示用户对右边的绿色物品感兴趣。
那中间的这四个用户就是前面定义的交集V,它是两组用户重合的部分,
集合V中的用户同时对两个物品都感兴趣,集合V中这部分的用户占比越大,itemCF就认为两个物品的相似度越高。
通常来说这是有道理的,如果大量的用户同时喜欢两个物品,那么这两个物品应该有某种共性。比方说左边的物品是骂川普的文章,右边的物品是支持绿色能源的文章。两篇文章字面上没啥相似性,但是用MCF会发现两者之间的相似度非常高,这是有道理的。如果一个用户喜欢看支持绿色能源的文章,那么给他推骂川普的文章,他也很有可能会点击和点赞。
ItemCF的缺陷
刚才回顾了item CF的原理,下面讨论item CF的不足之处,问题在于,假如重合的用户是一个小圈子该怎么办?比方说这四个用户都在同一个微信群里面。
左边的物品是这样一篇笔记,某个网站护肤品打折,右边的物品是笔记字节裁员了。这两篇笔记没有什么相似之处,他们的受众差别很大,但是两篇笔记,碰巧被分享到同一个微信群里面,微信群里有很多人同时点开这两篇笔记。
这样就造成一个问题,两篇笔记的受众完全不同,但是很多小圈子的用户同时交互过两篇笔记,导致系统错误的判断,最后误以为两篇笔记的相似度很高。
想要解决这个问题,就要降低小圈子用户的权重,我们希望两个物品重合的用户广泛而且多样。而不是集中在一个小圈子里,一个小圈子的用户同时交互两个物品,不能说明两个物品相似。
反过来,如果大量不相关的用户同时交互两个物品,则说明两个物品有相同的受众。swing模型的原理都是给用户设置权重,解决小圈子问题。
swing模型如何解决小圈子问题
接下来我就去讲swing模型是怎么样计算两个物品的相似度?
把用户$u_1$喜欢的物品记作集合记作$J_1$,把用户$u_2$喜欢的物品记作集合记作$J_2$,然后,定义两个用户重合度overlap为$J_1$与$J_2$的交集的大小,记作$overlap(u_1,u_2)$,
这个值越大,说明两个用户的重合度越高,越有可能是一个小圈子的人,要降低他的权重。
在计算物品相似度的时候,
会把$overlap(u_1,u_2)$放到分母上,类似于itemCF,把喜欢物品$I_1$的用户记作集合$W_1$,把喜欢物品$I_2$的用户记作集合$W_2$,集合$V$是$W_1$和$W_2$的交集,如果一个用户既喜欢物品$I_1$,也喜欢物品$I_2$,那么这个用户就在集合V中,
上面那个公式是计算两个物品相似度的公式,$sim(i_1,i_2)$意思是物品$I_1$和$I_2$两者的相似度,计算相似度的时候,要关于集合V中的用户求连加,用户记作$u_1$和$u_2$都属于集合大$V$,也就是说,用户$u_1 u_2$都对物品$I_1$,$I_2$感兴趣,这种用户数越多,就说明物品$I_1$和$I_2$越相似,连加里面是1除以Alpha加$overlap(u_1,u_2)$,alpha是个人工设置的参数(防止分母变0了)。
需要强调的是,$overlap(u_1,u_2)$的意思是用户$U_1$和$U_2$的重叠有多大,重叠大的代表两个人是同一个小圈子,那么他们两个人对相似度的贡献会比较小。
反过来,如果$overlap(u_1,u_2)$小,说明他们属于同一个圈子的可能性小,那他们对相似度的贡献比较大,用$overlap(u_1,u_2)$可以降低小圈子对相似度的影响。
okay,这就是swing模型的关键计算区别。
总结
最后总结一下本文的内容,
Swing和itemCF是非常相似的两种方法。它们唯一的区别就是在于如何计算物品的相似度。
item cf考察两个物品重合的受众比例有多高,如果很多用户同时喜欢两个物品的判定,两个物品相似,
Swing跟item cf差不多,但是会额外考虑重合的用户是否来自同一个小圈子,把同时喜欢两个物品的用户记作结合V,对于集合V中的用户$u_1$和$u_2$,把两个用户的重合度记作$overlap(u_1,u_2)$
Overlap越大,说明两个用户越有可能来自同一个小圈子,那么就要降低它的权重,他们对物品相似度的分数的贡献就会比较小。
总而言之,Swing跟ItemCF的区别就是在计算物品相似度的时候,要降低小圈子用户的影响。