相似邻居计算

邻居就是“兴趣相投、拥有共同经验的群体”，在协同过滤中，邻居的计算对于推荐数据的生成是至关重要的，常用的划分邻居的方法有两类：

固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods

用“最近”的K个用户或物品最为邻居。如下图中的 A，假设要计算点 1 的 5- 邻居，那么根据点之间的距离，我们取最近的 5 个点，分别是点 2，点 3，点 4，点 7 和点 5。但很明显我们可以看出，这种方法对于孤立点的计算效果不好，因为要取固定个数的邻居，当它附近没有足够多比较相似的点，就被迫取一些不太相似的点作为邻居，这样就影响了邻居相似的程度，比如图 1 中，点 1 和点 5 其实并不是很相似。

基于相似度门槛的邻居：Threshold-based neighborhoods

与计算固定数量的邻居的原则不同，基于相似度门槛的邻居计算是对邻居的远近进行最大值的限制，落在以当前点为中心，距离为 K 的区域中的所有点都作为当前点的邻居，这种方法计算得到的邻居个数不确定，但相似度不会出现较大的误差。如下图中的 B，从点 1 出发，计算相似度在 K 内的邻居，得到点 2，点 3，点 4 和点 7，这种方法计算出的邻居的相似度程度比前一种优，尤其是对孤立点的处理。

Threshold-based neighborhoods要表现的就是“宁缺勿滥”，在数据稀疏的情况下效果是非常明显的。

User CF 和 Item CF 都依赖于相似度的计算，因为只有通过衡量用户之间或物品之间的相似度，才能找到用户的“邻居”，才能完成推荐。

相似邻居计算

固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods

基于相似度门槛的邻居：Threshold-based neighborhoods

Wonder Zhou

相关推荐

评论抢沙发

文字咖 QQ 交流群

DUX自用优化版近乎完美开心版

文章目录

热门标签

热门文章

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods

基于相似度门槛的邻居：Threshold-based neighborhoods

Wonder Zhou

相关推荐

评论 抢沙发

文字咖 QQ 交流群

DUX自用优化版 近乎完美开心版

文章目录

热门标签

热门文章

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续给力更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

评论抢沙发

DUX自用优化版近乎完美开心版