推荐系统概述
一、推荐系统概述
- 推荐系统的核心预测函数:推荐系统通过整合用户特征(U)、物品特征(I)和场景特征©,计算用户与物品产生有价值连接的可能性分数。
- 这就是推荐系统工程化面临的核心矛盾:如何在极有限的时间内,从海量的候选中找到最优的推荐结果?
工业界的解决方案是采用分阶段的漏斗式架构,通过“召回-排序-重排”的三层流水线来逐步缩小候选范围,在效率和效果之间找到平衡点。Recall召回阶段奉行“宁可错杀一千,不可放过一个”的策略,它不追求精准,但求全面。Ranking排序阶段追求的是预测精度的最大化,计算成本相对较高,但由于候选集已经大幅缩小,整体耗时仍在可接受范围内。Re-Ranking重排阶段解决的一个关键问题是:预测分数最高的列表,不一定等于用户体验最佳的列表。系统在这个阶段会考虑多样性、新颖性、公平性等因素。
- 推荐系统的最终目标不是单纯追求技术指标的最大化,而是构建一个能让所有参与方长期受益的健康生态。在这个生态中,存在三个基本支点:用户与创作者、内容、平台。
- 多样化的内容生产模式:
- UGC(User Generated Content):普通用户自发创作的内容,具有规模大、个性化强但质量参差不齐的特点。
- PGC(Professionally Generated Content):专业团队或机构生产的内容,通常制作精良、质量稳定。
- AIGC(AI Generated Content):借助人工智能技术生成的内容,正在快速发展,能够实现大规模个性化生产。
- 召回系统——从海量到精选的第一道过滤
- 协同过滤(Collaborative Filtering) 是推荐系统的经典起点。
- 向量召回(Embedding-based Retrieval) 技术解决了协同过滤面临的稀疏性和扩展性挑战。
- 序列召回(Sequential Retrieval) 则关注用户行为的时序特性。
- 排序系统——精准预测用户偏好的核心引擎
- 特征交叉(Feature Crossing) 是排序模型的核心挑战。
- 序列建模在排序阶段同样重要。用户的行为序列蕴含着丰富的时序信息和动态兴趣演化模式。
- 多目标优化(Multi-Objective Optimization) 解决了单一指标优化的局限性。
- 多场景建模(Multi-Scenario Modeling) 则关注同一平台下不同场景(如首页推荐、详情页推荐、搜索推荐)的差异化建模。
- 重排系统——优化用户体验的最后一环
- 贪心重排策略是重排算法的经典方法。
- 个性化重排策略则考虑不同用户对多样性的不同需求。
- 前沿趋势——推荐系统的未来方向
- 偏差消除(Debiasing)解决推荐系统中的各种偏差问题。
- 冷启动问题(Cold Start Problem)始终是推荐系统面临的核心挑战,我们将探讨如何为新用户和新物品提供有效推荐。
- 生成式推荐(Generative Recommendation)代表了推荐系统的新范式,通过大语言模型等生成式AI技术,推荐系统正在从传统的“检索+排序”模式向“理解+生成”模式转变。
二、召回模型
召回系统是推荐漏斗的第一个环节,需要在有限延迟内从海量候选中筛选出千级规模的初选集合,为后续排序提供高质量输入。
本章围绕三条主线展开:
- 协同过滤通过物品或用户的相似性建模刻画关系(ItemCF与Swing改进物品相似度;UserCF与矩阵分解开启向量化表示);
- 向量召回将用户与物品映射到统一嵌入空间,支持 I2I 与 U2I 的高效向量检索;
- 序列召回关注用户行为的时序性,通过兴趣建模与序列预测提升相关性。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 isSeymour!
评论


