FunRec推荐系统
Start: 2025.12.15
End: 2025.
Check:

章节	(一)	(二)	(三)	(四)	(五)	(六)
1、系统概述	12.15	\	\	\	\	\
2、召回模型	12.15	12.16	12.17	\	\	\
3、精排模型	12.17	12.18	12.18	12.18	12.18	\
4、重排模型	12.18	12.18	\	\	\	\
5、难点热点	12.18	12.18	12.18	\	\	\
6、项目实践	12.19	12.19	12.20	12.21	12.21	12.21
7、面试经验	01.12	01.12	01.12	01.12	01.12	\

12.22
1. 完全跑通搞懂 项目实践 思考提升，询问提升方案；
2. 看完剩下的 面试经验，打印纸质版。
12.23
1. 寻找并跑通1个创新的 召回/排序 项目；
2. 更新简历。
12.24 投简历，找实习！
1. 复习 面试经验 纸质；
2. 重温 力扣HOT100 全书；
3. 刷 热门题机刷 一遍。

岗位：推荐算法岗位

企业：小红书、美团、阿里、腾讯、字节、Bilibili、得物等

地点：上海/深圳

链接：github, 电子阅读

一、推荐系统概述

推荐系统的核心预测函数：推荐系统通过整合用户特征(U)、物品特征(I)和场景特征©，计算用户与物品产生有价值连接的可能性分数。
这就是推荐系统工程化面临的核心矛盾：如何在极有限的时间内，从海量的候选中找到最优的推荐结果？
工业界的解决方案是采用分阶段的漏斗式架构，通过“召回-排序-重排”的三层流水线来逐步缩小候选范围，在效率和效果之间找到平衡点。
1. Recall 召回阶段奉行“宁可错杀一千，不可放过一个”的策略，它不追求精准，但求全面。
2. Ranking 排序阶段追求的是预测精度的最大化，计算成本相对较高，但由于候选集已经大幅缩小，整体耗时仍在可接受范围内。
3. Re-Ranking 重排阶段解决的一个关键问题是：预测分数最高的列表，不一定等于用户体验最佳的列表。系统在这个阶段会考虑多样性、新颖性、公平性等因素。
推荐系统的最终目标不是单纯追求技术指标的最大化，而是构建一个能让所有参与方长期受益的健康生态。在这个生态中，存在三个基本支点：用户与创作者、内容、平台。
多样化的内容生产模式：
- UGC（User Generated Content）：普通用户自发创作的内容，具有规模大、个性化强但质量参差不齐的特点。
- PGC（Professionally Generated Content）：专业团队或机构生产的内容，通常制作精良、质量稳定。
- AIGC（AI Generated Content）：借助人工智能技术生成的内容，正在快速发展，能够实现大规模个性化生产。

召回系统——从海量到精选的第一道过滤
- 协同过滤（Collaborative Filtering）是推荐系统的经典起点。
- 向量召回（Embedding-based Retrieval）技术解决了协同过滤面临的稀疏性和扩展性挑战。
- 序列召回（Sequential Retrieval）则关注用户行为的时序特性。
排序系统——精准预测用户偏好的核心引擎
- 特征交叉（Feature Crossing）是排序模型的核心挑战。
- 序列建模在排序阶段同样重要。用户的行为序列蕴含着丰富的时序信息和动态兴趣演化模式。
- 多目标优化（Multi-Objective Optimization）解决了单一指标优化的局限性。
- 多场景建模（Multi-Scenario Modeling）则关注同一平台下不同场景（如首页推荐、详情页推荐、搜索推荐）的差异化建模。
重排系统——优化用户体验的最后一环
- 贪心重排策略是重排算法的经典方法。
- 个性化重排策略则考虑不同用户对多样性的不同需求。
前沿趋势——推荐系统的未来方向
- 偏差消除（Debiasing）解决推荐系统中的各种偏差问题。
- 冷启动问题（Cold Start Problem）始终是推荐系统面临的核心挑战，我们将探讨如何为新用户和新物品提供有效推荐。
- 生成式推荐（Generative Recommendation）代表了推荐系统的新范式，通过大语言模型等生成式AI技术，推荐系统正在从传统的“检索+排序”模式向“理解+生成”模式转变。

二、召回模型

召回系统是推荐漏斗的第一个环节，需要在有限延迟内从海量候选中筛选出千级规模的初选集合，为后续排序提供高质量输入。

本章围绕三条主线展开：

协同过滤通过物品或用户的相似性建模刻画关系（ItemCF与Swing改进物品相似度；UserCF与矩阵分解开启向量化表示）；
向量召回将用户与物品映射到统一嵌入空间，支持 I2I 与 U2I 的高效向量检索；
序列召回关注用户行为的时序性，通过兴趣建模与序列预测提升相关性。

召回模型演化图

三、精排模型

在完成候选的快速筛选之后，精排需要对千级候选进行精细化的偏好预测。这个阶段要在可接受的延迟内平衡准确性、泛化能力与稳定性。

精排模型的发展有一条比较清晰的脉络。Wide & Deep模型将线性模型的记忆能力和深度网络的泛化能力结合起来，成为了一个实用的基础框架。随着对特征交互重要性的认识加深，从FM开始，到DeepFM、xDeepFM，再到基于注意力的自动化交互建模，这些方法让模型能够更好地处理特征间的复杂关系。

考虑到用户兴趣的多样性和时序特点，序列建模技术也被引入到精排中。DIN关注用户兴趣的多样性，DIEN进一步建模兴趣演化，DSIN则处理会话序列，这些发展帮助模型更好地理解用户的动态偏好。

在实际应用中，往往需要同时优化多个目标，并且要适应不同的业务场景。多目标优化和多场景建模通过合理的架构设计、任务关系建模及动态权重策略，让精排模型能够在复杂的业务环境中取得更好的业务效果。

排序模型演化图

四、重排模型

在推荐系统流程中，召回阶段从海量物品中筛选出数百到数千候选，精排阶段利用复杂模型对候选集精准打分，输出按预估分数降序排列的候选列表。

然而，仅按预估分数排序的列表往往并非最优推荐结果，直接呈现给用户会面临关键挑战：

多样性缺失与审美疲劳：列表顶部高度同质化，连续推荐相似内容易引发用户厌倦，降低平台粘性和长尾内容发现机会。
上下文与整体性忽略：精排模型较少考虑列表物品间的关联性、互补性或排斥性，缺乏对整体逻辑和流畅度的考量。

重排（Re-ranking） 阶段作为推荐流程的最终优化环节，其作用是对精排输出的高质量候选列表进行全局优化，生成更能满足用户体验需求和业务目标的最终推荐列表。

本章将介绍重排阶段的核心算法技术，重点关注基于贪心和个性化的两大类主流重排策略。

五、难点及热点研究

面向真实业务场景，除了模型能力本身，还需要处理数据偏差、冷启动与范式演进等关键问题。本章围绕三个核心方向展开。首先是偏差消除，重点关注选择偏差、曝光偏差和位置偏差等问题，通过 IPS、位置感知建模等方法进行识别与校正，从而提升训练与评测的一致性。其次是冷启动问题，通过引入内容特征、结构化信息和迁移学习等技术，改善新用户与新物品的推荐效果。最后是生成式推荐，探索从传统的“检索+排序”范式向“理解+生成”范式转变的技术路径与工程实践。

六、项目实践

在掌握推荐系统的核心方法后，本章将通过一个完整的项目实践，展示如何将理论知识应用于实践。我们将从需求理解与数据分析入手，建立评测指标与基线；然后逐步构建多路召回与冷启动策略，开展特征工程，并训练排序模型；最后对结果进行验证与融合。本章旨在将前述章节的算法与技术串联起来，覆盖从数据处理、模型构建到离线评测的完整流程，帮助读者建立系统化的实战能力。