推荐算法排序

Posted by iStar on February 7, 2022

多目标模型

训练策略和解决的问题

负样本降采样

解决样本不平衡、负样本过多的问题

预估值校准,由于减少了负样本,所以预估点击率大于真实点击率

真实点击率:$p_{true}=\frac{n_+}{n_+ + n_-}$

预估点击率:$p_{pred}=\frac{n_+}{n_+ + \alpha n_-}$

校准公式:$p_{true}=\frac{\alpha\cdot p_{pred}}{(1-p_{pred})+\alpha\cdot p_{pred}}$

MMoE

极化问题:训练时使用dropout

用了MMoE并不一定带来提升

预估分数融合

视频播放建模

视频排序依据中还有播放时长和完播率

完播率要根据视频长度做调整

排序模型的特征

  • 用户画像
  • 物品画像
  • 用户统计特征
  • 物品统计特征
  • 场景特征

特征处理

对于点赞率等,存在长尾分布,为了避免过大或者过小的数影响模型计算,要进行log处理或者转化为率

粗排模型

牺牲准确性提高推理速度

三塔模型,介于前期融合和后期融合之间

融合后不送入大神经网络计算,直接到全连接