多目标模型
训练策略和解决的问题
负样本降采样
解决样本不平衡、负样本过多的问题
预估值校准,由于减少了负样本,所以预估点击率大于真实点击率
真实点击率:$p_{true}=\frac{n_+}{n_+ + n_-}$
预估点击率:$p_{pred}=\frac{n_+}{n_+ + \alpha n_-}$
校准公式:$p_{true}=\frac{\alpha\cdot p_{pred}}{(1-p_{pred})+\alpha\cdot p_{pred}}$
MMoE
极化问题:训练时使用dropout
用了MMoE并不一定带来提升
预估分数融合
视频播放建模
视频排序依据中还有播放时长和完播率
完播率要根据视频长度做调整
排序模型的特征
- 用户画像
- 物品画像
- 用户统计特征
- 物品统计特征
- 场景特征
特征处理
对于点赞率等,存在长尾分布,为了避免过大或者过小的数影响模型计算,要进行log处理或者转化为率
粗排模型
牺牲准确性提高推理速度
三塔模型,介于前期融合和后期融合之间
融合后不送入大神经网络计算,直接到全连接