摘要

多轮对话推荐系统以交互的方式获取用户实时信息,相较基于协同过滤等算法的传统推荐系统能够取得更好的推荐效果。但现有的对话推荐系统存在用户偏好捕获不够准确、对话轮数要求过长及推荐时机不恰当等问题。针对这些问题,本文提出基于深度强化学习且考虑用户多粒度反馈信息的对话推荐算法。不同于现有的对话推荐算法,本文算法在每轮对话中不仅考虑用户在对话过程中对商品本身的反馈信息,而且进一步把握用户对更细粒度的商品属性反馈信息,根据收集的多粒度反馈对用户、商品和商品属性特征进行在线更新,并借助深度强化Q学习网络(DQN)算法分析每轮对话后的环境状态,帮助系统做出较为合理的决策动作,因而能够在比较少的对话轮次情况下更全面地挖掘用户实时偏好并分析用户购买商品的原因。在Last.fm和Yelp两个实际数据集上,与SCPR算法相比,本文算法在推荐精度上平均提升11.1个百分点,对话轮数平均缩短0.48轮。