基于知识引导的自适应序列强化学习模型

李迎港; 童向荣<sup>*</sup>

doi:10.16451/j.cnki.issn1003-6059.202302002

摘要

序列推荐可形式化为马尔科夫决策过程，进而转化为深度强化学习问题，其关键是从用户序列中挖掘关键信息，如偏好漂移、序列之间的依赖关系等，但当前大多数基于深度强化学习的推荐系统都是以固定序列长度作为模型输入.受知识图谱的启发，文中设计基于知识引导的自适应序列强化学习模型.首先，利用知识图谱的实体关系，从完整的用户反馈序列中截取部分序列作为漂移序列，其中漂移序列中的项目集合表示用户的当前偏好，序列长度表示用户的偏好变化速度.然后，通过门控循环单元提取漂移序列中用户的偏好变化和项目之间的依赖关系，同时利用自注意力机制对关键的项目信息进行选择性关注.最后，设计复合奖励函数，包括折扣序列奖励和知识图谱奖励，用于缓解奖励稀疏的问题.在4个真实世界数据集上的实验表明，文中模型的推荐准确率较优.

出版日期2023

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 05:35

基于知识引导的自适应序列强化学习模型

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友