1 论文标题:基于强化学习的生成式对话系统研究
2 作者信息:颜 永, 白宗文*:延安大学物理与电子信息学院,陕西 延安
3 出处和链接:颜永, 白宗文. 基于强化学习的生成式对话系统研究[J].
数据挖掘, 2023, 13(2): 185-193.
https://doi.org/10.12677/HJDM.2023.132018
4 摘要:构建一个回复多样性的开放型对话系统模型,以尝试解决对话系统在回复过程中回答单调的问题。提出一种融合双向长短期记忆
神经网络和强化学习模型的生成式对话方法。首先,采用多种类型过滤器对语料库进行预处理,使对话语料库能够被多样化探索到;其次,为了增加对话系统回复的多样性,采用多样性集束搜索作为解码器;最终,在微调模型阶段采用自评序列训练方法削减REINFORCE算法策略梯度的高方差现象。所提方法比Srinivasan等人的方法在BLUE、ROUGE-L、Perplexity分别增长了10.5%,9%和5%,模型的训练时间比原来缩短了43%。部分类型语料数量较少,所以对话系统在这方面的话题相对缺乏。传统的网络架构融合强化学习方法,能够有效地使对话系统产生极具价值意义的回复。