QV-Electra:引入Query-Value注意力机制的预训练文本分类模型

邵党国; 孔宪媛; 相艳<sup>*</sup>; 安青; 黄琨; 郭军军

摘要

预训练语言模型的作用是在大规模无监督语料上基于特定预训练任务获取语义表征能力，故在下游任务中仅需少量语料微调模型且效果较传统机器学习模型(如CNN、RNN、LSTM等)更优。常见的预训练语言模型如BERT、Electra、GPT等均是基于传统Attention机制搭建。研究表明，引入Query-Value计算的QV-Attention机制效果较Attention机制有所提升。该文模型QV-Electra将QV-Attention引入预训练模型Electra,该模型在保留Electra预训练模型参数的同时仅通过添加0.1%参数获得性能提升。实验结果表明，QV-Electra模型在同等时间的情况下，相较于传统模型以及同等参数规模预训练模型能取得更好的分类效果。

出版日期2023
单位昆明理工大学; 自动化学院

收藏分享被引浏览

更新时间：2024-03-18 23:13

QV-Electra:引入Query-Value注意力机制的预训练文本分类模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友