• 基于变分自编码器的生成式文本摘要研究

    分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2020-09-28 合作期刊: 《计算机应用研究》

    摘要: 从单文档中生成简短精炼的摘要文本可有效缓解信息爆炸给人们带来的阅读压力。近年来,序列到序列(sequence-to-sequence,Seq2Seq)模型在各文本生成任务中广泛应用,其中结合注意力机制的Seq2Seq模型已成为生成式文本摘要的基本框架。然而,与机器翻译等任务不同,摘要文本还包含特定的写作风格特征。为生成能体现这种特征的摘要,在基于注意力和覆盖率机制的Seq2Seq模型基础上,在解码阶段利用变分自编码器(variational auto-encoder,VAE)刻画摘要风格特征并用于指导摘要文本生成;最后,利用指针生成网络来缓解模型中可能出现的未登录词问题。基于新浪微博LCSTS数据集的实验结果表明,提出的方法能有效刻画摘要风格特征、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型。