ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
2

按主题分类

按作者

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202310.00635
下载全文

面向人民日报语料的新闻自动摘要生成

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-10-08 合作期刊: 《知识管理论坛》

梁媛王东波黄水清

摘要： [ 目的 / 意义 ] 面向主流新闻媒体人民日报语料展开研究，旨在为文本自动摘要研究提供思路和实践支撑，进而应用到新闻等相关文本信息处理中，为知识聚合服务和信息获取途径研究做出贡献。[ 方法 / 过程 ] 以新时代人民日报语料 NEPD 中的 2015 年 1 月、2015 年 6 月和 2016 年 1 月的人民日报分词语料作为实验语料，基于 TF-IDF、Textrank 等抽取式自动摘要算法，以及基于指针生成网络的生成式自动摘要模型展开研究，并对摘要结果进行分析评价。[ 结果 / 结论 ] 实验设计面向人民日报语料的新闻抽取式自动摘要算法，构建面向人民日报语料的新闻生成式自动摘要指针生成网络模型，并通过 Rouge 指标（包括 Rouge-1、 Rouge-2和 Rouge-L 3种指标）对实验结果进行评测，为人民日报分词语料的应用提供具体思路，并对新闻自动摘要系统研究提供语料支持和实践支撑。

通过

点击量 346 下载量 117 评论
2. ChinaXiv:202304.00607
下载全文

古籍同事异文的自动发掘研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

梁媛王东波黄水清

摘要： [目的/意义] 异文是古籍中的常见现象，也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等，不仅耗时、费力、工作量大，而且找到的数据未必精准全面。通过计算机实现异文的自动发掘，可以从更大规模的语料中获取有效信息。并且，结合异文自动发掘的校勘方式可以实现穷尽式检索，对于古籍他校法具有重要意义，为新时期古籍校勘研究提供了新思路和新方法。[方法/过程] 本研究以《春秋》及"春秋三传"作为实验语料，引入常用于文本翻译领域的平行语料库思想，结合深度学习算法，对LSTM、BERT模型与较为经典的SVM模型进行比较实验，并对两部古籍中用不同表述描述同一事件的同事异文相关内容展开进一步探索和讨论。[结果/结论] 实验得到适用于"春秋三传"的同事异文自动发掘深度学习模型，证明深度学习等新兴技术融合到古籍知识库构建等研究中的可行性，同时，深度学习技术和平行语料库思想的结合在异文研究中能够发挥较大作用，对数字人文在汉语言文学研究中的应用提供实践支撑。

点击量 180 下载量 85 评论

面向人民日报语料的新闻自动摘要生成

古籍同事异文的自动发掘研究