ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2023
1

按主题分类

情报学
1

按作者

按机构

当前资源共 1条

隐藏摘要

点击量

时间

1. ChinaXiv:202304.00592
下载全文

基于序列比对算法的中文文本相似度计算研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

赵登鹏熊回香田丰收李昕然

摘要： [目的/意义] 针对序列比对算法在文本相似度中的应用，改进全局比对算法并提高该算法的准确性，同时，应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程] 首先，利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理，构成中文序列集；然后，使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵；最后，基于打分矩阵和改进的打分规则，对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解，回溯该最优解，获取最优解的比对路径，计算两中文序列的相似度。[结果/结论] 实验结果表明，相较于目前全局比对算法的相关研究，本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性，同时，应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。

点击量 211 下载量 130 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心