ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 14条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202010.00060
下载全文

一种基于BERT和文本相似度的先进的ICD9术语标准化方法

分类：计算机科学 >> 自然语言理解与机器翻译提交时间： 2020-10-27

刘宜佳纪斌余杰谭郁松马俊吴庆波

摘要： ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》（ICD-9）第九版中定义的标准术语。在本文中，我们首先提出一种基于BERT和文本相似度的方法（BTSBM），该方法将BERT分类模型与文本相似度计算算法相结合：1）使用N-gram算法为每种口语术语生成候选标准术语集（CSTS），用作下一步的训练数据集和测试数据集； 2）使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中，如果采用较大规模的CSTS作为测试数据集，则训练数据集也需要保持较大规模。但是，每个CSTS中只有一个正样本。因此，扩大规模将导致正负样本比例的严重失衡，这将严重降低系统性能。如果我们将测试数据集保持相对较小，则CSTS准确性（CSTSA）将大大降低，这将导致非常低的系统性能上限。为了解决上述问题，我们然后提出了一种优化的术语标准化方法，称为先进的BERT和基于文本相似性方法（ABTSBM），其中1）使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限； 2）根据身体结构对CSTS进行降噪，以减轻正负样本的不平衡而不降低CSTSA； 3）引入focal loss损失函数以进一步促进正负样本的平衡。实验表明，ABTSBM方法的精度高达83.5％，比BTSBM高0.6％，而ABTSBM的计算成本比BTSBM低26.7％。

同行评议状态:待评议

点击量 12816 下载量 2005 评论
2. ChinaXiv:202310.02406
下载全文

针对互联网数据的新闻转载引用分析

分类：数字出版 >> 新媒体提交时间： 2023-10-08 合作期刊: 《中国传媒科技》

陈辛夷陈珺王熠

摘要：互联网、大数据和新媒体技术的发展带来媒体传播渠道和内容形态革命性变化,分析新闻在不同渠道媒体采用和传播情况是构建大数据驱动采编和传播决策的重要组成部分,对于提升通讯社国内和国际传播能力具有十分重要的意义。然而,由于互联网和新媒体数据格式不规范、转载和引用不注明来源等问题,新媒体的新闻转载引用分析难度大。本文从多源头收集网站、电子报纸、微信公众号、移动客户端等新闻数据,覆盖全球5000余家中英文媒体、40余万个新媒体账户。利用信息智能比对技术,跟踪新闻在全媒体的落地采用,构建新闻转载和引用分析系统,为进一步分析媒体传播路径,掌握国内外媒体传播规律,提升国内外舆论传播力奠定了基础。文中介绍了新闻转载引用分析的工作原理和建设意义,对关键技术实现进行了深入研究,在此基础上提出了新闻转载引用分析未来的发展建议。

点击量 169 下载量 77 评论
3. ChinaXiv:201806.00106
下载全文

基于WMF_LDA主题模型的文本相似度计算

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-06-19 合作期刊: 《计算机应用研究》

张璐芦天亮杜彦辉

摘要：文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征，但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题，提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射，并根据词性将文本进行过滤，最后再进行主题建模。实验证明，该方法使得建模时词语量大大减少，减少了建模过程的时间消耗，提高了最后的文本聚类的速度。并且与其他文本相似度方法相比，本文提出的方法在准确度上也有一定程度的提升。

点击量 2386 下载量 1340 评论
4. ChinaXiv:201712.01401
下载全文

一种基于语义组块特征的改进 Cosine 文本相似度计算方法*

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

白如江冷伏海廖君华

摘要：【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好的泛化能力和鲁棒性。

点击量 2360 下载量 1269 评论
5. ChinaXiv:201712.01612
下载全文

一种基于语义组块特征的改进 Cosine 文本相似度计算方法*

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

白如江冷伏海廖君华

摘要：【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好的泛化能力和鲁棒性。

点击量 2352 下载量 1288 评论
6. ChinaXiv:202304.00234
下载全文

基于词向量模型的中文序列比对研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

熊回香赵登鹏卢晨凡

摘要： [目的/意义] 针对生物信息学中著名的序列比对算法在文本相似度中的应用，改进前人的方法并提高文本相似度计算的准确性。[方法/过程] 首先，对目标文本进行规范化处理，构成中文序列集。随后，利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后，对中文序列两两进行全局比对并获得比对的最优解，回溯得到最优解的比对路径，计算中文序列的相似度。[结果/结论] 实证结果表明，相较于传统方法，本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。

点击量 207 下载量 132 评论
7. ChinaXiv:201711.02019
下载全文

作者身份识别中不规范文本特征选择方法的研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

郭旭祁瑞华

摘要：【目的】从不规范文本中提取特征, 识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法: 利用在Jaccard 系数的基础上定义的不规范文本相似度M; 利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%, 加入这两种特征后, 传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性, 并没有针对更高层面的特性进行研究, 如句法层面、结构层面。【结论】本文提出的特征提取方法, 可以有效地提取不规范文本特征, 有助于作者身份识别系统识别正确率的提升。

点击量 1968 下载量 1094 评论
8. ChinaXiv:202310.00629
下载全文

基于关键词挖掘的热线文本数据犯罪线索筛查方法研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-10-08 合作期刊: 《知识管理论坛》

甄沐华陈鹏王坤范子杨王者

摘要： [目的/意义]针对公安业务中对热线文本数据犯罪线索关键信息识别与筛查时存在的信息化分析能力不足问题，提出一种基于关键词挖掘的热线文本数据犯罪线索筛查方法，帮助业务部门提高相关情报研判效率，使得犯罪线索筛查工作更加信息化和科学化。[方法/过程]考虑到直接采用文本类等算法方法或因有效信息样本量占比过小使得模型训练不充分，本文首先对已知犯罪线索进行基于文本相似度的种子词集抽取，然后采用Word2Vec对种子词汇从同类词、替代词两个角度扩展构成专业词库，最后使用基于语义的积分筛查模型实现对热线文本数据中犯罪线索筛查。[结果/结论]对济南市1 050条先验热线文本数据作犯罪线索筛查实验，并进行实际比对与结果指标分析，得到结果召回率86%，可以认为本文所述基于语义的积分筛查方法对济南市热线文本数据内犯罪信息具体性识别达到预期效果并实现犯罪线索有效筛查。

通过

点击量 377 下载量 104 评论
9. ChinaXiv:201712.01406
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-12-05 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 27480 下载量 2944 评论
10. ChinaXiv:201712.01616
下载全文

文本相似度计算方法研究综述

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-30 合作期刊: 《数据分析与知识发现》

陈二静 , 姜恩波

摘要：【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。

点击量 28964 下载量 4031 评论
11. ChinaXiv:202304.00592
下载全文

基于序列比对算法的中文文本相似度计算研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

赵登鹏熊回香田丰收李昕然

摘要： [目的/意义] 针对序列比对算法在文本相似度中的应用，改进全局比对算法并提高该算法的准确性，同时，应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题。[方法/过程] 首先，利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理，构成中文序列集；然后，使用最新的中文维基百科语料训练Word2Vec模型来构建语词对打分矩阵；最后，基于打分矩阵和改进的打分规则，对进行全局比对/局部比对的两中文序列进行比对并获得比对的最优解，回溯该最优解，获取最优解的比对路径，计算两中文序列的相似度。[结果/结论] 实验结果表明，相较于目前全局比对算法的相关研究，本文基于词性标注的结果与Word2Vec构建的语词对打分矩阵进一步提升了全局比对算法计算文本相似度的准确性，同时，应用于文本相似度计算的局部比对算法能够有效解决内容差异或长短差异较大的两文本进行比对的问题。

点击量 228 下载量 144 评论
12. ChinaXiv:201805.00482
下载全文

基于文本分析的故障序列模式挖掘算法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-24 合作期刊: 《计算机应用研究》

常文兵苑星龙周晟瀚李磊

摘要：针对结构化程度差、表达形式各异的文本数据，提出了一种基于文本信息的故障序列模式挖掘算法，用以发掘故障之间的时序关系。为从文本记录的故障信息中挖掘故障规律，首先将文本信息向量化，对故障文本信息进行相似度衡量，将表达相同意义的故障归为一类。在此基础上根据故障特性，提出最大窗口阈值、最小共现度阈值的概念，构建故障序列模式挖掘算法框架。最后对某型飞机文本故障信息进行序列模式挖掘，找出了正确的故障序列关系。实例验证了所提算法是正确有效的。

点击量 1655 下载量 941 评论
13. ChinaXiv:202304.00208
下载全文

文本相似度视角下我国大数据政策比较研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

张涛马海群易扬

摘要： [目的/意义] 大数据政策的制定与实施是国家推动大数据产业发展的重要手段，因此对大数据的政策研究也受到了社会广泛关注。[方法/过程] 以文本相似度为视角对国务院发布的《促进大数据发展行动纲要》和我国22个地区发布的大数据政策文本进行比较研究。[结果/结论] 数据表明：广东省、福建省所制定的政策最为完整和全面，数据开放共享和安全保障在各地区大数据政策制定层面整体关注最高，呈现出相似性，在内蒙古自治区、四川省等地区大数据政策制定中区域特色较为突出，呈现出差异性。随着各地区相继颁布人工智能政策，未来对人工智能视域下大数据政策的研究将成为新方向。

点击量 213 下载量 111 评论
14. ChinaXiv:201904.00039
下载全文

基于学者社交网络的论文与项目关联模型

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-04-01 合作期刊: 《计算机应用研究》

王柳汤庸杨佐希傅城州毛承洁毛超丹

摘要：针对学者社交网络的独特用户，提出一种基于学者社交网络的论文与项目数据的协同关联模型。首先采用两步特征选择方法预处理数据，去除无关和冗余特征，得到影响论文与项目关联的有效特征；然后通过文本向量空间模型TVSM(text vector space model)计算论文与项目之间的文本相似度，为不同的论文/项目形成推荐集合。通过面向科研人员的社交网络“学者网”数据，实现模型并真实应用于学者网。在线应用情况和用户反馈表明，该模型具有较好的准确性和实用性，可更加充分地挖掘论文与项目之间蕴涵的丰富信息，给用户提供更加高效方便的学术科研管理服务，为分析学术大数据提出了新颖的研究方法。

点击量 14384 下载量 1190 评论