Current Location:home > Browse

1. chinaXiv:202010.00060 [pdf]

一种基于BERT和文本相似度的先进的ICD9术语标准化方法

刘宜佳; 纪斌; 余杰; 谭郁松; 马俊; 吴庆波
Subjects: Computer Science >> Natural Language Understanding and Machine Translation

ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。

submitted time 2020-10-27 Hits4498Downloads545 Comment 0

2. chinaXiv:201904.00039 [pdf]

基于学者社交网络的论文与项目关联模型

王柳; 汤庸; 杨佐希; 傅城州; 毛承洁; 毛超丹
Subjects: Computer Science >> Integration Theory of Computer Science

针对学者社交网络的独特用户,提出一种基于学者社交网络的论文与项目数据的协同关联模型。首先采用两步特征选择方法预处理数据,去除无关和冗余特征,得到影响论文与项目关联的有效特征;然后通过文本向量空间模型TVSM(text vector space model)计算论文与项目之间的文本相似度,为不同的论文/项目形成推荐集合。通过面向科研人员的社交网络“学者网”数据,实现模型并真实应用于学者网。在线应用情况和用户反馈表明,该模型具有较好的准确性和实用性,可更加充分地挖掘论文与项目之间蕴涵的丰富信息,给用户提供更加高效方便的学术科研管理服务,为分析学术大数据提出了新颖的研究方法。

submitted time 2019-04-01 From cooperative journals:《计算机应用研究》 Hits13314Downloads602 Comment 0

3. chinaXiv:201806.00106 [pdf]

基于WMF_LDA主题模型的文本相似度计算

张璐; 芦天亮; 杜彦辉
Subjects: Computer Science >> Integration Theory of Computer Science

文本相似度的判断和计算是自然语言处理领域中具有重要意义和研究价值的一部分内容。利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMF_LDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,本文提出的方法在准确度上也有一定程度的提升。

submitted time 2018-06-19 From cooperative journals:《计算机应用研究》 Hits1086Downloads673 Comment 0

4. chinaXiv:201805.00482 [pdf]

基于文本分析的故障序列模式挖掘算法

常文兵; 苑星龙; 周晟瀚; 李磊
Subjects: Computer Science >> Integration Theory of Computer Science

针对结构化程度差、表达形式各异的文本数据,提出了一种基于文本信息的故障序列模式挖掘算法,用以发掘故障之间的时序关系。为从文本记录的故障信息中挖掘故障规律,首先将文本信息向量化,对故障文本信息进行相似度衡量,将表达相同意义的故障归为一类。在此基础上根据故障特性,提出最大窗口阈值、最小共现度阈值的概念,构建故障序列模式挖掘算法框架。最后对某型飞机文本故障信息进行序列模式挖掘,找出了正确的故障序列关系。实例验证了所提算法是正确有效的。

submitted time 2018-05-24 From cooperative journals:《计算机应用研究》 Hits749Downloads438 Comment 0

5. chinaXiv:201712.01401 [pdf]

一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*

白如江; 冷伏海; 廖君华
Subjects: Library Science,Information Science >> Information Science

【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits1155Downloads691 Comment 0

6. chinaXiv:201712.01406 [pdf]

文本相似度计算方法研究综述

陈二静 ,; 姜恩波
Subjects: Library Science,Information Science >> Information Science

【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。

submitted time 2017-12-05 From cooperative journals:《数据分析与知识发现》 Hits21803Downloads1461 Comment 0

7. chinaXiv:201712.01612 [pdf]

一种基于语义组块特征的改进 Cosine 文本 相似度计算方法*

白如江; 冷伏海; 廖君华
Subjects: Library Science,Information Science >> Information Science

【目的】利用文本语义组块特征提升 Cosine 文本相似度计算性能。【方法】获取 NSF 资助的关于碳纳米 管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标 注; 在此基础上实现基于语义组块特征的改进 Cosine 文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进 Cosine 相似度计算结果比原始文本 Cosine 相似度 计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了 26%。【局限】依赖于语义组块标注 性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好 的泛化能力和鲁棒性。

submitted time 2017-11-30 From cooperative journals:《数据分析与知识发现》 Hits1171Downloads687 Comment 0

8. chinaXiv:201712.01616 [pdf]

文本相似度计算方法研究综述

陈二静 ,; 姜恩波
Subjects: Library Science,Information Science >> Information Science

【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在 CNKI 和 Web of Science 中 分别以检索式“篇名: 文本相似度 OR 篇名: 词汇相似度 OR 篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到 69 篇重点文献。【方法】对文本相 似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的 分类描述体系, 文本相似度计算方法可分为 4 类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法 和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发 展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握 和深入了解文本相似度计算方法的研究现状和未来趋势。

submitted time 2017-11-30 From cooperative journals:《数据分析与知识发现》 Hits23373Downloads2277 Comment 0

9. chinaXiv:201711.02019 [pdf]

作者身份识别中不规范文本特征选择方法的研究

郭旭; 祁瑞华
Subjects: Library Science,Information Science >> Information Science

【目的】从不规范文本中提取特征, 识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法: 利用在Jaccard 系数的基础上定义的不规范文本相似度M; 利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%, 加入这两种特征后, 传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性, 并没有针对更高层面的特性进行研究, 如句法层面、结构层面。【结论】本文提出的特征提取方法, 可以有效地提取不规范文本特征, 有助于作者身份识别系统识别正确率的提升。

submitted time 2017-11-08 From cooperative journals:《数据分析与知识发现》 Hits1057Downloads626 Comment 0

  [1 Pages/ 9 Totals]