Current Location:home > Browse
Your conditions: 马俊(2)

1. chinaXiv:202010.00060 [pdf]

一种基于BERT和文本相似度的先进的ICD9术语标准化方法

刘宜佳; 纪斌; 余杰; 谭郁松; 马俊; 吴庆波
Subjects: Computer Science >> Natural Language Understanding and Machine Translation

ICD-9术语标准化任务旨在将医生在病历中记录的口语术语标准化为《国际疾病分类》(ICD-9)第九版中定义的标准术语。在本文中,我们首先提出一种基于BERT和文本相似度的方法(BTSBM),该方法将BERT分类模型与文本相似度计算算法相结合:1)使用N-gram算法为每种口语术语生成候选标准术语集(CSTS) ,用作下一步的训练数据集和测试数据集; 2)使用BERT分类模型对正确的标准术语进行分类。在这种BTSBM方法中,如果采用较大规模的CSTS作为测试数据集,则训练数据集也需要保持较大规模。但是,每个CSTS中只有一个正样本。因此,扩大规模将导致正负样本比例的严重失衡,这将严重降低系统性能。如果我们将测试数据集保持相对较小,则CSTS准确性(CSTSA)将大大降低,这将导致非常低的系统性能上限。为了解决上述问题,我们然后提出了一种优化的术语标准化方法,称为先进的BERT和基于文本相似性方法(ABTSBM),其中1)使用大规模初始CSTS来维持较高的CSTSA以确保较高的系统性能上限; 2)根据身体结构对CSTS进行降噪,以减轻正负样本的不平衡而不降低CSTSA; 3)引入focal loss损失函数以进一步促进正负样本的平衡。实验表明,ABTSBM方法的精度高达83.5%,比BTSBM高0.6%,而ABTSBM的计算成本比BTSBM低26.7%。

submitted time 2020-10-27 Hits5730Downloads690 Comment 0

2. chinaXiv:201810.00138 [pdf]

近1 ka以来河西地区的沙漠化及对高强度人类活动的响应分析

马俊; 牟雪松
Subjects: Geosciences >> Geography

河西地区地处青藏高原区与西北干旱区过渡带,是当下推进“一带一路”伟大战略建设的重要通道。同时,该地区也是我国沙漠化最严重地区之一。本文通过对已发表的河西地区风沙堆积事件与历史时期战争、人口数量、降水变化进行综合对比研究,分析了该地区近1 ka以来沙漠化的主导因素。结果显示:(1)在最近1 ka以来,河西地区的沙漠化主要发生在0.91 ka、0.74 ka、0.68 ka、0.44 ka、0.32、0.24 ka、0.18-0.12 ka和<0.1 ka时段;(2)0.91 ka、0.74 ka、0.68 ka、0.44 ka和0.24 ka时段的沙漠化敏感地响应了高强度的战争活动,0.32 ka时段的沙漠化是对区域低降水量的响应。(3)近200 a以来的沙漠化是对人口快速增长的响应。

submitted time 2018-10-23 From cooperative journals:《干旱区地理》 Hits1072Downloads525 Comment 0

  [1 Pages/ 2 Totals]