ChinaXiv.org 中国科学院科技论文预发布平台

注册登录

EN | 中文

按提交时间

2020
1

按主题分类

自然语言理解与机器翻译
1

按作者

按机构

国防科技大学计算机学院
1

当前资源共 1条

隐藏摘要

点击量

时间

您选择的条件: 汤勇韬

1. ChinaXiv:202010.00061
下载全文

基于span分类模型的医学概念抽取方法

分类：计算机科学 >> 自然语言理解与机器翻译提交时间： 2020-10-27

汤勇韬余杰李莎莎纪斌谭郁松吴庆波

摘要：最近，如何构造电子病历（EMR）引起了研究人员的极大关注。从EMR中提取临床概念是EMR结构化的关键部分。临床概念提取的性能将直接影响与EMR结构化相关的下游任务的性能。但是，主流方法中，序列标记模型有一些缺点。基于序列标记的临床概念提取方法不符合人类的语言认知模型。同时，这种方法产生的提取结果很难与下游任务耦合，这将导致错误传播并影响下游任务的性能。为了解决这些问题，我们提出了一种基于span分类的方法，通过考虑字符序列的整体语义而不是每个字符的语义来提高临床概念提取任务的性能。我们将此模型称为span分类模型。实验表明，span分类模型在2012年i2b2 NLP挑战赛的语料库中获得了最佳的微观平均F1得分（81.22％），并获得了与2010年i2b2 NLP挑战赛的SOTA相当的F1得分（89.25％）。此外，我们的方法的性能始终优于序列标记模型，例如BiLSTM-CRF模型和softmax分类器。

同行评议状态:待评议

点击量 12553 下载量 1624 评论

友情链接: PubScholar 哲学社会科学预印本

运营单位: 中国科学院文献情报中心
制作维护：中国科学院文献情报中心知识系统部
邮箱: eprint@mail.las.ac.cn
地址：北京中关村北四环西路33号

招募志愿者许可声明法律声明

京ICP备05002861号-25 | 京公网安备110402500046号
版权所有© 2016 中国科学院文献情报中心