您选择的条件: 汤勇韬
  • 基于span分类模型的医学概念抽取方法

    分类: 计算机科学 >> 自然语言理解与机器翻译 提交时间: 2020-10-27

    摘要: 最近,如何构造电子病历(EMR)引起了研究人员的极大关注。从EMR中提取临床概念是EMR结构化的关键部分。临床概念提取的性能将直接影响与EMR结构化相关的下游任务的性能。但是,主流方法中,序列标记模型有一些缺点。基于序列标记的临床概念提取方法不符合人类的语言认知模型。同时,这种方法产生的提取结果很难与下游任务耦合,这将导致错误传播并影响下游任务的性能。为了解决这些问题,我们提出了一种基于span分类的方法,通过考虑字符序列的整体语义而不是每个字符的语义来提高临床概念提取任务的性能。我们将此模型称为span分类模型。实验表明,span分类模型在2012年i2b2 NLP挑战赛的语料库中获得了最佳的微观平均F1得分(81.22%),并获得了与2010年i2b2 NLP挑战赛的SOTA相当的F1得分(89.25%)。此外,我们的方法的性能始终优于序列标记模型,例如BiLSTM-CRF模型和softmax分类器。