分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】建立结合多种特征的条件随机场模型, 探索从大型生物医学文本中同时自动提取化学物质和疾病实体的方法。【方法】结合命名实体识别特征, 包括词法特征、领域知识特征、词典匹配特征和无监督学习特征等, 比较不同特征对命名实体识别的效果, 并优化模型。【结果】CRF 模型纳入词法特征、词典匹配特征、无监督学习特征和部分领域知识特征, 化学物质识别准确率97.33%、召回率80.76%、F 值8.27%, 疾病实体识别准确率为84.20%、召回率为81.96%、F值为83.07%。【局限】同时识别化学物质和疾病实体可能存在互相干扰, 删除的部分领域特征可能含有有用信息。【结论】本研究可为生物医学命名实体识别的特征选择提供参考, 同时仍需优化特征以获得更好的识别效果。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2016-05-03
摘要: 深度学习是机器学习领域的一个新的研究方向,其核心思想在于模拟人脑的层级抽象结构,通过无监 督的方式从大规模数据(例如图像、声音和文本)中学习特征。近年来,深度学习在计算机视觉、语音识 别等研究领域取得的巨大成功使得研究者们对其寄予更多的关注。本文从深度学习的概念、发展历程、模 型、训练方法以及应用等几个方面对其进行概述,并对深度学习的未来发展做出展望。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-02 合作期刊: 《计算机应用研究》
摘要: 针对深度置信网络(DBN)在微调过程中易受训练参数影响的问题,提出一种批量正则化DBN分类方法(BNDBN)。该方法首先利用DBN进行无监督学习以获得原始数据的高层次表达;然后通过引入尺度变换和平移变换参数对网络中间层的输出特征每一维进行批量正则化处理;并将处理后的特征输入到非线性变换激活层中;最后使用随机梯度下降法对仿射变换参数以及原始网络的参数进行训练学习。BNDBN方法减少了梯度对参数规模的依赖性,有效解决了因网络参数变化而造成的激活函数值分布变化的问题,提高了训练效率。为了检验所提出方法的有效性,选取MNIST手写体数据库和USPS手写数字识别库进行测试,通过与Dropout-DBN、DBN、ANN、SVM、KNN对比,结果表明,提出的方法分类准确率明显提高,具有更强的特征提取能力。