您选择的条件: 赵常煜
  • “一带一路”倡议下的Twitter文本主题挖掘和情感分析

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义] 一带一路倡议的提出引起了国内外广泛的关注,众多国家的用户在最具代表性的社交媒体Twitter中表达观点、发表评论、相互讨论。从推文中挖掘得出世界对一带一路的讨论主题和情感倾向,有助于为政府机构优化宣传策略,增加一带一路倡议的曝光度、关注度提供参考。[方法/过程] 采集2017年与一带一路相关的6万余条推文,分别按照中文和英文进行数据预处理、数据描述、主题挖掘、情感分析,并实现主题和情感的交叉分析,得出结论。[结果/结论] 2017年的推文主题主要围绕5月份的一带一路高峰论坛。其中,中文推文更关注高峰论坛的筹划和实施,以及安全问题、领导层的访问等方面的内容,情感值的波动较大,特别是安全问题上的消极情绪波动很大。英文推文则更关注举办高峰论坛的事实以及论坛所带来的经济效应,情感波动较小,经济方面的情感值是积极占比明显高于消极和中立的情感值。

  • 中文电子病历的分词及实体识别研究

    分类: 图书馆学、情报学 >> 图书馆学 提交时间: 2023-07-26 合作期刊: 《图书情报工作》

    摘要: [目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,检查和疾病实体的识别效果最好,而症状的识别效果不太理想。