分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-07-09 合作期刊: 《计算机应用研究》
摘要: 中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS)。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。
分类: 图书馆学、情报学 >> 情报学 提交时间: 2017-11-08 合作期刊: 《数据分析与知识发现》
摘要: 【目的】实现年鉴指标数据的结构化存储, 完成年鉴数据的更新录入。【应用背景】年鉴预处理平台是将 年鉴数据统一整理、审核、上传的 C/S 工具平台, 采用VC++为主要编程语言, 为年鉴数据库建设提供数据基础。【方法】双向模式匹配处理是在WM模式算法基础上进行改进, 利用分词技术对录入指标进行信息元提取、采用 存储过程实现模式集合的筛减、信息双向匹配保证匹配的准确高效。【结果】通过对实验数据录入的匹配结果进 行分析, 发现双向模式匹配有较高指标匹配率和正确率。【结论】双向匹配算法能满足年鉴录入的需求, 提高了 年鉴数据预处理工作的效率。