ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2018
1
2017
1

按主题分类

按作者

按机构

当前资源共 2条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:201807.00065
下载全文

一种基于双向LSTM的联合学习的中文分词方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-07-09 合作期刊: 《计算机应用研究》

章登义胡思徐爱萍

摘要：中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习，提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集（PKU、MSRA、CTB6）和繁体中文数据集（CITYU、AS）。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM（双向长短时记忆模型）和CRF（条件随机场模型）对数据集进行单独训练和多语料库共同训练的实验，结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

点击量 2325 下载量 1317 评论
2. ChinaXiv:201711.02037
下载全文

双向模式匹配在年鉴数据预处理平台中的应用

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

史礼婷张骞钟永恒胡思思李贞贞

摘要：【目的】实现年鉴指标数据的结构化存储, 完成年鉴数据的更新录入。【应用背景】年鉴预处理平台是将年鉴数据统一整理、审核、上传的 C/S 工具平台, 采用VC++为主要编程语言, 为年鉴数据库建设提供数据基础。【方法】双向模式匹配处理是在WM模式算法基础上进行改进, 利用分词技术对录入指标进行信息元提取、采用存储过程实现模式集合的筛减、信息双向匹配保证匹配的准确高效。【结果】通过对实验数据录入的匹配结果进行分析, 发现双向模式匹配有较高指标匹配率和正确率。【结论】双向匹配算法能满足年鉴录入的需求, 提高了年鉴数据预处理工作的效率。

点击量 1719 下载量 1087 评论

一种基于双向LSTM的联合学习的中文分词方法

双向模式匹配在年鉴数据预处理平台中的 应用

双向模式匹配在年鉴数据预处理平台中的应用