ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 9条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202403.00397
下载全文

大规模精加工通用语料库建设的范例——《大规模现代汉语分词语料库构建及应用》书评

分类：其他 >> 综合提交时间： 2024-03-28 合作期刊: 《文献与数据学报》

曲维光

摘要：［目的 / 意义］指出《大规模现代汉语分词语料库构建及应用》一书的主要价值与贡献，旨在为中文语料库的构建提供借鉴，以促进大语言模型下中文自然语言处理的快速发展。［方法 / 过程］从宏观和微观的视角，对新时代人民日报分词语料库的构建和语料库相关研究综述进行了基于语料库计量语言学的分析，并对深度学习下的人民日报知识组织等内容进行了评介。［结果 / 结论］《大规模现代汉语分词语料库构建及应用》一书基于新时代人民日报分词语料库构建及应用进行研究，不仅传承了北京大学人民日报语料库的体系和理念，而且在一定程度上为解决领域化自然语言处理的任务提供了相应的方案。

通过

点击量 446 下载量 127 评论
2. ChinaXiv:202310.00399
下载全文

国际语料库语言学研究热点与前沿的信息可视化分析

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-10-08 合作期刊: 《知识管理论坛》

杨柳

摘要： [ 目的 / 意义 ] 本研究旨在更好地把握近几年国际语料库研究发展的整体脉络和研究成果，厘清该领域研究的热点问题，探索其研究的前沿。[ 方法 / 过程 ] 以 Web of Science 核心数据库所收录国际期刊在 2005-2017 年间所刊载的研究性论文作为数据来源，借助 BICOMB、Ucinet6 和 CiteSpace 软件对语料库相关研究数据从文献数量与年代分布、来源期刊、研究主体、国家和地区分布、研究机构、被引文献等方面进行计量和知识图谱分析。[ 结果 / 结论 ] 通过分析发现，国际语料库语言学的研究对象涉及到更多语种和文类，并越来越呈现出跨学科、多角度的特点。持续关注的研究热点包括搭配和词典编撰，新热点包括专门用途语言、学术英语、性别、身份、隐喻及话语分析，与构式语法、认知语言学等的结合是研究前沿。

通过

点击量 299 下载量 101 评论
3. ChinaXiv:202001.00075
下载全文

基于大规模古文语料库的词典构建及分词技术研究

分类：心理学 >> 应用心理学分类：计算机科学 >> 计算机应用技术提交时间： 2020-01-07

邢付贵朱廷劭

摘要：古文献的研究有助于传统文化的继承与发扬，而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节，但由于缺少规范的数据资料而没有像现代汉语分词取得突破性进展。当前互联网拥有大量古汉语文本和词典方面的数据资料，但是这些数据分散，没有得到有效地整合。本文提出采集互联网非结构化古汉语数据，经过数据清洗和预处理抽取出一个古汉语基础词典，然后再利用互信息、信息熵、位置成词概率相结合的新词发现方法从大规模古籍文本中抽取古汉语候补词典，最终将基础词典与候补词典融合，利用正向最大匹配实现对古文的分词。与开源的分词器甲言在基于词典的分词方面比较后F值提高了14%，取得了良好的效果，结果证明本文构建的分词器可以应用在古汉语文本分词上。

同行评议状态:待评议

点击量 21060 下载量 3385 评论
4. ChinaXiv:202310.00394
下载全文

新疆融媒体报道热点领域提取与分析——基于天山网新闻标题语料库的计量研究

分类：数字出版 >> 新媒体提交时间： 2023-10-08 合作期刊: 《中国传媒科技》

宫媛冯玮杰

摘要：本文运用手工录入与Python相结合的方法，收集了天山网新疆新闻标题，建立“天山网新闻标题语料库”，并分别使用NLPIR-ICTCLAS汉语分词系统和MyZiciFreq字词频率统计工具对语料进行分词处理和词频统计。本文对天山网新疆新闻标题的统计和社会价值分析，为新闻标题的编写提供了参考依据，同时也展现了新疆地区融媒体所关心的热点事件，也体现出了新疆各族人民团结一心的坚定决心。

点击量 173 下载量 87 评论
5. ChinaXiv:202310.00773
下载全文

基于媒体语料库的检校体系探索

分类：数字出版 >> 新媒体提交时间： 2023-10-08 合作期刊: 《中国传媒科技》

高文

摘要：新闻采编中除一些印刷错误外,很多错误是潜在的语义级错误。语义错误需要检查语句中所表达的语义和语用是否违背了某种标准,采用以往的文本检校方法,很难发现这些语义错误。例如,报刊、网络文章中出现的一些关于中国台湾问题的不正确表述等,利用自动检校工具来纠错难度是相当大的。但类似错误对新闻机构的影响不可小觑,部分可能是影响舆论导向的政治性错误,是编辑部检校的重中之重。因此,充分利用媒体语料库的新闻采编检校是新闻文本自动检校的重要发展方向。

点击量 205 下载量 100 评论
6. ChinaXiv:202307.00327
下载全文

新时代人民日报分词语料库构建、性能及应用(一)-语料库构建及测评

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 构建与新时代相适应的人民日报分词语料库，为中文信息处理提供最新的精标注语料，也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上，描述所构建新时代人民日报语料库的数据源、标注规范和流程，通过构建分词自动标注模型测评语料库的性能，并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范，规模大，时间跨度长。选取其中的2018年1月部分，基于条件随机场构建分词模型，与1998年1月人民日报语料进行性能测评与对比，所得到的各项具体测评指标表明，新时代人民日报语料整体性能突出，1998年语料无法替代，当前构建该语料库非常必要。

点击量 412 下载量 138 评论
7. ChinaXiv:201807.00065
下载全文

一种基于双向LSTM的联合学习的中文分词方法

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-07-09 合作期刊: 《计算机应用研究》

章登义胡思徐爱萍

摘要：中文分词是中文自然语言处理任务的关键技术之一。针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习，提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集（PKU、MSRA、CTB6）和繁体中文数据集（CITYU、AS）。每一个数据集的输入语句的句首和句尾分别添加一对标志符。应用BLSTM（双向长短时记忆模型）和CRF（条件随机场模型）对数据集进行单独训练和多语料库共同训练的实验，结果表明大规模的多语料库共同学习训练能取得良好的分词效果。

点击量 2317 下载量 1315 评论
8. ChinaXiv:202307.00295
下载全文

新时代人民日报分词语料库构建、性能及应用(三)-句长与词的分析比较

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布，有助于了解当代汉语文本的语言学特征，进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上，结合1998年1月人民日报分词语料，确定统计中所使用的6种句子类别，统计和分析字与词单位上的句子长度分布，并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看，随着时间的推移，在1998和2018两个语料上，句子的长度和词汇的分布均发生变化，但这种变化又是延续的、有关联的。

点击量 455 下载量 115 评论
9. ChinaXiv:202307.00312
下载全文

新时代人民日报分词语料库构建、性能及应用(二)-深度学习自动分词模型构建

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型，不仅有助于为高性能分词模型的构建提供经验，也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型（Bi-LSTM）和双向长短时记忆与条件随机场融合模型（Bi-LSTM-CRF）的基础上，阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况，分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型，并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看，所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上，Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型，但这一差距非常细微。

点击量 391 下载量 173 评论