ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 49条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202108.00082
下载全文

应用膜下灌排联动技术对提高土壤淋洗效果的影响

分类：地球科学 >> 地理学提交时间： 2021-08-12 合作期刊: 《干旱区研究》

王东旺

摘要：膜下滴灌结合暗管排水技术是一种复合型节水灌排技术，为了进一步研究在新疆的影响，在新疆生产建设兵团141团安集海地区通过设置膜下滴灌结合暗管排水（T1）、膜下滴灌无暗管排水（T2）和无膜下滴灌无暗管排水（T3）3个不同处理进行棉花田间试验。结果表明：（1）相同土层下T1、T2、T3处理土壤含水率的变化幅度依次为6.32%、10.03%、14.32%，即：T1T2>T3；（2）T1处理在0~60 cm土层土壤含盐量均降低，20 cm、40 cm、60 cm土层土壤含盐量分别下降了63.06%、60.62%、48.42%；在棉花生育后期，T2处理在20 cm、40 cm土壤含盐量下降，60 cm土壤含盐量增加，即表层土壤脱盐会造成深层土壤积盐；T3处理生育期末期出现表层返盐现象；（3）棉花生育末期，T1处理下20 cm、40 cm、60 cm土层土壤有机质含量均增加，未铺设暗管的T2、T3处理有机质含量减少；（4）膜下滴灌结合暗管排水技术0~60 cm以内随土层深度增加土壤渗透性改善越好。（5）暗管排出水的pH、含盐量均大于灌溉水，说明暗管排水的同时带走了土壤中的盐分，有助于土壤盐碱的改良。

点击量 864 下载量 436 评论
2. ChinaXiv:201711.01975
下载全文

引文元数据的自动发现和标注方法研究——以外文引文为例

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

姜霖王东波

摘要：【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

点击量 2526 下载量 1404 评论
3. ChinaXiv:201711.01995
下载全文

引文元数据的自动发现和标注方法研究——以外文引文为例

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

姜霖王东波

摘要：【目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

点击量 2657 下载量 1566 评论
4. ChinaXiv:201711.01252
下载全文

采用连续词袋模型(CBOW)的领域术语自动抽取研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

姜霖王东波

摘要：【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW 模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用PageRank 算法计算候选词汇的领域代表性并排序, 通过阈值的设定, 抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW 模型完成术语的抽取工作是一个较为合理、可行的方法。

点击量 2698 下载量 1810 评论
5. ChinaXiv:202307.00295
下载全文

新时代人民日报分词语料库构建、性能及应用(三)-句长与词的分析比较

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布，有助于了解当代汉语文本的语言学特征，进而开展自然语言处理和文本挖掘研究。[方法/过程] 在2018年1月人民日报分词语料的基础上，结合1998年1月人民日报分词语料，确定统计中所使用的6种句子类别，统计和分析字与词单位上的句子长度分布，并基于齐普夫定律揭示词汇静态分布情况。[结果/结论] 从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看，随着时间的推移，在1998和2018两个语料上，句子的长度和词汇的分布均发生变化，但这种变化又是延续的、有关联的。

点击量 450 下载量 112 评论
6. ChinaXiv:202307.00312
下载全文

新时代人民日报分词语料库构建、性能及应用(二)-深度学习自动分词模型构建

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型，不仅有助于为高性能分词模型的构建提供经验，也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型（Bi-LSTM）和双向长短时记忆与条件随机场融合模型（Bi-LSTM-CRF）的基础上，阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况，分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型，并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看，所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上，Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型，但这一差距非常细微。

点击量 372 下载量 164 评论
7. ChinaXiv:202307.00327
下载全文

新时代人民日报分词语料库构建、性能及应用(一)-语料库构建及测评

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

黄水清王东波

摘要： [目的/意义] 构建与新时代相适应的人民日报分词语料库，为中文信息处理提供最新的精标注语料，也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上，描述所构建新时代人民日报语料库的数据源、标注规范和流程，通过构建分词自动标注模型测评语料库的性能，并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范，规模大，时间跨度长。选取其中的2018年1月部分，基于条件随机场构建分词模型，与1998年1月人民日报语料进行性能测评与对比，所得到的各项具体测评指标表明，新时代人民日报语料整体性能突出，1998年语料无法替代，当前构建该语料库非常必要。

点击量 402 下载量 134 评论
8. ChinaXiv:202303.09888
下载全文

促进当事人的改变：基于治疗性最近发展区的视角

分类：心理学 >> 社会心理学提交时间： 2023-03-28 合作期刊: 《心理科学进展》

王东美项可嘉

摘要：作为心理治疗的有效区域, 治疗性最近发展区是指当事人当前适应问题经验的能力和通过治疗师的协助能够达成的潜在能力之间的距离。早期的同化模型理论更注重对心理治疗改变过程的描述, 治疗性最近发展区理论则能够进一步解释治疗师在不同阶段的帮助策略。在研究上, 治疗性最近发展区理论建立在非传统的方法论基础上, 通过不断累积个案的质性研究, 帮助治疗师理解和解释不同咨询效果的互动过程, 并使理论得到持续发展; 在临床上, 治疗性最近发展区为理解心理治疗过程中倒退现象提供了新视角, 并能够有效指导在治疗过程中采取挑战性还是支持性策略。未来研究可从临床上探索经验丰富的治疗师的实践智慧, 也可选取较大跨度的治疗对话序列, 对不同流派的特点, 从不同参与者的视角出发进行研究, 进而深化对心理治疗过程机制的理解。

点击量 147 下载量 93 评论
9. ChinaXiv:202310.02280
下载全文

科技期刊青年编辑综合能力的培养

分类：数字出版 >> 新媒体提交时间： 2023-10-08 合作期刊: 《中国传媒科技》

周丽曾蕴林王东

摘要：从2016年基金委公布因存在科研不端行为而退稿的事件中反思,青年编辑需要在摸索中不断提高学术不端行为的鉴别能力,建立各职能监管部门建立沟通平台,不断提高科技期刊编辑业务能力。同时,青年编辑应在工作中不断培养学习能力,在工作和学习中自我鼓励、肯定自己,探索工作中的未知,这样才能拓展知识业务水平,成为一名的综合型编辑人才。

点击量 149 下载量 78 评论
10. ChinaXiv:201901.00078
下载全文

“一带一路”下旅游文化产业的大数据体系架构与实施途径研究

分类：物理学 >> 普通物理:统计和量子力学,量子信息等提交时间： 2019-01-11 合作期刊: 《干旱区地理》

杨更生王东孙彬

摘要：本文探究“一带一路”旅游大数据的产业创新体系架构，明确“旅游文化建设、旅游消费习性培育、跨域资源协作”等产业创新路径，明晰沿线各国的文化融合途径，构建以“文化通”为内涵的旅游大数据体系。通过文献梳理、质化研究和实时数据分析，建构适用性旅游大数据架构，解决“一带一路”旅游文化产业中的信息稀疏、习性碎片化和诚信不足等现实困难，助力沿线各国的旅游发展新局面。借鉴应用系统工程中霍尔三维支撑理论，从知识、时间和逻辑三个维度，搭建新时代条件下旅游业态的以价值集聚、诚信保护和旅游文化传承为核心的创新途径支持体系，为旅游经济管理理论，提供了一个全新的研究视角。

点击量 6481 下载量 1050 评论
11. ChinaXiv:202310.00635
下载全文

面向人民日报语料的新闻自动摘要生成

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-10-08 合作期刊: 《知识管理论坛》

梁媛王东波黄水清

摘要： [ 目的 / 意义 ] 面向主流新闻媒体人民日报语料展开研究，旨在为文本自动摘要研究提供思路和实践支撑，进而应用到新闻等相关文本信息处理中，为知识聚合服务和信息获取途径研究做出贡献。[ 方法 / 过程 ] 以新时代人民日报语料 NEPD 中的 2015 年 1 月、2015 年 6 月和 2016 年 1 月的人民日报分词语料作为实验语料，基于 TF-IDF、Textrank 等抽取式自动摘要算法，以及基于指针生成网络的生成式自动摘要模型展开研究，并对摘要结果进行分析评价。[ 结果 / 结论 ] 实验设计面向人民日报语料的新闻抽取式自动摘要算法，构建面向人民日报语料的新闻生成式自动摘要指针生成网络模型，并通过 Rouge 指标（包括 Rouge-1、 Rouge-2和 Rouge-L 3种指标）对实验结果进行评测，为人民日报分词语料的应用提供具体思路，并对新闻自动摘要系统研究提供语料支持和实践支撑。

通过

点击量 347 下载量 117 评论
12. ChinaXiv:202304.00548
下载全文

基于典籍文本的农作物时间分布及演化特征研究——以《食货志》为例

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

崔斌王东波黄水清

摘要： [目的/意义] 我国农作物种植历史悠久，分析古代农作物的时间分布与发展演化情况对优化现代农业种植结构具有重要意义。[方法/过程] 提出一套深入典籍文本内容的农作物时间分布及演化特征分析方法流程，主要包括语料获取与数字化、分词与实体关系抽取、时间分布特征分析、演化特征分析4部分，并选取15本史书中的《食货志》文本进行实证分析。[结果/结论] 基于《食货志》文本的分析结果得到历史学、经济学、文献学等多学科相关研究资料的佐证，验证了方法的可行性与有效性，可以为基于典籍文本的古代农作物时间分布及演化特征分析提供借鉴。但未来还需要在提高自动化水平、扩大研究样本、细化事件类型等方面进一步优化方法流程。

点击量 142 下载量 74 评论
13. ChinaXiv:202304.00607
下载全文

古籍同事异文的自动发掘研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

梁媛王东波黄水清

摘要： [目的/意义] 异文是古籍中的常见现象，也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等，不仅耗时、费力、工作量大，而且找到的数据未必精准全面。通过计算机实现异文的自动发掘，可以从更大规模的语料中获取有效信息。并且，结合异文自动发掘的校勘方式可以实现穷尽式检索，对于古籍他校法具有重要意义，为新时期古籍校勘研究提供了新思路和新方法。[方法/过程] 本研究以《春秋》及"春秋三传"作为实验语料，引入常用于文本翻译领域的平行语料库思想，结合深度学习算法，对LSTM、BERT模型与较为经典的SVM模型进行比较实验，并对两部古籍中用不同表述描述同一事件的同事异文相关内容展开进一步探索和讨论。[结果/结论] 实验得到适用于"春秋三传"的同事异文自动发掘深度学习模型，证明深度学习等新兴技术融合到古籍知识库构建等研究中的可行性，同时，深度学习技术和平行语料库思想的结合在异文研究中能够发挥较大作用，对数字人文在汉语言文学研究中的应用提供实践支撑。

点击量 181 下载量 86 评论
14. ChinaXiv:202304.00803
下载全文

自有知识增强下的学术全文本关系抽取研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

卓可秋沈思王东波

摘要： [目的/意义] 学术全文本下的关系抽取是学术全文本知识图谱构建的关键技术，所构建的学术知识图谱能够实现文献的结构化、知识化，提高研究人员检索文献、分析文献和把握科研动态的效率，以及通过图谱的认知推理，有助于隐式知识发现。[方法/过程] 通过外部知识来增强关系抽取已在不少研究取得成果，但针对特定领域的关系抽取往往缺少可用的外部知识。研究发现，全文本中自有的高置信度的知识也可以用来辅助全文本关系抽取。受认知过程双系统理论（系统1为直觉认知，系统2为推理认知）启发，设计一个句子级模型来获取知识，并通过远程监督方式获取高置信度知识，然后将高置信度知识融入到全文本级深度学习模型最后分类的一层上。[结果/结论] 在生物医学学术全文本数据集（CDR-revised）上，比当前最先进的模型在F1上提高11.13%。

点击量 200 下载量 109 评论
15. ChinaXiv:202303.00532
下载全文

冷却速率和高径比对钛基非晶复合材料力学性能的影响

分类：材料科学 >> 材料科学（综合）提交时间： 2023-03-19 合作期刊: 《金属学报》

牟娟王东梅王沿东

摘要：通过制备不同尺寸的Ti45.7Zr33Ni2.9Cu5.9Be12.5非晶复合材料样品, 研究了冷却速率和高径比对内生枝晶相增强钛基非晶复合材料力学性能的影响. 随着制备过程中冷却速率的降低, 非晶复合材料中枝晶相的尺寸逐渐增大, 同时枝晶相熟化的现象也趋于明显. 在力学性能方面表现为非晶复合材料的强度降低而塑性增强. 与以往非晶复合材料性能对高径比比较敏感所不同的是, 本工作中的Ti45.7Zr33Ni2.9Cu5.9Be12.5非晶复合材料的力学性能对高径比的变化并不敏感, 原因在于晶态相的存在以及其中的形变诱发马氏体相变行为的发生对非晶复合材料内部应力分布的调节.

点击量 1373 下载量 255 评论
16. ChinaXiv:201711.01961
下载全文

面向食品安全突发事件汉语分词的特征选择及模型优化研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张越王东波朱丹浩

摘要：【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

点击量 2713 下载量 1728 评论
17. ChinaXiv:201711.01991
下载全文

面向食品安全突发事件汉语分词的特征选择及模型优化研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张越王东波朱丹浩

摘要：【目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag 特征标记下配合对应特征模板对目标语料分词的F 值达到92.88%。

点击量 2489 下载量 1464 评论
18. ChinaXiv:201711.02006
下载全文

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

朱丹浩杨蕾王东波

摘要：【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、召回率和F 值均有明显提高, 其中F 值提高了1.54%。在包含罕见词时提高更为明显, F 值提高了11.05%。【局限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。

点击量 3344 下载量 2358 评论
19. ChinaXiv:202401.00315
下载全文

我国英文学术期刊的国际传播能力测度与提升策略

分类：数字出版 >> 互联网期刊提交时间： 2024-01-26

王媛媛侯剑华王东毅张洋

摘要：目的测度中国英文学术期刊的国际传播能力，为提升中国期刊的国际影响力，提升增强国际学术话语权提供决策支撑。方法构建基于社交媒体的中国英文学术期刊论文传播广度、强度和速度等指标，测度中国英文学术期刊的国际传播能力，利用统计分析和非参数检验揭示各学科论文的传播特征。结果研究发现，不同学科中的期刊论文在传播广度、传播强度和传播速度的总体分布上存在显著差异。自然科学与工程技术领域，工程科技Ⅱ、基础科学和医药卫生科技领域的论文传播能力明显优于其他学科中的期刊论文；人文社会科学领域中，《Journal of Sport and Health Science》期刊一枝独秀。结论可通过挖掘各学科领域热点选题、加强期刊的建设、宣传与推广，推进落实系列发展行动计划、加大人文社科类期刊（英文）的扶植力度，鼓励科研人员参与科学传播、提升社交媒体传播技能等参考措施进一步提升中国英文期刊传播能力。

通过

点击量 278 下载量 87 评论
20. ChinaXiv:202308.00643
下载全文

基于深度学习的数据科学招聘实体自动抽取及分析研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-08-27 合作期刊: 《图书情报工作》

王东波胡昊天周鑫朱丹浩

摘要： [目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中，抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态，而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告，结合情报学的数据获取、标注和组织方法，构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上，基于Bi-LSTM-CRF、CRF和Bi-LSTM模型，对数据科学招聘实体的抽取任务进行性能的对比，确定最终的数据科学招聘实体自动抽取模型，设计数据科学招聘实体自动抽取平台，并构建数据科学招聘实体网络。

点击量 369 下载量 130 评论

1 2 3 后页尾页