ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

2023
8
2017
5

按主题分类

按作者

按机构

当前资源共 13条

隐藏摘要

点击量

时间

下载量

您选择的条件: 陆伟

1. ChinaXiv:202307.00467
下载全文

多层次融合的学术文本结构功能识别研究

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

王佳敏陆伟刘家伟程齐凯

摘要： [目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括，针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题，本文在对学术文本层次结构进行解析的基础上，构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验，该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别，接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升，综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%，并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优，最后对学术文本结构功能错分情况进行了分析，指出本研究潜在的应用领域和下一步的研究方向。

点击量 229 下载量 102 评论
2. ChinaXiv:202307.00643
下载全文

关键词共现网络视角下的学科基础词汇发现

分类：图书馆学、情报学 >> 图书馆学提交时间： 2023-07-26 合作期刊: 《图书情报工作》

于丰畅陆伟

摘要： [目的/意义]学科基础词汇是学科知识的重要基石,对于理解学科的知识体系构成、理清学科的知识脉络以及促进学科教育都有重要的意义,但长期以来其主要依赖于人工总结,目前还未实现高效地在某学科范围内自动挖掘出学科基础词汇。[方法/过程]提出一种利用关键词共现网络发现学科内较为基础的词汇的方法。该方法利用基础词汇具有相对较低的词频和在网络中具有相对较高的中心度的特性,自动从学科关键词数据集中获得该学科的基础词汇。[结果/结论]利用ACM中1969年到2012年的论文集的计算机领域(全数据集)、user interfaces和information search and retrieval两个子主题的关键词数据集验证该方法的正确性,并且该方法能够使用较简单的步骤发现数据集中全局性的基础词汇。

点击量 167 下载量 84 评论
3. ChinaXiv:202304.00450
下载全文

采故纳新继往开来——评《情报学研究方法与技术体系》

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

陆伟

摘要： [目的/意义] 对《情报学研究方法与技术体系》一书进行评介，旨在使读者了解情报学学科包含的基本研究方法、研究方法与技术体系的构建过程与结果。[方法/过程] 综合使用信息组织、自然语言处理、机器学习等理论与技术，构建情报学研究方法与技术体系、开发情报学研究方法知识库与检索系统，并针对特定场景下的情报学方法体系问题进行探索。[结果/结论] 该书视角独特，创新性地利用机器学习辅助构建学科研究方法体系，对情报学研究方法的拓新和情报学学术体系的构建具有重要的促进作用，也为学科和行业实际问题的解决提供了一把钥匙。

点击量 164 下载量 82 评论
4. ChinaXiv:202304.00549
下载全文

基于问题-方法组合的科技论文新颖性度量与创新类型识别

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

钱佳佳罗卓然陆伟

摘要： [目的/意义] 科技论文的新颖性度量是科技成果评价的重要内容，本文旨在从科技论文的核心要素即问题和方法出发，提出一种基于问题-方法组合的科技论文新颖性度量与创新类型识别方法。[方法/过程] 基于词频原则分别计算科技论文的问题新颖度、方法新颖度、问题-方法组合新颖度，再通过权重赋值计算论文整体的新颖度。同时，基于组合创新理论，从科技论文问题-方法组合的角度出发提出4种创新类型以及根据文章新颖值判断其所属创新类型的方法。[结果/结论] 对1951-2018年的20多万篇ACM论文进行实证研究，证明提出的科技论文新颖性度量方法以及创新类别识别方法是科学、合理和可操作的。

点击量 114 下载量 60 评论
5. ChinaXiv:202304.00579
下载全文

学术论文创新贡献句识别研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

罗卓然蔡乐钱佳佳陆伟

摘要： [目的/意义] 学术论文贡献句是体现论文创新性和学术价值的重要形式。以学术论文全文本和MeSH主题词为数据基础，利用自然语言处理和深度学习技术，实现学术论文贡献句识别，为学术文本创新贡献内容的细粒度挖掘奠定基础，对实现基于认知计算的学术论文评价具有重要的理论和现实意义。[方法/过程] 首先，以PubMed论文全文本为数据来源，抽取论文Mesh主题词，对论文贡献句进行要素分析和特征提取。其次，采用半自动方式实现标注数据。最后，基于Albert深度学习模型实现贡献句的自动识别。[结果/结论] 通过数据一致性检验证明实验标注的训练数据的可信性，实验结果表明，相较于其他深度学习模型，训练的自动识别模型能够更有效识别学术论文中贡献句。

点击量 116 下载量 81 评论
6. ChinaXiv:202304.00608
下载全文

多特征融合的关键词语义功能识别研究

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

张国标李鹏程陆伟程齐凯

摘要： [目的/意义] 关键词作为一种能够揭示学术文本主题及核心内容的词汇或术语，对其进行功能识别可为知识和文献的快速、精确获取提供底层索引支持。[方法/过程] 针对现有研究在关键词上下文建模中多局限于文本层面的符号语义表征，在深入挖掘文献行书规律的基础上，提出一种基于多特征融合的词汇功能识别模型。模型在采用BERT模型捕获关键词上下文依赖特征的同时，融合关键词在关键词列表和全文中的位置信息以及词汇功能先验知识信息，继而采用注意力机制和前馈神经网络对关键词进行问题方法的语义功能判别。[结果/结论] 实验结果显示，关键词的位置信息和先验知识均能有效提升关键词语义功能识别性能，其中先验知识对识别效果的提升有较大贡献。

点击量 147 下载量 62 评论
7. ChinaXiv:202304.00698
下载全文

学术查询意图类目体系构建与分析:百度学术查询日志的实证

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

王瑞雪方婧李信陆伟张显

摘要： [目的/意义] 了解、分析和识别用户学术搜索时所表达的信息需求是优化查询结果、提高学术搜索引擎用户体验的首要步骤，而用户进行学术搜索时通过查询表达式所表达的用户表意信息需求及潜在信息需求可称之为学术查询意图。本文总结学术查询意图类目体系有助于学术查询意图识别和检索结果页面的呈现。[方法/过程] 在A.Broder的查询意图类目体系的基础上，结合百度学术搜索查询日志中查询表达式实例，构建学术查询意图的类目体系。以此为基础，总结不同类别的学术查询意图，并分析不同类别学术查询意图下查询表达式的特点。[结果/结论] 学术查询意图主要分为学术文献类、学术实体类、学术探索类、知识问答类和非学术文献类五大类；得出不同类别学术查询意图在学术搜索中的大致比例；给出每类学术查询意图的查询表达式特征、查询情景和查询结果页。

点击量 131 下载量 84 评论
8. ChinaXiv:202304.00711
下载全文

基于深度学习算法的学术查询意图分类器构建

分类：图书馆学、情报学 >> 情报学提交时间： 2023-04-01 合作期刊: 《图书情报工作》

王瑞雪方婧桂思思陆伟张显

摘要： [目的/意义] 实现学术查询意图的自动识别，提高学术搜索引擎的效率。[方法/过程] 结合已有查询意图特征和学术搜索特点，从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造，运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验，计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取“关键词类”特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论] 两层分类器的宏平均F1值为0.651，优于其他算法，能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好，F1值为0.783。

点击量 115 下载量 69 评论
9. ChinaXiv:201711.01938
下载全文

基于图像语义的用户兴趣建模

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

曾金陆伟丁恒陈海华

摘要：【目的】社交网络环境下的用户兴趣建模是好友推荐、精准营销的关键, 利用微博用户分享的图像, 提出一种基于图像语义的用户兴趣建模方法, 旨在更加准确地预测用户的真实兴趣。【方法】在获取新浪微博用户图像数据的基础上, 使用图像的高层语义表达用户兴趣特征, 基于这些特征使用SVM 训练得到图像语义分类器进行预测。【结果】实验结果表明, 本文建立的模型能够较为准确地预测用户真实兴趣, 169 位用户分类的准确率达到97.38%, 召回率为98.92%, F 值为98.14%。【局限】由于实验图像数据集有限, 未能完整地覆盖用户所有的兴趣类别。【结论】该模型能够基于用户分享的图像较为准确地预测用户兴趣, 表明了图像高层语义的有效性, 同时为图像高层语义应用研究提供了一定的理论和技术基础。

点击量 2202 下载量 1234 评论
10. ChinaXiv:201711.02018
下载全文

查询专指度对检索效果的影响研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

任珂陆伟丁恒

摘要：【目的】针对不同查询专指度语句的检索效果进行全面分析, 为改善搜索引擎性能、提高用户检索体验提供借鉴。【方法】基于TREC Web Track 查询语句, 人工构建查询专指度标注集, 选用语言模型狄利克雷平滑、语言模型线性插值平滑和BM25 三种模型, 以常用的信息检索评价指标为基准, 探讨查询专指度强弱对检索效果在不同层次上的影响。【结果】在最靠前的几条检索结果中, 强弱专指度查询语句的检索效果差异最大, 强专指度的检索效果要明显好于弱专指度。【局限】仅在TREC 数据集上进行实验测试, 还需在其他数据集上进一步检验。【结论】搜索引擎在专指度这一维度下, 应重点关注最靠前的几条检索结果的准确性, 以此为切入点改善检索模型。

点击量 2082 下载量 1198 评论
11. ChinaXiv:201711.02052
下载全文

标准文献知识服务系统设计与实现

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

丁恒陆伟

摘要：【目的】建设面向知识层次的标准文献服务系统, 推进标准文献信息服务的知识化进程。【应用背景】标准文献知识服务系统能够对标准文献中的知识单元进行语义抽取, 依据标准文献知识之间的关联关系进行有效组织, 并为用户提供面向知识层次的标准文献信息服务。【方法】采用光符识别、自然语言处理、信息可视化等技术实现标准文献的语义组织、知识抽取、本体构建、知识图谱、本体检索等功能。【结果】用户利用标准文献知识服务系统, 能够获得面向知识层次的标准文献信息服务, 包括标准知识图谱和基于本体的标准知识检索服务【结论】标准文献知识服务系统能够改善用户体验, 满足用户的标准文献知识需求。

点击量 1908 下载量 1130 评论
12. ChinaXiv:201711.01022
下载全文

补饲发酵芦笋下脚料对母猪粪便形态和乳汁质量的影响

分类：生物学 >> 动物学提交时间： 2017-10-23 合作期刊: 《动物营养学报》

毛春瑕石显亮何余湧陆伟

摘要：本研究旨在探讨给妊娠后期和哺乳期母猪补饲发酵芦笋下脚料对母猪粪便形态和乳汁质量的影响。将15头膘情、胎次和预产期相近的怀孕母猪随机分配到Ⅰ组、Ⅱ组和Ⅲ组，每组5个重复，每个重复1头猪。Ⅰ组、Ⅱ组和Ⅲ组母猪每头每天分别补饲0、0.25和0.50 kg发酵芦笋下脚料。试验从母猪妊娠期的第85天开始到产后第21天结束。结果表明：1）给母猪补饲发酵芦笋下脚料能改善母猪的粪便形态。2）Ⅲ组母猪初乳中乳蛋白质、生长激素、胰岛素和免疫球蛋白G水平显著高于Ⅰ组（P＜0.05），肿瘤坏死因子–α水平显著低于Ⅰ组（P＜0.05）。3）Ⅱ组和Ⅲ组母猪第10天乳汁中总超氧化物歧化酶活性显著高于Ⅰ组（P＜0.05），而第21天乳汁中总超氧化物歧化酶活性则极显著高于Ⅰ组（P＜0.01）；Ⅲ组母猪第21天乳汁中丙二醛、白细胞介素–1β、白细胞介素–6和肿瘤坏死因子–α水平分别显著低于Ⅰ组（P＜0.05）。由此得出，补饲发酵芦笋下脚料能减少怀孕后期和哺乳期母猪便秘的发生，并不同程度地改善母猪乳汁质量。

点击量 1938 下载量 1168 评论
13. ChinaXiv:201711.01202
下载全文

基于多知识库的短文本实体链接方法研究——以Wikipedia 和Freebase 为例

分类：图书馆学、情报学 >> 情报学提交时间： 2017-10-11 合作期刊: 《数据分析与知识发现》

周鹏程武川陆伟

摘要：【目的】基于多知识库进行实体链接, 解决基于单一知识库的实体链接覆盖度低的问题。【方法】首先生成文本的n-gram 并利用词性和多个指称–实体字典获取候选指称, 然后生成指称组合并保留覆盖度最大且不被其他组合包含的指称组合, 接着生成候选实体序列并利用多知识库信息计算实体序列的相关度, 最后选择相关度最大的实体序列为最终结果。【结果】以Wikipedia 和Freebase为例的实验结果表明, 基于Wikipedia+Freebase的实体链接准确率、召回率、F 值分别达到71.81%、76.86%、74.25%。【局限】基于词性过滤n-gram 缺乏理论依据, 数据集FACC1 具有高准确率和低召回率的特点。【结论】利用多个知识库的实体信息, 能够提升实体链接效果。

点击量 2531 下载量 1700 评论