ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 282条

隐藏摘要

点击量

时间

下载量

您选择的条件: 2017-11-08

1. ChinaXiv:201711.01926
下载全文

基于标签簇多构面信任关系的个性化推荐算法研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

陈梅梅薛康杰

摘要：【目的】在基于多构面信任关系的个性化推荐中, 解决构面难以定义以及传统信任强度计算方法的局限所导致的推荐准确性低的问题。【方法】提出一种基于标签簇的多构面信任关系定义的方法, 在标签聚类得到的标签簇基础上, 引用TF-IDF 思想及Pearson 相似度定义簇间和簇内信任关系, 构建有利于反映不同构面信任强度的信任张量, 并融入基于张量分解模型的个性化推荐算法中。【结果】基于Last.fm 数据集的仿真实验表明: 从准确率、召回率和F1 值各项指标上, 本文提出的个性化推荐算法均有良好表现, 在F1 值上平均提升达2.29%。【局限】仿真实验未针对其他领域的数据集进行进一步验证, 如微博、Twitter 等。【结论】基于标签簇多构面信任关系的个性化推荐算法通过有效定义并全面、客观地量化用户间信任关系, 从而实现推荐准确性的提高, 有利于社交网络环境下提供更令用户满意的资源。

点击量 1771 下载量 959 评论
2. ChinaXiv:201711.01927
下载全文

基于情境感知技术的移动数据自动采集系统设计与实现

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

夏立新杨金庆程秀峰

摘要：【目的】为移动环境下数据采集与分析提供一种基于情境感知技术(Context Awareness)的设计框架, 以优化移动数据自动化采集过程。【应用背景】尽管基于移动端的情景感知数据采集较之传统网络环境下的人工与半自动方式有所发展, 但利用移动端底层传感器直接获取实时用户信息, 实现实时、动态、全面的数据采集与挖掘进而达到主动提供服务的目的, 这方面的应用仍处于发展阶段。【方法】利用Android 自带的众多传感器, 设计了客户端自动采集、服务器主动接收的数据采集框架。在实证与评价方面, 设计了一个通过动态情境感知推荐高层服务的实例。【结果】实证结果表明: 该系统能够针对某一情境采集移动用户数据, 为高层推荐服务提供良好支持。【局限】采集到的数据具有较大的冗余度, 未进行多角度、全面、深度的情境推理, 需要在以后的研究中针对用户数据进行深入分析。【结论】基于情境感知的移动数据自动采集系统能够进行移动数据的主动采集, 并依据采集结果对个体或群体进行推送服务, 对移动环境下用户行为研究与情境计算研究都起到较好的支撑作用。

点击量 2895 下载量 1917 评论
3. ChinaXiv:201711.01928
下载全文

基于BPSO 随机子空间的文本情感分类研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张庆庆刘西林

摘要：【目的】针对基于机器学习的文本情感分类研究中的文本特征表示向量高维性问题, 提出BPSO 与随机子空间方法结合的选择性集成算法。【方法】在分析BPSO 与随机子空间原理的基础上给出BPSO 随机子空间的模型框架及算法流程。将中文评论语料进行特征化表示后, 使用BPSO 随机子空间进行实验验证和分析。【结果】通过改变随机子空间中子空间率的取值, 研究标准随机子空间与BPSO 随机子空间选择性集成对分类准确率和系统差异度的影响, 结果表明BPSO 随机子空间无论在分类准确率还是在系统差异度上均高于标准随机子空间。【局限】尚未在英文数据上进行验证。【结论】将BPSO 应用于随机子空间方法构成一种新颖的选择性集成模型,不仅解决了特征向量空间高维性的问题, 而且提高了分类的准确率和泛化能力, 为中文文本情感分类提供了有效的方法。

点击量 1899 下载量 1043 评论
4. ChinaXiv:201711.01929
下载全文

基于CRFs 和词典信息的中古汉语自动分词

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

王晓玉李斌

摘要：【目的】验证中古时期分词一致性和语料类别对CRFs 分词效率的影响, 在此基础上进一步提高分词效率, 降低人工校对的工作量。【方法】以中古时期的史书、佛经、小说类语料为例, 针对中古汉语的自动分词问题, 优化分词原则, 运用CRFs 模型和词典相结合的方法, 消除中古汉语人工分词结果中易出现的分词不一致问题; 同时在CRFs 分词中引入字符分类、字典信息两种特征, 并通过对比实验选取每种特征最合适的分词模板。【结果】实验结果显示, 分词结果的总F 值在封闭测试中达到99%以上, 开放测试的综合测试中也达到89%-95%。【局限】分词不一致研究主要针对双字词, 因此三字以上词语(多字词)的识别效果稍有欠缺。【结论】在有效提高分词一致性的前提下, 字符分类、词典标记特征能够有效提高中古汉语CRFs 分词的精确度。同时本文提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。

点击量 1907 下载量 1109 评论
5. ChinaXiv:201711.01930
下载全文

中国城镇居民信息消费的空间相关性与影响因素分析——基于动态空间杜宾面板模型的实证研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张肃

摘要：【目的】信息消费已成为日益增长的消费热点, 为了促进城镇居民的信息消费水平, 对其影响因素进行研究。【方法】分析中国城镇居民信息消费的发展状况及空间相关性, 以及当期信息消费会受到的三种内、外部影响, 构建相应的理论模型, 进一步基于动态空间杜宾模型进行实证研究。【结果】当期信息消费支出对相邻地区并没有产生空间溢出效应, 信息消费表现出耐用性特征, 而居民信息消费会受相邻地区居民信息消费习惯的影响; 影响因素中物价和收入的提升, 短期内会促使本地居民信息消费支出增加; 而受教育水平和信息基础设施水平的提升, 短期内会对相邻地区产生显著的正向空间溢出效应; 长期效应中, 只有物价和收入对本地居民信息消费支出有影响。【局限】由于数据的可获得性, 选用物价指数、受教育水平、信息基础设施、网民人数、收入等5 个因素进行分析, 未考虑的因素可能会对分析结果产生影响。【结论】在研究居民消费的影响因素时, 必须考虑空间效应的各种影响, 否则估计结果可能是有偏的。

点击量 1681 下载量 941 评论
6. ChinaXiv:201711.01931
下载全文

用户步行导航过程中的情感变化研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吴丹刘畅李翼

摘要：【目的】优化用户体验, 提高用户对导航系统的持续使用性。【方法】采用用户实验和基于情感词典的情感分析方法, 使用程度副词系数量、中文情感词汇本体、极性短语的强度计算公式等对情感短语进行量化, 分析影响情感的因素及其变化规律。【结果】用户在步行导航过程中的情感变化主要受到系统因素和环境因素的影响,系统更新的不及时、定位不准、环境恶劣均会对用户的情感造成影响。【局限】情感是一个复杂而且涵盖广泛的概念, 仅通过文本分析可能存在不足。【结论】通过改进系统本身和增添人性化的设置提高用户对导航系统的持续使用性, 为系统未来的升级提供有效参考。

点击量 2743 下载量 1616 评论
7. ChinaXiv:201711.01932
下载全文

基于GPS 定位的步行导航用户分心研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吴丹袁方

摘要：【目的】分析定位准确度不一样的情况下用户分心的情况, 并提出有效减少用户分心的建议与策略。【方法】采用基于真实场景的模拟实验方式, 通过设置对照组, 使用描述性统计方法和差异性检验来分析和比较在是否开启GPS 定位的两种情况下, 用户分心次数和时长的情况。【结果】研究结果表明, 开启GPS 定位的情况下, 用户对地图路线依赖度会明显增加, 导致用户更加关注GPS 定位点的指向, 增加用户中途停留行为, 但是会减少操作地图的行为。【局限】实验设计中无法排除实验者个体因素对实验结果的影响, 并且可参考的理论依据较少。【结论】步行导航中出现分心会增加步行时长, 降低满意度, 增加错误率。为了减少用户分心, 不仅用户需要减少对手机地图规划的路线的依赖度, 地图导航系统应该提供具体化、全面化导航信息。

点击量 2555 下载量 1517 评论
8. ChinaXiv:201711.01933
下载全文

基于出声思考法的步行导航关注点研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吴丹陆柳杏

摘要：【目的】研究用户步行导航中的关注点及变化, 检验出声思考法是否适用于研究室外真实环境下的用户信息行为, 并从用户关注点角度出发为移动地图APP 提供改进建议。【方法】设计三个室外真实环境下的步行导航实验, 要求用户一边操作一边出声思考。【结果】步行导航中用户对搜索系统的关注多于对外部信息的关注; 在步行导航过程中用户对搜索系统结果显示的关注高, 在步行前、中、后期对外部信息的主要关注呈现出“环境状况–位置–目的地情况”的变化。【局限】手工将数据按照三个时间段划分, 存在不可避免的误差。【结论】出声思考法适用于室外真实环境下的用户交互研究; 从用户关注的外部信息和搜索系统本身出发来优化地图功能, 可以给予用户更好的用户体验。

点击量 2356 下载量 1392 评论
9. ChinaXiv:201711.01934
下载全文

移动地图交互中的步行路线规划情境研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吴丹程磊

摘要：【目的】分析不同情境因素对用户步行路线规划的影响, 构建用户路线规划的情境模型。【方法】邀请30名用户完成室外步行导航实验, 对用户路线规划的情境和行为进行Spearman 相关性分析和多元线性回归分析。【结果】初始规划阶段, 目的地选择次数越多, 用户搜索时长越长; 对估计时间在意程度越高, 对路线的浏览时长越长。重新规划阶段, 不同性别和年龄的用户其主观时间压力不同; 任务困难度越高时其操作次数反而会减少。【局限】数据处理存在一定的主观性; 实验中其他因素给用户的心理和行为产生潜在影响, 可能会对实验结果造成一定的干扰。【结论】步行路线规划情境模型更关注行为因素, 揭示初始路线规划和重新规划路线的各个情境因素的关系, 为移动地图开发者提供参考价值。

点击量 2404 下载量 1404 评论
10. ChinaXiv:201711.01935
下载全文

时间限制对步行导航信息行为的影响研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吴丹李翼董晶

摘要：【目的】研究有无时间限制如何影响用户的步行导航行为和交互体验。【方法】采用用户实验法, 招募20名大学生并随机分成两组(时间限制组和非时间限制组)参与户外导航实验, 并完成两个不同类型的导航任务: 室外导航和室内导航任务。【结果】实验结果发现, 时间限制会产生时间压力, 但是对产生的时间压力的强度并没有显著性的影响; 当用户既不知道自己要去某地且不知某地的具体位置时, 时间限制对用户的任务完成时长、文本页面的停留时长和滑动次数有显著性影响; 当用户寻找一个不知道具体位置的地点时, 时间限制对用户的导航行为没有显著性影响; 室内导航中, 时间限制对用户的缩放次数和上滑次数有显著性影响。【局限】实验用户规模较小。【结论】时间限制影响用户的导航行为, 当时间限制时, 用户会通过减少屏幕操作次数从而加快到达目的地。

点击量 2219 下载量 1227 评论
11. ChinaXiv:201711.01936
下载全文

基于改进CFSFDP 算法的文本聚类方法及其应用

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

詹春霞王荣波黄孝喜谌志群

摘要：【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP 算法, 通过粒子群算法寻找CFSFDP 算法中的最佳局部密度和距离阈值, 得到相对较高的局部密度和距离的聚类中心, 减少离散点对数据中心选取的影响, 并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明, 在不同的数据集中, 本文算法相对于基本的CFSFDP 算法在准确率、召回率、F 值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果, 应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。

点击量 26350 下载量 1511 评论
12. ChinaXiv:201711.01937
下载全文

科技文献检索系统语义丰富化框架的设计与实践

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

谢靖王敬东吴振新张智雄王颖叶志飞

摘要：【目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具,深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

点击量 4723 下载量 2840 评论
13. ChinaXiv:201711.01938
下载全文

基于图像语义的用户兴趣建模

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

曾金陆伟丁恒陈海华

摘要：【目的】社交网络环境下的用户兴趣建模是好友推荐、精准营销的关键, 利用微博用户分享的图像, 提出一种基于图像语义的用户兴趣建模方法, 旨在更加准确地预测用户的真实兴趣。【方法】在获取新浪微博用户图像数据的基础上, 使用图像的高层语义表达用户兴趣特征, 基于这些特征使用SVM 训练得到图像语义分类器进行预测。【结果】实验结果表明, 本文建立的模型能够较为准确地预测用户真实兴趣, 169 位用户分类的准确率达到97.38%, 召回率为98.92%, F 值为98.14%。【局限】由于实验图像数据集有限, 未能完整地覆盖用户所有的兴趣类别。【结论】该模型能够基于用户分享的图像较为准确地预测用户兴趣, 表明了图像高层语义的有效性, 同时为图像高层语义应用研究提供了一定的理论和技术基础。

点击量 2277 下载量 1263 评论
14. ChinaXiv:201711.01939
下载全文

一种基于滑动窗口模型的MOOCs辍学率预测方法

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

卢晓航王胜清黄俊杰陈文广闫增旺

摘要：【目的】通过北京大学在Coursera 平台上运行的课程数据, 对学生的辍学行为进行研究, 以期预测学生的辍学点和辍学行为, 改建教学慕课质量和方法。【方法】在课程数据基础上, 提取19个特征, 使用机器学习算法构建滑动窗口模型, 动态预测学习者辍学率。【结果】模型预测准确率高, 普遍在90%以上, 效果稳定, 支持向量机(SVM)和长短记忆网络(LSTM)方法建模效果更好。【局限】课程数据选课人数偏多, 没有考虑其他课程数据稀疏问题, 模型的可移植性仍需要进一步考虑。【结论】使用滑动窗口模型建模, 能够帮助MOOC课程教师和设计者动态地追踪课程学习者辍学行为, 准确率高, 可以帮助教师通过快速的反馈来调整课程, 降低辍学率。

点击量 2395 下载量 1478 评论
15. ChinaXiv:201711.01940
下载全文

基于关联数据的类簇语义揭示模型研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

崔家旺李春旺

摘要：【目的】调研基于关联数据揭示类簇内主题词间语义关系的模型和技术方法。【方法】利用Google Scholar、Springer、CNKI 等检索与研究主题相关的文献, 调研分析并梳理当前类簇分析和语义关系揭示相关研究, 构建基于关联数据的类簇语义关系揭示模型, 通过实验验证模型的有效性。【结果】实验结果表明, 利用关联数据可以有效揭示主题词间语义关系, 弥补传统共词聚类分析在语义方面的不足。【局限】受实验数据限制, 目前揭示出的语义关系局限于上下位类关系、类与实例关系和相关关系等类型, 未考虑关联数据质量问题对语义揭示结果造成的影响。【结论】提出的基于关联数据的类簇语义关系揭示模型可以有效揭示主题词间语义关系, 为共词聚类结果的理解和分析提供一种新的方式。

点击量 2442 下载量 1294 评论
16. ChinaXiv:201711.01941
下载全文

信息生态视域下移动医疗APP用户持续使用意愿分析

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张敏罗梅芬聂瑞张艳

摘要：【目的】探究影响移动医疗APP 持续使用意愿的因素及其内在作用机理。【方法】从信息生态的研究视角出发, 分析信息、信息人、信息技术和信息环境4 类影响因素, 并基于期望确认模型提出研究假设构建研究模型。【结果】选取多个移动医疗APP 用户为实验者, 采用“日志追踪实验+调查问卷”的方式收集288 份有效数据并利用SmartPLS2.0 对模型进行检验。结果表明, 期望确认模型中的关系在移动医疗情境下均成立; 信息准确性和一致性、信息人的感知健康威胁、信息技术的易用性和响应性、信息环境的直接和间接网络外部性均会正向促进移动医疗APP 的期望确认和感知有用性; 而信息人的电子健康素养则会正向促进期望确认, 负向抑制感知有用性。【局限】实验样本数量有待扩充, 得出的结论有待进一步推广。【结论】用户的移动医疗APP 持续使用行为是信息、信息人、信息技术和信息环境共同作用的结果。

点击量 2558 下载量 1627 评论
17. ChinaXiv:201711.01942
下载全文

结合链路预测和ET机器学习的科研合作推荐方法研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

吕伟民王小梅韩涛

摘要：【目的】结合链路预测与机器学习, 提出推荐未来科研合作的新方法, 以提高单独基于链路预测方法的推荐精确度。【方法】构建加权作者合作网, 以不同的链路预测指标作为特征输入, 运用极端随机树(Extremely Randomized Trees, ET)机器学习算法训练分类, 并利用遍历算法求取分类结果的最优权重组合, 选取TOP 准确度的预测作为合作推荐结果。【结果】选取纳米科技领域2008 年–2010 年SCI 论文数据进行实证。在城市合作推荐中, 改进的ET 方法优于已有方法, 有良好的推荐成功率; 预测方法受网络结构等因素影响较小, 适用范围更广泛。【局限】科研合作受合作动机、地域、语言等诸多因素影响, 加权作者合作网没有反映在一篇论文中同城市、同机构的多个作者, 也没有反映上述因素。【结论】改进算法能够比单个预测指标产生更准确的合作推荐建议, 也为推广到大学等机构、个人等更微观的应用层面提供参考。

点击量 4313 下载量 2941 评论
18. ChinaXiv:201711.01943
下载全文

基于合作网络的学者动态学术影响力模式识别研究

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

范如霞曾建勋高亚瑞玺

摘要：【目的】利用高合作学者识别算法和学者影响力模式识别算法识别出团队的高合作学者以及其动态学术影响力模式, 为团队中人才成长提供参考。【方法】根据学者的合作人数情况, 区分出团队中的高合作学者; 利用高合作学者的发文量和度数中心度指标测度学者的个人影响力和在团队的影响力, 识别学者的动态学术影响力模式。【结果】不同团队中的高合作学者数量不一, 为零至多个。高合作学者的动态学术影响力模式不同, 识别为稳步增长或成熟波动模式。【局限】仅利用两个指标来测度学者影响力, 对于较复杂情况的学者需引入更多的指标识别其动态学术影响力模式。【结论】高合作学者识别算法和学者影响力模式识别算法能够较合理地识别出团队中的高合作学者及其动态学术影响力模式。

点击量 2192 下载量 1224 评论
19. ChinaXiv:201711.01944
下载全文

基于论文合著网络的学术社区分析方法研究——以《美国地理学家联合会会刊》为例

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

卿雅娴李锐吴华意

摘要：【目的】对论文合著网络进行分析, 划分并分析学术社区, 发现领域发展与变化规律。【方法】利用社区快速发现算法识别合著网络中的学术社区, 建立学者论文影响力与合作影响力的综合指标, 评价学术社区中学者的学术影响力, 并以学术影响力最大的三个社区为例, 从生命周期的角度分析和讨论学术社区的发展和演化。【结果】基于《美国地理学家联合会会刊》的数据分析表明: 本文提出的综合指标能够有效地挖掘学术社区中的杰出学者; 基于生命周期的合著网络中学术社区分析方法可以发现不同学术社区的研究趋势和热点变化。【局限】以单一期刊为例, 可能导致学术社区的组成相对单薄, 增加不同来源的期刊数据能够进一步提升研究结果的可信性。【结论】本文提出的学术社区分析方法, 可以从不同角度发现与解释领域的发展方向和规律, 为相关领域学者的研究工作提供更加科学的指导和认识。

点击量 1410 下载量 759 评论
20. ChinaXiv:201711.01945
下载全文

信息类、导航类与事务类查询的网络动态性分析

分类：图书馆学、情报学 >> 情报学提交时间： 2017-11-08 合作期刊: 《数据分析与知识发现》

张晓娟

摘要：【目的】分析信息类、导航类与事务类查询随时间的网络动态性特征, 以期为搜索引擎性能优化提供相关依据。【方法】利用相关评测指标分别从查询动态﹑文档内容动态和信息需求动态三个角度出发, 分析不同意图类别查询随时间变化所呈现的特征; 针对不同意图类别查询, 分析在不同查询流行度特征中, 其文档内容以及信息需求的变化情况。【结果】在查询流行度分布方面, 信息类查询通常包含波峰, 事务类查询更可能包含多个波峰且具有周期性, 导航类查询通常保持平滑趋势; 信息类查询随网页内容与信息需求变化幅度均比其他两类查询的要大。【局限】观察时间段只有29 天; 未对不包含波峰与包含多个波峰的查询流行度分布图中波峰进行归类与自动识别。【结论】对于信息类查询来说, 搜索引擎尽可能地对其查询结果进行多样化展示; 对于导航类查询来说, 搜索引擎需要保证与之相关权威网页在查询结果中的靠前性; 对于与用户交互行为相关的事务类查询, 应长时间保持相关网页排序不变; 对于一些与娱乐相关事务类查询, 在网页排序中需考虑网页的新颖性。

点击量 1751 下载量 872 评论

1 2 3 4 5 6 7 8 9 10 后页尾页