ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 3条

隐藏摘要

点击量

时间

下载量

您选择的条件: 王华进

1. ChinaXiv:202303.00701
下载全文

科学大数据管理技术与系统

分类：其他 >> 综合提交时间： 2023-03-19 合作期刊: 《中国科学院院刊》

黎建辉李跃鹏王华进陈明奇

摘要：由于现代科学发现越来越依赖于大规模科学数据的分析处理，如何高效管理科学大数据业已成为当下亟待解决的问题。文章分析了科学大数据的应用场景和需求，阐述了科学大数据在规模动态化、流水线管理、统一访问、数据共享（SPUS）4个方面面临的挑战。提出了包括计算和存储管理、数据流水线管理、数据融合查询管理、数据共享管理4个模块的科学大数据管理系统体系结构，并分析了系统中存在的关键技术问题。最后，介绍了国家重点研发计划项目“科学大数据管理系统”的研发进展及其未来的研究方向。

点击量 435 下载量 190 评论
2. ChinaXiv:202007.00035
下载全文

PandaDB：一种面向异构数据的智能融合管理系统

分类：计算机科学 >> 计算机应用技术提交时间： 2020-07-20

沈志宏赵子豪王华进刘忠新胡川周园春

摘要：随着大数据应用的不断深入，大规模结构化、非结构化数据带来的异构数据的融合管理、关联计算和即席查询需求日益突出。现有异构数据融合管理技术与系统存在着数据模型表示能力弱、查询执行实时性差等问题。本文提出了适用于结构化、非结构化数据融合管理和语义计算的智能属性图模型，并定义了相关属性操作符和查询语法。基于该模型实现了异构数据融合管理系统PandaDB，并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存、AI算法调度和分布式架构。测试实验和案例证明，PandaDB的协存机制和分布式架构具备较好的性能加速效果，并可应用在关联数据发布、个人相册管理、学术图谱实体消歧等融合数据智能管理的场景。

同行评议状态:待评议

点击量 5877 下载量 1903 评论
3. ChinaXiv:201805.00273
下载全文

基于(n,r,k) Fork-Join队列分析的NWR数据库写延时模型

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-05-20 合作期刊: 《计算机应用研究》

王华进黎建辉沈志宏

摘要： NWR数据库的写延时估计，可用于发现实现集群构建和运行成本最小化的节点数量、副本因子的配置组合。现有基于基准测试或模拟队列的方法受限于特定的测试配置和测试环境，只能给出写延时随配置变动的粗略结果。从分析NWR数据库Cassandra的写操作的 (n，r，k) Fork-Join队列结构入手，给出了该类队列期望逗留时间的解析解和NWR数据库写延时的理论模型，可用于建立更完备的写延时结论。分别在模拟队列和Cassandra集群上验证了 (n，r，k) 队列解析解和写延时模型的准确性。

点击量 2099 下载量 1191 评论

科学大数据管理技术与系统

PandaDB：一种面向异构数据的智能融合管理系统

基于(n,r,k) Fork-Join队列分析的NWR数据库写延时模型