分类: 其他 >> 综合 提交时间: 2023-03-19 合作期刊: 《中国科学院院刊》
摘要: 由于现代科学发现越来越依赖于大规模科学数据的分析处理,如何高效管理科学大数据业已成为当下亟待解决的问题。文章分析了科学大数据的应用场景和需求,阐述了科学大数据在规模动态化、流水线管理、统一访问、数据共享(SPUS)4个方面面临的挑战。提出了包括计算和存储管理、数据流水线管理、数据融合查询管理、数据共享管理4个模块的科学大数据管理系统体系结构,并分析了系统中存在的关键技术问题。最后,介绍了国家重点研发计划项目“科学大数据管理系统”的研发进展及其未来的研究方向。
分类: 计算机科学 >> 计算机应用技术 提交时间: 2020-07-20
摘要: 随着大数据应用的不断深入,大规模结构化、非结构化数据带来的异构数据的融合管理、关联计算和即席查询需求日益突出。现有异构数据融合管理技术与系统存在着数据模型表示能力弱、查询执行实时性差等问题。本文提出了适用于结构化、非结构化数据融合管理和语义计算的智能属性图模型,并定义了相关属性操作符和查询语法。基于该模型实现了异构数据融合管理系统PandaDB,并详细介绍了PandaDB的总体架构、存储机制、查询机制、属性协存、AI算法调度和分布式架构。测试实验和案例证明,PandaDB的协存机制和分布式架构具备较好的性能加速效果,并可应用在关联数据发布、个人相册管理、学术图谱实体消歧等融合数据智能管理的场景。
分类: 计算机科学 >> 计算机科学的集成理论 提交时间: 2018-05-20 合作期刊: 《计算机应用研究》
摘要: NWR数据库的写延时估计,可用于发现实现集群构建和运行成本最小化的节点数量、副本因子的配置组合。现有基于基准测试或模拟队列的方法受限于特定的测试配置和测试环境,只能给出写延时随配置变动的粗略结果。从分析NWR数据库Cassandra的写操作的 (n,r,k) Fork-Join队列结构入手,给出了该类队列期望逗留时间的解析解和NWR数据库写延时的理论模型,可用于建立更完备的写延时结论。分别在模拟队列和Cassandra集群上验证了 (n,r,k) 队列解析解和写延时模型的准确性。