ChinaXiv.org 中国科学院科技论文预发布平台

按提交时间

按主题分类

按作者

按机构

当前资源共 27条

隐藏摘要

点击量

时间

下载量

1. ChinaXiv:202301.00114
下载全文

基于深度强化学习的移动边缘计算资源分配策略

分类：计算机科学 >> 计算机科学技术其他学科提交时间： 2023-01-17

冯北鹏黄昱泽曹宇慧郭珍珍

摘要：云计算可解决移动设备计算资源不足的问题，但无法满足低时延的服务需求，边缘计算作为云计算技术的延伸，可通过增强边缘网络计算能力从而为用户提供低时延高质量服务。边缘计算中，需要将服务部署于资源受限的边缘服务器，并根据需求合理分配计算资源，以提高边缘服务器资源利用率，为此，本文提出了一种基于深度强化学习的服务资源分配方法，利用反正切函数两次映射建立计算资源分配函数，并实现分配比例的动态调整，最后基于真实数据集进行仿真实验，实验结果表明，本文提出的方法能够在保证低时延的情况下，合理分配计算资源。云计算可解决移动设备计算资源不足的问题，但无法满足低时延的服务需求，边缘计算作为云计算技术的延伸，可通过增强边缘网络计算能力从而为用户提供低时延高质量服务。边缘计算中，需要将服务部署于资源受限的边缘服务器，并根据需求合理分配计算资源，以提高边缘服务器资源利用率，为此，本文提出了一种基于深度强化学习的服务资源分配方法，利用反正切函数两次映射建立计算资源分配函数，并实现分配比例的动态调整，最后基于真实数据集进行仿真实验，实验结果表明，本文提出的方法能够在保证低时延的情况下，合理分配计算资源。

同行评议状态:待评议

点击量 3812 下载量 389 评论
2. ChinaXiv:201812.00098
下载全文

基于雾计算和强化学习的交通灯智能协同控制研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-12-13 合作期刊: 《计算机应用研究》

安萌萌樊秀梅蔡含宇

摘要：智能交通系统(ITS)的目标是从根本上解决道路安全、车辆拥挤、环境污染等对城市造成的影响，交叉路口是道路和车辆的交汇处，也是交通拥堵现象最严重的地方。针对路口交通拥堵现象，结合雾计算和强化学习理论，提出了一种FRTL(fog reinforcement traffic light)交通灯控制模型，该模型根据实时的交通流信息进行交通灯智能协同控制。雾节点将收集到的实时交通流信息上传到雾服务器，雾服务器在雾平台实现信息共享，雾平台结合处理后的共享数据和Q学习制定交通灯控制算法。算法利用检测到的实时交通数据计算出合适的交通灯配时方案，最终应用到交通灯上。仿真结果表明，与传统的分时段控制方式和主干道控制方式(ATL)相比，FRTL控制方法提高了路口的吞吐量，减少了车辆平均等待时间，达到了合理调控红绿灯时间、缓解交通拥堵的目标。

点击量 893 下载量 492 评论
3. ChinaXiv:202303.09891
下载全文

从好奇发生到满足：好奇反馈循环的神经生理机制

分类：心理学 >> 社会心理学提交时间： 2023-03-28 合作期刊: 《心理科学进展》

陈念劬

摘要：好奇是驱动信息寻求行为最主要的内部动机。从感知信息缺口使好奇发生, 到对控制进行价值评估, 信息寻求行为发生, 再到目标信息获得使好奇满足, 每一环节都受到当前信息输入和上一环节反馈输出的影响, 它们构成了一个反馈循环。该循环还嵌入在个体的终生发展过程中, 随着经验积累和脑的发育不断变化。好奇反馈循环模型融入了控制的期望价值模型和贝叶斯强化学习框架, 整合了来自监控系统、奖赏系统、控制系统等多个脑功能系统的研究证据, 为理解好奇的神经生理机制提供了新思路。

点击量 162 下载量 96 评论
4. ChinaXiv:202207.00038
下载全文

从好奇发生到满足：好奇反馈循环的神经生理机制

分类：心理学 >> 认知心理学提交时间： 2022-07-06

陈念劬

摘要：好奇是驱动信息寻求行为最主要的内部动机。从感知信息缺口使好奇发生，到对控制进行价值评估，信息寻求行为发生，再到目标信息获得使好奇满足，每一环节都受到当前信息输入和上一环节反馈输出的影响，它们构成了一个反馈循环。该循环还嵌入在个体的终生发展过程中，随着经验积累和脑的发育不断变化。好奇反馈循环模型融入了控制的期望价值模型和贝叶斯强化学习框架，整合了来自监控系统、奖赏系统、控制系统等多个脑功能系统的研究证据，为理解好奇的神经生理机制提供了新思路。

同行评议状态:待评议

点击量 2791 下载量 289 评论
5. ChinaXiv:202009.00119
下载全文

基于生成对抗网络的智能音乐制作综述

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2020-09-28 合作期刊: 《计算机应用研究》

马丹吴跃

摘要：如何借助计算机算法进行音乐的自动或半自动化生成工作一直是人工智能领域的一个研究热点。近年来，随着深度学习技术的深入发展，使用基于神经网络并契合乐理先验知识的方法来生成高质量、多样性智能音乐的任务也引起了研究者的重视。其中，引入生成对抗机制以提升生成效果的工作取得了一定成果，同时也具备极大的提升空间。为了更好地推进后续研究工作，对相关领域的现有成果进行全面而系统的梳理、分析、总结具有比较重要的意义。首先对机器作曲的发展过程进行了回顾，对音乐领域常用的GANs相关重要模型进行了简要归纳介绍，对引入了生成对抗训练机制的音乐生成方法进行了重点分析，最后对该领域的现状进行了总结并进一步展望了未来的发展方向。

点击量 1158 下载量 561 评论
6. ChinaXiv:201905.00021
下载全文

深度强化学习复原多目标航迹的TOC奖励函数

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-05-10 合作期刊: 《计算机应用研究》

贺亮徐正国贾愚沈超李赟

摘要：针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景，需要利用目标位置信息还原各航迹并区分各目标的问题进行研究，提出采用深度强化学习方法复原目标航迹的方法。依据目标航迹的物理特点，提取数学模型，结合目标航迹的方向、曲率等提出轨迹曲率圆(trajectory osculating circle，TOC)奖励函数，使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题，并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明，TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹，在航向和航速方面切合实际目标航迹。

点击量 3007 下载量 1433 评论
7. ChinaXiv:202206.00058
下载全文

基于分层强化学习的自动驾驶车辆掉头问题研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-06-06 合作期刊: 《计算机应用研究》

曹洁邵紫旋侯亮

摘要：调头任务是自动驾驶研究的内容之一，大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题文中建立了一种车辆掉头动力学模型，并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外文中还针对调头任务中的稀疏奖励问题，结合分层强化学习和近端策略优化算法提出了分层近端策略优化算法，在简单和复杂场景的实验中，该算法相比于其他算法能够更快的学习到策略，并且具有更高的掉头成功率。

点击量 5231 下载量 601 评论
8. ChinaXiv:202205.00123
下载全文

基于目标的域随机化方法在机器人操作方面的研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-05-18 合作期刊: 《计算机应用研究》

张夏禹陈小平

摘要：使用强化学习解决机器人操作问题有着诸多优势，然而传统的强化学习算法面临着奖励稀疏的困难，且得到的策略难以直接应用到现实环境中。为了提高策略从仿真到现实迁移的成功率，提出了基于目标的域随机化方法：使用了基于目标的强化学习算法对模型进行训练，可以有效的应对机器人操作任务奖励稀疏的情况，得到的策略可以在仿真环境下良好运行，于此同时在算法中还使用了目标驱动的域随机化的方法，在提高策略泛用性以及克服仿真和现实环境之间的差距上有着良好的效果，仿真环境下的策略容易迁移到现实环境中并成功执行。结果表明，使用了基于目标的域随机化方法的强化学习算法有助于提高策略从仿真到现实迁移的成功率。

点击量 960 下载量 411 评论
9. ChinaXiv:202205.00080
下载全文

基于深度强化学习的随机资源受限多项目动态调度策略

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-05-10 合作期刊: 《计算机应用研究》

郭晓剑胡方勇

摘要：目前对于随机工期的分布式资源受限多项目调度(SDRCMPSP)问题的研究较少且大多数为静态调度方案，无法针对环境的变化实时地对策略进行调整优化，及时响应频繁发生的动态因素。为此建立了最小化总拖期成本为目标的随机资源受限多项目动态调度DRL模型，设计了相应的智能体交互环境，采用强化学习中的DDDQN算法对模型进行求解。实验首先对算法的超参数进行灵敏度分析，其次将最优组合在活动工期可变和到达时间不确定两种不同条件下对模型进行训练及测试，结果表明深度强化学习算法能够得到优于任意单一规则的调度结果，有效减少随机资源受限多项目期望总拖期成本，多项目调度决策优化提供良好的依据。

点击量 272 下载量 110 评论
10. ChinaXiv:201812.00127
下载全文

基于排序优先经验回放的竞争深度Q网络学习

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2018-12-13 合作期刊: 《计算机应用研究》

周瑶瑶李烨

摘要：为减少深度Q网络算法的训练时间，采用结合优先经验回放机制与竞争网络结构的DQN方法，针对Open AI Gym平台Cart Pole和Mountain Car两个经典控制问题进行研究，其中经验回放采用基于排序的机制，而竞争结构中采用深度神经网络。仿真结果表明，相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法，该方法具有更好的学习性能，训练时间最少。同时，详细分析了算法参数对于学习性能的影响，为实际运用该方法提供了有价值的参考。

点击量 1634 下载量 934 评论
11. ChinaXiv:202303.09195
下载全文

反馈负波及其近10年理论解释

分类：心理学 >> 发展心理学提交时间： 2023-03-28 合作期刊: 《心理科学进展》

李丹阳李鹏李红

摘要：个体决策后的反馈对随后的结果监控和行为调整起着至关重要的作用。事件相关脑电位研究发现, 反馈负波(feedback-related negativity, FRN)是与决策后反馈加工过程紧密相关的脑电成分。近10年来关于FRN的理论解释, 在最初经典的强化学习理论和情绪动机假说的基础上又提出了反应-结果的预测模型、奖赏正波理论以及积极情绪启动模型。未来的研究应该立足于大样本, 采用互补的研究手段和多样的分析技术来探讨FRN的心理意义; 同时考虑将FRN作为奖赏加工的脑电指标, 研究社会互动情境下的人类行为。

点击量 258 下载量 131 评论
12. ChinaXiv:202303.09414
下载全文

反馈相关负波与成瘾

分类：心理学 >> 发展心理学提交时间： 2023-03-28 合作期刊: 《心理科学进展》

陈乐乐黄蓉贾世伟

摘要：反馈相关负波(feedback-related negativity, FRN)是反馈加工诱发的脑电成分, 体现了个体对奖赏的敏感性。成瘾分为物质成瘾和行为成瘾, 两类个体的反馈加工都呈现病理性模式。相对于普通反馈物(如金钱), 物质成瘾个体在加工成瘾物质时诱发的FRN波幅显著增大; 在与非成瘾被试的对照研究中, 物质成瘾者加工金钱反馈时的FRN也表现出与成瘾相关的异常模式; 在行为成瘾个体中亦观察到与物质成瘾个体类似的FRN失调现象。但以往多数研究中对成瘾类型的区分还不够详细, 未来研究应进一步考虑成瘾不同亚型的特点; 且成瘾个体往往伴随其他精神障碍(如抑郁、焦虑), 将来的研究要区分共病因素的影响, 揭示成瘾独特的奖赏加工机制问题。

点击量 198 下载量 109 评论
13. ChinaXiv:202205.00055
下载全文

多基站下基于DRL的RAN切片资源分配

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-05-10 合作期刊: 《计算机应用研究》

马英洪江凌云

摘要：在第五代移动通信中，网络切片被用来为各种业务提供一个最佳的网络。针对多基站下的RAN切片场景，以往的资源分配方法在切片的数量发生变化时无法满足切片的需求而且只适用于特定的场景，针对这个问题，提出了一种实现最佳资源分配且与切片数无关的方法。该方法先利用Ape-X方法(一种DRL方法)将资源分配给切片，再经过切片到基站的资源映射和用户资源分配来满足用户的需求。仿真结果表明，所提出的方法能够根据切片的状态和需求分配资源，分配了必要数量的RB以满足切片的需求而且不受切片数量变化的影响。同时，该方法也具有很高的通用性能和扩展性。

点击量 595 下载量 239 评论
14. ChinaXiv:202205.00089
下载全文

基于深度强化学习的生鲜产品联合库存控制与动态定价研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-05-10 合作期刊: 《计算机应用研究》

毕文杰周玉冰

摘要：针对由于生鲜产品的易逝性特征以及复杂多变的现实环境导致生鲜产品的最优订货和定价策略难以获得问题，提出了基于深度强化学习方法的生鲜产品联合库存控制与动态定价方法，结合生鲜产品特性对问题进行建模并定义为马尔可夫决策过程，然后基于深度强化学习设计了生鲜品联合库存控制和动态定价算法。实验结果表明，基于深度强化学习的联合库存控制和动态定价策略收益表现最佳，因此，基于深度强化学习的联合库存控制和动态定价研究能够提高企业收益，有效促进强化学习在收益管理领域的落地，具有实际应用价值。

点击量 340 下载量 167 评论
15. ChinaXiv:202001.00080
下载全文

反馈相关负波与成瘾

分类：心理学 >> 医学心理学提交时间： 2020-01-12

陈乐乐黄蓉贾世伟

摘要：反馈相关负波（feedback-related negativity, FRN）是反馈加工诱发的脑电成分，体现了个体对奖赏的敏感性。成瘾分为物质成瘾和行为成瘾，两类个体的反馈加工都呈现病理性模式。相对于普通反馈物（如金钱），物质成瘾个体在加工成瘾物质时诱发的FRN波幅显著增大；在与非成瘾被试的对照研究中，物质成瘾者加工金钱反馈时的FRN也表现出与成瘾相关的异常模式；在行为成瘾个体中亦观察到与物质成瘾个体类似的FRN失调现象。但以往多数研究中对成瘾类型的区分还不够详细，未来研究应进一步考虑成瘾不同亚型的特点；且成瘾个体往往伴随其他精神障碍（如抑郁、焦虑），将来的研究要区分共病因素的影响，揭示成瘾独特的奖赏加工机制问题。

同行评议状态:待评议

点击量 4309 下载量 1967 评论
16. ChinaXiv:202303.09686
下载全文

人际互动中社会学习的计算神经机制

分类：心理学 >> 社会心理学提交时间： 2023-03-28 合作期刊: 《心理科学进展》

黎穗卿陈新玲翟瑜竹张怡洁章植鑫封春亮

摘要：人类在社会互动中通过他人的行为对他人特质、意图及特定情境下的社会规范进行学习, 是优化决策、维护积极社会互动的重要条件。近年来, 越来越多的研究通过结合计算模型与神经影像技术对社会学习的认知计算机制及其神经基础进行了深入考察。已有研究发现, 人类的社会学习过程能够较好地被强化学习模型与贝叶斯模型刻画, 主要涉及的认知计算过程包括主观期望、预期误差和不确定性的表征以及信息整合的过程。大脑对这些计算过程的执行主要涉及奖惩加工相关脑区(如腹侧纹状体与腹内侧前额叶)、社会认知加工相关脑区(如背内侧前额叶和颞顶联合区)及认知控制相关脑区(如背外侧前额叶)。需要指出的是, 计算过程与大脑区域之间并不是一一映射的关系, 提示未来研究可借助多变量分析与脑网络分析等技术从系统神经科学的角度来考察大尺度脑网络如何执行不同计算过程。此外, 将来研究应注重生态效度, 利用超扫描技术考察真实互动下的社会学习过程, 并更多地关注内隐社会学习的计算与神经机制。

点击量 251 下载量 126 评论
17. ChinaXiv:202204.00045
下载全文

基于深度强化学习的多路口信号控制优化研究

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2022-04-07 合作期刊: 《计算机应用研究》

赵纯董小明任奕颖

摘要：新起的智能交通系统在改善交通流量，优化燃油效率，减少延误和提高整体驾驶经验方面有望发挥重要作用。现今，交通拥堵是困扰人类的的一个极其严重的问题，特别是一些城市交通密集的十字路口处可能会更加的严重。对信号控制系统的奖励机制进行了改进，将所有路口共享奖励的机制改进为每个交叉口共享唯一的奖励，并且通过密集采样策略与多路口信号控制相结合的方式，运用时下热门的深度强化学习来解决交通信号灯配时问题。仿真实验都是基于现在国际主流的交通模拟软件(SUMO)完成，从实验结果表明，改进后的深度强化学习多路口信号控制方法相较于传统强化学习方法控制效果更佳。

点击量 1897 下载量 288 评论
18. ChinaXiv:202004.00039
下载全文

身体活动的双系统理论：一种强化学习的视角

分类：心理学 >> 认知心理学分类：心理学 >> 应用心理学提交时间： 2020-04-25

褚昕宇

摘要：以理性决策为基础的锻炼行为理论被认为是理解身体活动的主导体系，它提供了与身体活动相关的认知构念作为有价值的信息。基于社会生态模型设计的行为干预措施，因表现出了更好的效果而备受关注。近期研究表明，积极的运动认知和当前体育环境都没能很好地促进个人锻炼习惯的养成，因此有必要探索新的理论体系来阐明个人锻炼习惯的形成机制。解释身体活动的最新体系是双系统理论，由于其考虑了身体活动的无意识和快乐决定因素，有望提供一个更广泛的动机视角。一方面，多个有代表性的身体活动双系统模型，从简单的自发路径，到情境线索与锻炼习惯，再到突出自动情感评价作用的复杂概念模型，阐明了系统 1 的构建，结合锻炼行为理论所关注的系统 2，为模型的构建提供了依据。另一方面，通过对双系统的竞争、协调和层级控制原则的分析，为模型的控制提供了建议。经典的强化学习框架解释了双系统模型的构建与控制原则:在模型的构建方面，无模型与基于模型的强化学习分别表示系统 1 和系统 2。在模型的控制方面，Dyna 协作架构与分层强化学习，为身体活动可能是一种相互协作、分层执行的复杂行动组合提供了合理解释。最后提出强化学习视角下锻炼者-体育环境的互动模式，试图从一个全新的角度探讨锻炼行为。

点击量 3825 下载量 2727 评论
19. ChinaXiv:201904.00060
下载全文

基于出租车司机经验的约束深度强化学习算法路径挖掘

分类：计算机科学 >> 计算机科学的集成理论提交时间： 2019-04-01 合作期刊: 《计算机应用研究》

黄敏毛锋钱宇翔

摘要：利用出租车司机经验，提出约束深度强化学习算法（CDRL）在线计算不同时间段内OD间最快路线。首先，描述了路段经验数据库（ERSD）的提取。然后，介绍了CDRL方法，该方法主要包括两个阶段：可选择约束路段生成和深度Q-learning算法，在第一阶段，生成OD(起终点)间可选择约束路段；在第二阶段，设计深度Q-learning算法学习出租车司机的经验，并根据他们的出发时间计算给定OD间的最快路线。最后，在广州CBD进行了应用实验。结果表明，CDRL方法计算在旅行时间上，优于最短路径（SR）方法，且与最快路径（FR）方法计算路径差别不大。此外，CDRL方法在计算效率方面明显优于FR和SR方法，因此更适合OD间最快路径在线计算。

点击量 13665 下载量 1101 评论
20. ChinaXiv:202210.00199
下载全文

基于DDQN的多智能体冲突消解方法

分类：信息科学与系统科学 >> 信息科学与系统科学基础学科提交时间： 2022-10-26 合作期刊: 《桂林电子科技大学学报》

张翼赵岭忠翟仲毅

摘要：针对智能体在局部观测下无法有效决策的问题,提出了一种结合深度强化学习的冲突消解方法。该方法基于 DDQN算法,利用强化学习的学习模式的特性,计算智能体的累计回报,通过回报值的大小确定智能体的优先级,从而达到冲突消解的目的。通过模拟现实生活中的堵车场景对该方法进行评估,实验结果表明,该方法能有效解决智能体的冲突。

点击量 3521 下载量 482 评论

1 2 后页尾页