深度强化学习复原多目标航迹的TOC奖励函数

作者： 贺亮 ¹ 徐正国 ¹ 贾愚 ¹ 沈超 ² 李赟 ¹
作者单位：

1. 盲信号处理重点实验室

2. 西安交通大学智能网络与网络安全教育部重点实验室
提交时间：2019-05-10 10:28:40

摘要: 针对航迹探测领域中探测器获得的目标地理位置通常是同一帧下无法区分的多目标场景，需要利用目标位置信息还原各航迹并区分各目标的问题进行研究，提出采用深度强化学习方法复原目标航迹的方法。依据目标航迹的物理特点，提取数学模型，结合目标航迹的方向、曲率等提出轨迹曲率圆(trajectory osculating circle，TOC)奖励函数，使深度强化学习能够有效复原多目标航迹并区分各目标。首先描述多目标航迹复原问题，并将问题建模成深度强化学习能够处理的模型;结合TOC奖励函数对多目标航迹复原问题进行实验;最后给出该奖励函数的数学推导和物理解释。实验结果表明，TOC奖励函数驱动下的深度强化网络能够有效还原目标的航迹，在航向和航速方面切合实际目标航迹。

深度强化学习序贯决策 Q函数轨迹密切圆

期刊： 计算机应用研究
分类： 计算机科学 >> 计算机科学的集成理论
引用： ChinaXiv:201905.00021 (或此版本 ChinaXiv:201905.00021V1)
DOI:10.12074/201905.00021V1
CSTR:32003.36.ChinaXiv.201905.00021.V1
推荐引用方式： 贺亮,徐正国,贾愚,沈超,李赟.(2019).深度强化学习复原多目标航迹的TOC奖励函数.计算机应用研究.[ChinaXiv:201905.00021] (点此复制)

版本历史

[V1]

2019-05-10 10:28:40

ChinaXiv:201905.00021V1

下载全文

相关论文推荐

1. Turing’s thinking machine and ’t Hooft’s principle of superposition of states	2024-05-14
2. 恶意代码SCMP分类方法框架与风险行为多标签机制	2024-05-09
3. Guiding Large Language Models to Generate Computer-Parsable Content	2024-04-23
4. SteganoDDPM: A high-quality image steganography self-learning method using diffusion model	2024-04-23
5. 引导大语言模型生成计算机可解析内容	2024-04-21
6. 基于大语言模型的中英文整合复杂性建模研究	2024-04-10
7. 大模型与标准文献知识库的融合应用探索	2024-04-10
8. 简体中文LIWC2024(SCLIWC2024)词典的修订与验证	2024-04-09
9. Multimodal Physical Fitness Monitoring (PFM) Framework Based on TimeMAE-PFM in Wearable Scenarios	2024-04-07
10. 引导大语言模型生成计算机可解析内容	2024-04-07


公开评论匿名评论仅发给作者