袁德明
- 作品数:5 被引量:7H指数:2
- 供职机构:南京理工大学自动化学院更多>>
- 发文基金:国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于边缘动态事件触发的在线分布式复合Bandit优化算法
- 2025年
- 研究带宽受限的非平衡有向多智能体网络环境下的在线分布式复合Bandit优化问题.该问题中每个智能体的局部目标函数具有复合结构:其一为梯度信息不可获取的时变损失函数,其二为具有特定结构的正则化项.为应对网络带宽的受限,设计具有控制因子的边缘动态事件触发通信协议,以降低通信开销.同时,针对局部损失函数梯度信息难以获取的挑战,分别引入单点和两点梯度估计方法,以支撑损失函数梯度信息的获取.基于此,结合近端算子,分别设计仅要求加权邻接矩阵满足行随机性质的在线分布式复合单点和两点Bandit优化算法,并使用动态遗憾指标分析两种算法的收敛性.结果表明,在合理的假设和参数设定下,两种算法在期望意义下分别可获得O(K^(3/4)(1+P_(K)))和O(K^(1/2)(1+P_(K)))的动态遗憾上界,其中K是总迭代次数,P_(K)是路径变差度量.进一步,当P_(K)能够被提前估计时,两种算法分别可获得O(K^(3/4)√1+P_(K))和O(K^(1/2)√1+P_(K))的期望动态遗憾上界.最后,通过对在线分布式岭回归问题的仿真实验,验证了算法的收敛性以及理论结果的正确性.
- 熊梦辉杨春雨赵建国张保勇袁德明
- 分布式在线鞍点问题的Bandit反馈优化算法被引量:1
- 2025年
- 本文研究了多智能体时变网络上基于Bandit反馈的分布式在线鞍点问题,其中每个智能体通过本地计算和局部信息交流去协作最小化全局损失函数.在Bandit反馈下,包括梯度在内的损失函数信息是不可用的,每个智能体仅能获得和使用在某决策或其附近产生的函数值.为此,结合单点梯度估计方法和预测映射技术,提出一种非欧几里得意义上的分布式在线Bandit鞍点优化算法.以动态鞍点遗憾作为性能指标,对于一般的凸−凹损失函数,建立了遗憾上界并在某些预设条件下确保所提算法的次线性收敛.此外,考虑到在迭代优化中计算优化子程序的精确解通常较为困难,进一步扩展一种基于近似计算方法的算法变种,并严格分析精确度设置对扩展算法遗憾上界的影响.最后,通过一个目标跟踪案例对算法的有效性和先进性进行仿真验证.
- 张文韬张保勇袁德明徐胜元
- 关键词:BANDIT
- 在线分布式优化研究进展被引量:2
- 2023年
- 在线分布式优化是通过多智能体之间有效的协调合作以实现实时优化的任务,其在多无人系统实时编队跟踪、大规模分布式机器学习、传感器网络的动态参数估计等领域中有着广泛的应用。分别从决策空间、性能指标、信息反馈模型等角度对近年来国内外在线分布式优化的代表性研究工作进行了梳理和总结,着重从算法设计思路和收敛性结果两个角度进行了剖析,同时也指出不同算法的优势和不足。最后,对在线分布式优化算法的应用进行了简单讨论并对全文进行了总结和展望。
- 袁德明张保勇夏建伟
- 关键词:多智能体系统遗憾
- 分布式多自主体优化问题中的概率量化影响研究被引量:4
- 2011年
- 考虑一个由多个自主体构成的网络,网络中每个自主体拥有一个只有自己知晓的局部目标函数,研究优化所有局部目标函数和的问题。基于一致性算法基本思想并结合次梯度方法解决了固定的网络拓扑结构且自主体之间交换的信息是经过概率量化的分布式多自主体优化问题。得到一个与量化精度和网络连接度有关的关于收敛速率的上界。当步长固定时,该上界可保证网络中的每个自主体的状态值收敛到最优解附近。
- 袁德明徐胜元赵环宇沈浩
- 关键词:多自主体系统
- 基于随机量化的多智能体分布式凸优化算法
- 2025年
- 该文研究了时变平衡网络图中带有状态约束的多智能体分布式凸优化问题.针对网络通信能力受限的情况,在智能体的信息交互过程中引入了随机量化器,以有效减少数据传输量.在此基础上,提出了一种具有随机量化通信的分布式镜面下降算法,并在常规假设条件下证明了其收敛性,同时给出了具体的收敛速度.最后,以分布式线性回归问题为仿真算例,验证了所设计算法的可行性.
- 熊梦辉张保勇袁德明