王德奎 作品数:13 被引量:5 H指数:1 供职机构: 浪潮电子信息产业股份有限公司 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
Kubernetes集群上深度学习负载优化 被引量:5 2022年 人工智能技术的快速发展和在云原生上部署应用高效等优点让越来越多的开发者和互联网企业将人工智能应用部署在Kubernetes集群上,但Kubernetes并不是主要针对深度学习而设计,对深度学习这个特定领域需要做定制优化.本文针对具有一定规模的Kubernetes集群上部署深度学习负载的场景,设计和实现了一系列优化方案,主要从深度学习所要求的数据处理、graphics processing unit (GPU)计算、分布式训练等几个方面进行优化,本文提出的优化方案覆盖了数据处理、计算等方面,这些技术极大简化人工智能负载在规模化云原生平台上的部署难度和提高运行效率,同时从实践上来看也验证了以上技术对人工智能应用有着显著的提升作用. 陈培 王超 段国栋 王德奎 王斌 王文潇 孙辽东 荆荣讯 邢良占 刘慧兴 姬贵阳关键词:CUDA 人工智能 一种GPU卡动态调整方法、装置、设备及存储介质 本申请公开了一种GPU卡动态调整方法、装置、设备及存储介质,该方法包括:资源监听模块监听容器层所有容器的GPU的实际使用情况,同时将GPU的实际使用情况推送至交互模块;交互模块将GPU的实际使用情况上报至业务层;业务层根... 林新宇 陈培 王德奎文献传递 基于云原生的人工智能训练业务监控系统设计 2024年 近年来,人工智能技术不断发展,已经在各个领域得到了广泛的应用和推广,成为推动社会进步和经济发展的重要引擎。但如何有效地对训练过程进行全程监控,保持系统稳定可靠,提高开发效率和效果,是人工智能技术开发应用过程中的关键问题。通过构建一种针对云原生人工智能业务的监控报警系统,实现全流程的监控,解决当前人工智能开发过程中由于硬件故障、网络通信故障、软件故障导致训练中断的问题,提高系统的灵活性、可靠性和效率。从云原生人工智能业务监控系统的现状和问题出发,提出了包括监控/报警管理、数据采集、数据存储、数据分析、报警引擎等关键环节在内的基于人工智能业务负载的全流程监控技术实现方案。实验结果表明,所提出的基于全流程监控的云原生人工智能业务监控系统方案具有较高的实用性和可行性,可以有效地提高算法人员模型训练效率、提升系统可靠性和稳定性。所提出的研究成果为人工智能开发领域的监控问题提供了一种解决方案,具有一定的借鉴意义和推广价值。 孙辽东 王超 陈培 王德奎 李世刚 张书博 荆荣讯 王文潇关键词:人工智能 报警模块 一种虚拟化平台服务支撑的方法 本发明公开了一种虚拟化平台服务支撑的方法,属于计算机软件应用的技术,本发明要解决的技术问题为如何能够方便管理创建的虚机实例中的各种服务的操作,尤其是自动化下载和安装,来实现各种服务的管理,采用的技术方案为:该方法是在虚拟... 潘峰 王德奎 于沈课文献传递 一种基于Docker事件自动化配置Docker容器同主机网络IP的方法 本发明公开了一种基于Docker事件自动化配置Docker容器同主机网络IP的方法,属于Docker技术领域,本发明能够保证当后台发生Docker事件这种异常情况时,Docker容器与外部网络的相互访问能够不受影响。采用... 李珂 潘峰 王德奎 刘安一种宿主机卷分配的方法、装置及系统 本发明提供了一种宿主机卷分配的方法、装置及系统,该方法包括:针对每一个宿主机,将宿主机中的至少一个磁盘划分到不同的卷组,确定每一个卷组的属性信息,并创建该宿主机的每一个卷组;确定至少一个数据卷信息;根据确定的属性信息,筛... 王德奎 潘峰 刘安 李珂文献传递 Kubernetes集群上深度学习负载优化 人工智能技术的快速发展和在云原生上部署应用高效等优点让越来越多的开发者和互联网企业将人工智能应用部署在Kubernetes集群上,但Kubernetes并不是主要针对深度学习而设计,对深度学习这个特定领域需要做定制优化。... 陈培 王超 段国栋 王德奎 王斌 王文潇 孙辽东 荆荣讯 邢良占 刘慧兴 姬贵阳关键词:CUDA 人工智能 一种基于Docker事件自动化配置Docker容器同主机网络IP的方法 本发明公开了一种基于Docker事件自动化配置Docker容器同主机网络IP的方法,属于Docker技术领域,本发明能够保证当后台发生Docker事件这种异常情况时,Docker容器与外部网络的相互访问能够不受影响。采用... 李珂 潘峰 王德奎 刘安文献传递 一种宿主机卷分配的方法、装置及系统 本发明提供了一种宿主机卷分配的方法、装置及系统,该方法包括:针对每一个宿主机,将宿主机中的至少一个磁盘划分到不同的卷组,确定每一个卷组的属性信息,并创建该宿主机的每一个卷组;确定至少一个数据卷信息;根据确定的属性信息,筛... 王德奎 潘峰 刘安 李珂建立Docker容器的网络连接的方法、系统以及客户端 本发明提供了建立Docker容器的网络连接的方法、系统以及客户端,该方法,包括:Docker容器向服务端申请IP;所述服务端根据所述Docker容器的申请,将可用的目标IP分配给客户端;所述客户端创建所述Docker容器... 李珂 潘峰 王德奎 刘安文献传递