吴鹏 作品数:8 被引量:13 H指数:1 供职机构: 国家气象信息中心 更多>> 相关领域: 自动化与计算机技术 天文地球 更多>>
气象大模型计算资源评估技术方法 2025年 【目的】近年来,气象大模型在天气预报领域内展现出超越传统数值方法的潜力。然而,其规模化训练和部署面临严峻的计算资源挑战。现有资源评估方法主要针对自然语言处理(NLP)领域的大模型,难以适应气象任务的动态计算需求(如时空多维特性)以及气象模型架构的独特性,导致资源利用率低下和算力成本高昂。为此,本研究旨在构建一个的气象大模型计算资源评估框架,通过量化模型的参数量、计算量、显存占用与通信开销,为硬件配置与资源分配提供理论依据,以降低计算成本,并确保气象大模型的高效稳定研发运行。【方法】提出多粒度计算资源联合评估框架(Multi-Granularity Computing Resource Joint Evaluation Framework,MGCRJEF),这个框架通过分模块建立参数量计算模型、时空感知FLOPs评估模型、显存占用模型及分布式通信分析模型,并结合气象数据的时空异质性特征,全面评估气象大模型对硬件资源的核心需求。【结果】以基于Swin-Transformer架构的盘古气象大模型(Pangu-Weather)为案例进行分析。该框架揭示了该模型的资源需求特点,例如在高分辨率输入时显存占用增加,在多节点训练中通信开销成为性能瓶颈,这些发现为资源优化提供了实践指导。此外,该框架计算的资源需求与实际的资源消耗基本一致,验证了该框架的合理性和有效性。【结论】MGCRJEF框架为气象大模型的资源需求评估提供了标准化方法,支持智算硬件环境下的资源规划,为气象领域的模型部署和硬件优化提供了理论依据和实践参考。 石宜衡 王琦祎 孙婧 赵春燕 邓帅 吴鹏 姚旺关键词:资源优化 气象基础设施云平台关键设计与实现 被引量:11 2022年 为适配气象业务科研应用对算力、存储资源的需求特点,采用分布式计算、分布式存储、虚拟化技术搭建气象基础设施云平台,并根据不同的业务类别、网络区域、资源服务对象针对性地设计云平台资源分区,以及每个分区需具备的云资源及功能。设计的云平台涵盖IaaS层、PaaS层功能,通过软件定义方式池化硬件资源,形成具备云计算、大数据支撑特征的资源池,为众多气象应用端部署、气象大数据业务提供虚拟主机、物理算力、数据存储资源。实际运行效果表明设计的气象基础设施云平台能够适应数据处理规模与时效性要求不断提升的业务发展需求。 韩同欣 何文春 吴鹏 李江涛关键词:气象应用 虚拟主机 分布式存储 气象大数据云平台仿真环境容器调度性能优化研究 被引量:1 2024年 为实现2025年气象关键核心技术自主可控的目标,气象大数据云平台(简称天擎)建立了基于海光X86服务器和麒麟操作系统的仿真环境。在仿真平台运行中发现,基于容器技术的产品加工与流水线子系统容器调度性能较差,不能满足用户融入算法的时效要求。针对此问题,本文采用对比分析法,选取天擎仿真环境和业务环境的3种CPU芯片服务器和3种操作系统为研究对象,设计了一系列组合对比测试用例,找到了影响容器调度性能的关键因素—操作系统内核,并进一步分析了操作系统内核设置对系统实时性和吞吐量的影响以及适用的业务场景。最后给出了麒麟操作系统内核调整方法,通过调整内核设置,容器调度性能大幅提高,满足了产品加工系统的时效要求,为实现天擎的关键核心技术自主可控奠定基础。 吴鹏 韩同欣 陈士旺 聂元丁 郑晓志关键词:麒麟操作系统 一种基于气象超算的人工智能大模型训练过程异构资源指标时序可视化方法及系统 本发明公开一种基于气象超算的人工智能大模型训练过程异构资源指标时序可视化方法及系统,包括如下步骤:步骤P1、超算架构智算资源指标采集,生成标准文本格式的日志文件;步骤P2、日志解析和入库存储,存储到分布式检索与分析引擎中... 赵春燕 常飚 李娟 孙婧 王琦祎 石宜衡 辛昱杭 韩同欣 沈瑜 牛恺泽 姚旺 邓帅 张新诺 刘成林 吴鹏 李江涛TIGGE数据接收问题分析与解决 被引量:1 2013年 2010年1月欧洲中期天气预报中心(ECMWF)开始提供高分辨率产品,中国气象局TIGGE(THORPEX Interactive Grand Global Ensemble)数据接收完整性受到较大影响,数据丢失量大,针对此问题,对数据接收环节进行了逐一分析,发现数据共享软件(全球气象数据共享系统)使用的TCP传输协议在高带宽、高时延网络环境下存在性能瓶颈,制约了当前网络吞吐量的提高,不能满足每天大数据量的传输要求。通过对TIGGE系统的TCP接收窗口大小进行调整,提高了TCP协议性能和当前网络吞吐量。调整后,中国气象局数据接收情况与全球其他业务中心基本一致,实现了对全球各中心数据的完整接收。 吴鹏 卞晓丰关键词:TIGGE TCP 传输协议 高带宽 一种兼容气象超算架构的多态异构智算资源融合调度方法及系统 本发明公开一种兼容气象超算架构的多态异构智算资源融合调度方法及系统,包括创建服务集群和计算集群;构建计算集群算力聚合应用服务;创建气象超算架构智算集群融合调度支撑环境;气象超算架构智算集群内构建弹性超算服务;构建适配多态... 赵春燕 孙婧 辛昱杭 梁雪 王琦祎 李娟 姚旺 韩同欣 沈瑜 李江涛 吴鹏 张新诺 邓帅 马强支撑气象数据分析建模的人工智能平台的双集群架构和设计方法 本发明公开支撑气象数据分析建模的人工智能平台的双集群架构和设计方法,包括位于本地机房的服务集群和位于异地机房的跨云算力集群;服务集群和算力集群间通过API接口实现互通,且本地中心机房的服务器的架构与异地机房的跨云服务器的... 梁雪 赵春燕 孙婧 沈瑜 高峰 杨明 吴鹏 辛昱杭 姚旺 邓帅 张新诺一种气象大模型的计算资源评估方法 本发明公开一种气象大模型的计算资源评估方法,包括:步骤(1)、气象大模型参数量的计算评估;步骤(2)、气象大模型FLOPs的计算评估;步骤(3)、气象大模型显存占用的计算评估;步骤(4)、气象大模型的分布式通信评估。本发... 石宜衡 赵春燕 孙婧 沈瑜 韩同欣 邓帅 吴鹏 姚旺 王琦祎 牛恺泽