赵莲
- 作品数:21 被引量:14H指数:2
- 供职机构:中国科学院计算机网络信息中心更多>>
- 发文基金:国家自然科学基金国家重点实验室开放基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学更多>>
- HPSEPS在元与神威·太湖之光上的移植和性能分析
- 2018年
- "神威·太湖之光"高效能计算机系统是世界上首台峰值运算速度超过10亿亿次量级的超级计算机,HPSEPS (High Performance Symmetric Eigenproblem Solvers)是自主开发的大规模对称稠密矩阵特征问题并行求解器,包括标准对称稠密矩阵特征问题的并行计算方法,对大规模数据问题的计算,表现出较好的性能,本文分别在中科院的"元"超级计算机上和神威·太湖之光超级计算机上进行了移植,对比了两种超级计算机的系统性能,并且在"神威·太湖之光"上分别链接适合其异构众核结构的xMath数学库和mkl数学库,对求解器在链接两种不同数学库的计算机效果进行了测试与分析。
- 李燕赵永华王武赵莲
- 一种数据的传输方法及系统
- 本发明涉及一种数据的传输方法及系统。所述数据的传输方法包括:用户客户端向数据访问协议转换器发送数据访问请求;所述数据访问协议转换器将所述数据访问请求转换为查询指令,将所述查询指令发送至后端程序客户端;所述后端程序客户端向...
- 姜金荣任轩正博赵莲郝卉群迟学斌白一頔
- 基于瓦片算法的并行QR分解及其实现
- 2016年
- 本文介绍了一种基于瓦片算法的稠密矩阵并行QR分解及其实现方法。瓦片算法的思想是将完整的矩阵分块,并使每个块内的数据连续存储。各个瓦片块先独立进行分解,其他块接收当前块分解产生的数据,来更新自身块内的矩阵。我们分别实现了串行瓦片算法和并行瓦片算法,采用基于MPI和OpenM P混合并行编程模型,在"元"超级计算机上验证了该并行算法,并与PLASMA软件包进行对比,程序效率和可扩展性优于PLASMA。在多个节点上运行时,展现了良好的扩展性。
- 曹冬冬赵永华赵莲
- 关键词:QR分解
- GPU集群加速近似逆预条件CG并行求解器被引量:1
- 2015年
- 针对GPU集群系统,研究了分解近似逆(approximate inverse,AINV)和对称逐次超松弛-近似逆(symmetric successive over relaxation approximate inverse,SSOR-AI)两类近似逆预条件的并行算法。采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法。基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题。基于CPU与GPU协同计算、主机端页锁定内存和设备端计算与通信重叠的优化技术,实现了并行近似逆预条件与共轭梯度(conjugate gradient,CG)算法相结合的线性方程组混合并行求解器。数值实验表明,所提方法对AINV和SSOR-AI两类近似逆预条件,在多GPU上获得了很好的可扩展性和加速效果。
- 赵莲赵永华陈尧赵慰
- 关键词:预条件迭代法GPU集群
- 一种应用于图像混合集群处理系统的图像处理方法
- 本发明提供一种应用于图像混合集群处理系统的图像处理方法,图像混合集群处理系统包括至少一个管理节点和多个计算节点,管理节点和计算节点均采用CPU和GPU异构架构的混合集群系统模式,图像处理方法包括通过管理节点读取待处理的图...
- 赵永华赵莲于天禹苏琳
- 文献传递
- 高性能计算数值模拟框架软件研究进展被引量:2
- 2021年
- 【背景】本世纪我国超级计算机得到迅速发展,为降低面向超级计算机并行编程难度,高性能编程框架已经成为高性能计算的研究方向之一。【方法】本文简要介绍了高性能数值模拟编程框架的研究目的,主要关注国内外结构网格和非结构网格编程框架的发展现状。【结论】面向E级计算机即将到来,框架软件的发展也需针对E级计算机的体系结构特征,调整底层数据结构和核心算法,提升并行可扩展性,增强对异构众核计算的支持,使其能具备支撑开发E级并行计算应用软件的能力。同时也需要结合领域专家的需求,不断拓展新领域新方向,针对新问题开发新的功能模块,以便应用到更多的科学计算领域。
- 何连花赵莲姜金荣金钟
- 关键词:编程框架数值模拟
- 一种基于HDFS的大气科学数据传输方法及系统
- 本发明公开一种基于HDFS的大气科学数据传输方法及系统,涉及计算机应用技术领域,包括:用户客户端向数据访问协议转换器发送数据访问请求;数据访问协议转换器将数据访问请求转换为查询指令,将查询指令发送至后端程序客户端;后端程...
- 姜金荣任轩正博赵莲郝卉群迟学斌白一頔
- 一种自适应并行的全球二十面体非结构网格编码生成与剖分方法
- 本发明公开了一种自适应并行的全球二十面体非结构网格编码生成与剖分方法,涉及空间信息技术领域。包括:基于简单的线性顺序填充设计的正二十面体球面菱形格网,得到初始网格编码;设定核心数量,并根据设定的核心数量判断编码方式,得到...
- 李雅馨迟学斌姜金荣周广庆郭润赵莲白一頔
- 基于计算与通信重叠的稀疏矩阵-向量乘积及其在AMG中的应用被引量:1
- 2015年
- 本文针对代数多重网格(algebraic multigrid,AMG)并行实现中的稀疏矩阵-向量乘,建立了稀疏矩阵新的分布和数据存储模式,提出了一类具有最小通信量以及隐藏通信的新稀疏矩阵-向量乘并行算法,并实现了基于K-循环迭代的求解阶段并行算法.针对现代多核处理器,结合细粒度的并行编程模型,实现了MPI+OpenMP混合编程并行算法.通过同hypre软件包测试比较,在深腾7000集群上求解三维Laplace方程并行规模达到512核心时,并行求解阶段运行时间较hypre(high performance preconditioners)软件包提高了56%,在元集群上提高了39%,验证了算法的有效性.
- 赵莲赵永华迟学斌
- 关键词:数据存储格式
- 一种从Fortran90转换到Cuda编程语言映射方法和装置
- 本发明公开了一种从Fortran90转换到Cuda编程语言映射方法和装置,涉及计算机技术领域。包括:获取初始Fortran90程序语言,对Fortran90程序语言进行预处理,规范代码行;根据具体语法树,建立Fortra...
- 张峰姜金荣迟学斌刘颖辉赵莲郝卉群