国家高技术研究发展计划(2008AA010902)
- 作品数:5 被引量:17H指数:3
- 相关作者:刘燕君何颂颂顾乃杰翁玉萍李恺更多>>
- 相关机构:中国科学技术大学安徽大学安徽省计算与通讯软件重点实验室更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 面向龙芯3A体系结构的BLAS库优化被引量:8
- 2012年
- 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
- 何颂颂顾乃杰朱海涛刘燕君
- 关键词:矩阵乘法BLASLINPACK
- 龙芯3A处理器上FFT的高效实现被引量:6
- 2012年
- FFT(Fast Fourier transform,快速傅立叶变换)是工程应用中的一个基本算法,优化其性能对于推广龙芯系列处理器的应用具有重要意义.本文充分挖掘龙芯3A处理器的硬件特性,对运算量和调整位序的过程作了优化并使用128位访存来减少访存指令的比例,从而实现了高效的FFT算法.实验结果表明,在825M龙芯3A处理器上经过优化后的一维FFT的速度是FF-TW库的2.5倍左右,而二维FFT的速度则是FFTW的3倍左右.
- 郭利财刘燕君
- 关键词:龙芯3AFFT
- 排序算法在龙芯3A上的优化实现
- 2011年
- 分析归并排序算法和快速排序算法,根据国产CPU龙芯3A的体系结构特性,提出2种优化算法并进行实现。综合利用访存特性,引入拷贝优化、循环展开、交换操作优化和不同基本排序混用等优化技术。测试结果表明,在不影响排序稳定性的前提下,与Glibc 2.11库中的排序函数相比,2种优化算法均能提升16.9%~90.5%的排序性能。
- 翁玉萍顾乃杰李恺陈强
- 关键词:龙芯3A优化算法