何颂颂
- 作品数:15 被引量:30H指数:4
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种基于龙芯3A的单精度矩阵乘法优化方法
- 本发明公开了一种基于龙芯3A的单精度矩阵乘法优化方法,特征是先将龙芯3A的两个单精度源矩阵按分别不大于一级缓存一半和不大于二级缓存一半的原则划分为两个子矩阵;在龙芯3A的32位访存指令、单精度浮点乘加指令和预取指令的矩阵...
- 顾乃杰何颂颂张斌许耿纯
- 一种基于龙芯3A的单精度矩阵乘法优化方法
- 本发明公开了一种基于龙芯3A的单精度矩阵乘法优化方法,特征是先将龙芯3A的两个单精度源矩阵按分别不大于一级缓存一半和不大于二级缓存一半的原则划分为两个子矩阵;在龙芯3A的32位访存指令、单精度浮点乘加指令和预取指令的矩阵...
- 顾乃杰何颂颂张斌许耿纯
- 文献传递
- 面向龙芯3A体系结构的BLAS库优化被引量:8
- 2012年
- 双精度普通矩阵乘法DGEMM是BLAS库中最核心的函数之一,大部分三级BLAS库函数的核心计算都是通过调用DGEM M来实现的.该文针对龙芯3A具有128位访存指令的特点,通过理论分析,找到了最佳的循环展开方式;针对龙芯3A的Cache替换策略(随机替换),通过使用地址交错技术,减少了Cache的冲突失效;针对龙芯3A访存带宽有限的问题,通过使用共享数据的任务划分方式,减少了数据访存量.优化后的DGEMM单核和多核运算速度均是性能最高的开源BLAS库(Goto-BLAS)的2倍多.
- 何颂颂顾乃杰朱海涛刘燕君
- 关键词:矩阵乘法BLASLINPACK
- 基于资源密度与节点管理的P2P随机搜索算法设计
- 现有的P2P搜索算法对资源特性考虑较少,文中充分考虑了资源的密度信息对搜索效率的影响,设计了动态的密度调节策略和动态的智能节点管理方案,并基于此提出了改进的多路随机算法SNKR。SNKR算法的设计基于资源密度信息,并且使...
- 谢静顾乃杰田舟贤何颂颂
- 关键词:P2P网络资源密度智能节点
- 文献传递
- 基于用户兴趣的P2P资源搜索算法设计与分析被引量:4
- 2008年
- P2P搜索效率跟P2P用户的特性相关,本文将基于P2P用户的群聚特性,在纯P2P网络之上,构建基于用户兴趣的覆盖网络,并设计相应的资源搜索策略.本文通过计算节点间的相似度来构建覆盖网络,根据查询请求和节点的相关度来决定搜索策略并从理论上证明了本文提出的搜索算法的性能优于随机漫步和简单洪泛.实验结果显示,本文提出的搜索算法的平均搜索时间和消息复杂度均优于随机漫步搜索算法.
- 何颂颂顾乃杰田舟贤谢静
- 关键词:P2P资源搜索
- 多核龙芯3A上二级BLAS库的优化被引量:9
- 2011年
- 针对龙芯3A体系结构以及二级BLAS库函数的特点,在指令级、存储级和线程级抽取并行方案,总结了一些合适的优化方法,并对其进行了定量的分析。实验表明,这些优化可以将二级BLAS函数单线程的性能提升20%以上,多线程下也可以得到2.5倍左右的加速比,这对今后多核龙芯上的系统软件优化工作有着一定的帮助。
- 李毅何颂颂李恺
- 关键词:龙芯3ABLASGER多线程
- 资源密度对P2P搜索算法的影响
- 2009年
- 在无结构P2P网络中,资源密度影响搜索算法的搜索时间、通信开销以及搜索策略的设计与选取。在资源随机分布的假设下分析了资源密度同搜索性能的关系,给出了随机漫步和洪泛搜索的平均搜索时间和通信开销下界,并分析得出结论:增加资源备份或者降低节点被重复搜索的概率能显著提升稀有资源的搜索性能,但较难提升稠密资源的搜索性能。基于上述理论分析,提出了一个随机漫步改进算法以验证结论。仿真实验表明,实验数据同理论分析结果符合。
- 田舟贤顾乃杰何颂颂李恺
- 关键词:资源密度随机漫步无结构对等网络
- 基于资源密度与节点管理的P2P随机搜索算法设计被引量:2
- 2007年
- 现有的P2P搜索算法对资源特性考虑较少,文中充分考虑了资源的密度信息对搜索效率的影响,设计了动态的密度调节策略和动态的智能节点管理方案,并基于此提出了改进的多路随机算法SNKR。SNKR算法的设计基于资源密度信息,并且使用智能节点协助搜索,具有较小的消息复杂度。实验仿真结果显示,与简单多路随机算法相比,SNKR在搜索时间上改进约10% ̄40%,同时很好的控制了总的消息数和重复访问节点的比例。
- 谢静顾乃杰田舟贤何颂颂
- 关键词:P2P网络资源密度智能节点
- SCC上FFT的高效并行实现及其扩展性研究
- 2014年
- 针对SCC(Single-Chip Cloud Computer,单芯片云计算机)体系结构,通过通信路由的改进、消息传递的预处理以及数据处理的再划分这三种手段来提升FFT并行实现效率并以此来研究SCC的扩展性.实验结果表明,SCC上改进后的FFT在一定规模内,双核下的平均加速比为4.10倍,最高可达4.78倍;四核下平均加速比为6.01倍,最高可达6.77倍;八核下平均加速比为10.46倍,最高可达11.53倍;十六核下平均加速比为16.20倍,最高可达18.51倍;三十二核下平均加速比为21.17倍,最高可达到24.20倍.并且随着规模的增加,核间通信带宽趋于稳定,三十二核的加速比也逐渐增大,结果显示SCC具有良好的可扩展性.
- 汪清顾乃杰何颂颂杨阳朝
- 关键词:FFTSCCRCCE并行化加速比扩展性
- 一种面向数据密集型应用的并行程序执行模型被引量:2
- 2013年
- 随着各领域需要处理的数据量越来越大,数据密集型应用也变得越来越被重视.该文提出一种包含数据访存层次和访存冲突等信息的新并行程序执行模型PSRAM(h).针对数据密集型应用以访存为主的特点,PSRAM(h)模型将程序执行时间简化为访存时间,通过分析各程序子段的访存层次和数量来预测串行程序的执行时间,进而通过使用各线程执行时间的最大值来预测并行程序的执行时间.使用PSRAM(h)模型下对最典型的数据密集型应用矩阵向量乘进行分析,在龙芯3A处理器和Intel Xeon E5520处理器两个平台上的测试结果表明,PSRAM(h)模型分析结果与实测结果大部分情况下误差小于20%.由此可见,针对数据密集型应用,PSRAM(h)不但可以给出程序执行时间的下限,还可以有效的预测程序的执行时间.
- 何颂颂顾乃杰任开新
- 关键词:数据密集型共享内存