马胜
- 作品数:102 被引量:84H指数:4
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信政治法律更多>>
- 基于矩阵转置操作的FFT加速器装置
- 一种基于矩阵转置操作的FFT加速器装置,其包括:FFT加速器控制,用来控制逻辑完成批量1维FFT运算的控制,给总线控制器发送读写控制参数,协调FFT-PE之间的计算与数据传递;总线控制器,用来根据FFT加速器控制模块的参...
- 雷元武郭阳陈胜刚彭元喜刘宗林马胜陈小文罗恒孙永节孙书为李勇吴虎成
- 向量处理器中支持SIMT的向量访存装置和控制方法
- 本发明公开一种向量处理器中支持SIMT的向量访存装置和控制方法,该装置包括基址向量寄存器单元、偏移向量寄存器单元以及向量地址计算单元,基址向量寄存器单元、偏移向量寄存器单元分别包括多组向量寄存器,每组向量寄存器由多个寄存...
- 陈海燕陈书明刘胜徐沛文万江华郭阳刘仲马胜孔宪停卫鹏飞
- 一种基于当值缓存降低片上网络静态功耗的方法
- 本发明公开了一种基于当值缓存降低片上网络静态功耗的方法,目的是在不增加网络报文平均延迟的同时,降低路由器静态功耗损失。技术方案是改进路由器输入端口,在输入端口添加一个当值缓存、一个唤醒计数器、N个选择器、一个断电控制逻辑...
- 马胜王鹏王志英陈微赵夏钱程王璐李晨李宁徐叶茂
- GPDSP中基于三级超前进位加法器的64位定点ALU电路
- 一种GPDSP中基于三级超前进位加法器的64位定点ALU电路,其包括ALU译码站、站间寄存器、通用寄存器RF和执行站,所述ALU译码站接收派发模块的指令信号,经过译码逻辑向通用寄存器RF发出读信号和读地址,读取原操作数;...
- 彭元喜雷元武汪峰万江华刘宗林彭浩徐恩李振涛扈啸陈跃跃孙海燕马胜陈胜刚罗恒吴家铸
- 一种用于GPDSP的采用主机计数的多核DMA分段数据传输方法
- 一种用于GPDSP的采用主机计数的多核DMA分段数据传输方法,其传输过程为:主机DMA启动,依据配置参数生成分段数据传输请求;主机DMA每次发出分段数据传输的读请求中携带了标志返回数据目标节点的返回数据选择向量,返回数据...
- 马胜杨柳陈书明万江华郭阳刘宗林孙书为刘仲雷元武刘胜王耀华王占立田玉恒胡月安丁一博
- 一种支持变形基16FFT算法并行访存的地址转换单元
- 本发明公开了一种支持变形基16FFT算法并行访存的地址转换单元,包括16个相同的地址转换电路,每个所述地址转换电路均由一个三输入异或门和三个二输入异或门组成,用以实现该路运算访存或结果输出对原来按存储体低位地址编址的访存...
- 陈海燕杨超刘胜刘宗林刘仲万江华陈胜刚马胜陈俊杰雷元武
- 基于平铺数据流的可配置神经网络加速器被引量:3
- 2019年
- 卷积神经网络已经是公认最好的用于深度学习的算法,被广泛地应用于图像识别、自动翻译和广告推荐。由于神经网络结构规模的逐渐增大,使其具有大量的神经元和突触,所以,使用专用加速硬件挖掘神经网络的并行性已经成为了热门的选择。在硬件设计中,经典的平铺结构实现了很高的性能,但是平铺结构的单元利用率很低。目前,随着众多深度学习应用对硬件性能要求的逐渐提高,加速器对单元利用率也具有越来越严格的要求。为了在平铺数据流结构上获得更高的单元利用率,可以调换并行的顺序,采用并行输入特征图和输出通道的方式来提高计算的并行性。但是,随着神经网络运算对硬件性能要求的提高,运算单元阵列必然会越来越大。当阵列大小增加到一定程度,相对单一的并行方式会使利用率逐渐下降。这就需要硬件可以开发更多的神经网络并行度,从而抑制单元空转。同时,为了适应不同的网络结构,要求硬件阵列对神经网络的运算是可配置的。但是,可配置硬件会极大地增加硬件开销和数据的调度难度。提出了一种基于平铺结构加速器的并行度可配置的神经网络加速器。为了减少硬件复杂度,提出了部分配置的技术,既能满足大型单元阵列下单元利用率的提升,也能尽可能地减少硬件额外开销。在阵列大小超过512之后,硬件单元利用率平均可以维持在82%~90%。同时加速器性能与单元阵列数量基本成线性比例上升。
- 李艺煌马胜郭阳陈桂林徐睿
- 关键词:神经网络可配置并行性
- 一种电池电子能级大规模广义特征值问题求解方法及系统
- 本发明公开了一种电池电子能级大规模广义特征值问题求解方法及系统,本发明的求解方法包括根据电池材料分子的哈密顿矩阵<IMG src="ZY_1.JPG" imgContent="drawing" imgFormat="JP...
- 黎铁军张建民李胜国谢祎马胜孙岩杨博吴利舟赵云平
- 三维片上网络体系结构研究综述被引量:7
- 2016年
- 伴随着三维集成电路的迅速发展,三维片上网络受到国内外研究者的广泛关注.三维片上网络主要用于实现三维堆叠芯片的互连通信,为三维集成电路提供超低的延迟和竖直方向上超高的带宽,从而解决系统集成度增加导致的通信瓶颈问题,有利于克服存储墙问题并提高三维堆叠芯片的性能.文章介绍了三维集成电路研究现状及其结构优势,分析三维片上网络体系结构的特点和存在的问题,包括竖直方向的单跳传播问题、路由器交叉开关的复杂度控制问题以及热效应的控制问题,从系统层、微结构层和电路层对三维片上网络体系结构的研究热点及其实例进行了深入分析,最后对三维片上网络所面临的挑战和设计方法进行了总结和展望.
- 李晨马胜王璐郭阳
- 关键词:计算机体系结构三维集成电路
- X-DSP DMA中仲裁机制的设计与实现
- 公平的仲裁策略可以高效分配硬件资源,有效地兼顾各个设备性能需求,最大限度地发挥系统效率.本文描述了X-DSP DMA控制器中多个部件仲裁机制的设计与实现.通用通道采用物理通道优先级固定和逻辑通道优先级可配置的仲裁策略,满...
- 杨柳马胜孙书为万江华许邦建张帅
- 关键词:数字信号处理器仲裁机制灵活性