卢冶
- 作品数:20 被引量:26H指数:4
- 供职机构:南开大学更多>>
- 发文基金:国家自然科学基金天津市自然科学基金天津市应用基础与前沿技术研究计划更多>>
- 相关领域:自动化与计算机技术文化科学电子电信更多>>
- 一种多模态推理与迭代优化视频描述生成模型及方法
- 本发明提供了一种多模态推理与迭代优化视频描述生成方法,包括以下步骤:根据采样后的视频帧得到目标特征、外观特征和运动特征;三个特征和上下文引导特征G计算得到三种单词的推理特征;选择其中一个作为基础解码器的一项输入内容;基础...
- 赫鑫宇仪德智谢坤鹏卢冶
- 一种用于ViTs的逐图像块后训练量化方法及系统
- 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得...
- 赫鑫宇李东哲卢冶
- 一种面向FPGA的可信执行环境边界拓展方法
- 本发明公开了一种面向FPGA的可信执行环境边界拓展方法,包括以下三部分:1、针对主机端到FPGA设备的控制流与数据流传输,构建系统控制通路与数据通路,包括系统安全启动及身份认证和可信I/O通道构建;2、针对异构可信计算任...
- 杨金妮李时简兆龙卢冶
- 一种低位宽量化压缩的LSTM加速器
- 本发明提供了一种低位宽量化压缩的LSTM加速器,包括存储模块、矩阵向量乘计算模块、激活函数模块和点乘操作模块,所述存储模块分别与所述矩阵向量乘计算模块、激活函数模块、点乘操作模块连接,所述矩阵向量乘计算模块、激活函数模块...
- 董慧娟谢坤鹏赫鑫宇郑光明卢冶
- 一种用于ViTs的逐图像块后训练量化方法及系统
- 本发明涉及人工智能技术领域,具体公开了一种用于ViTs的逐图像块后训练量化方法及系统,方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器;将预训练模型中的全部模块替换为对应的量化模块,得...
- 赫鑫宇李东哲卢冶
- 一种基于弹性有效位的深度神经网络量化方法
- 本发明提供了一种基于弹性有效位的深度神经网络量化方法,将定点数或者浮点数量化为具有弹性有效位数的量化值,丢弃多余的尾数部分,并采用可行求解的方式来定量评价量化值与原始数据的分布差异。本发明具有弹性有效位的量化值,通过不同...
- 龚成卢冶李涛
- 文献传递
- 基于特征重路由的多分类器优化方法
- 本发明提供了一种基于特征重路由的多分类器优化方法,包括以下步骤:S1:构建MCN模型;S2:对于骨干网的每一层权值w<Sub>i</Sub>和输出的特征f<Sub>i</Sub>按比例参数τ<Sub>i</Sub>拆分成...
- 龚成李涛卢冶
- SAF-CNN:面向嵌入式FPGA的卷积神经网络稀疏化加速框架被引量:5
- 2023年
- 传统的卷积神经网络加速器及推理框架在资源约束的FPGA上部署模型时,往往面临设备种类繁多且资源极端受限、数据带宽利用不充分、算子操作类型复杂难以适配且调度不合理等诸多挑战.提出一种面向嵌入式FPGA的卷积神经网络稀疏化加速框架(sparse acceleration framework of convolutional neural network, SAF-CNN),通过软硬件协同设计的方法,从硬件加速器与软件推理框架2个角度进行联合优化.首先, SAF-CNN构建并行计算阵列,并且设计并行编解码方案,实现单周期多数据的传输,有效减少通信代价.其次,设计细粒度结构化块划分剪枝算法,于输入通道维度进行块内裁剪来获得稀疏且规则的权重矩阵,借此显著降低计算规模和DSP乘法器等资源占用.然后,提出一种兼容深度可分离卷积的输入通道维度动态拓展及运行时调度策略,实现输入通道参数灵活适配与逐通道卷积和逐点卷积的资源复用.最后,提出一种计算图重构及硬件算子融合优化方法,提升硬件执行效率.实验采用2种资源受限的低端FPGA异构平台Intel CycloneV与Xilinx ZU3EG,结果表明SAF-CNN加速器可分别实现76.3GOPS与494.3GOPS的计算性能.与多核CPU相比,SAF-CNN在进行SSD_MobileNetV1目标模型检测时,可实现3.5倍与2.2倍的性能提升,模型推理速度高达26.5fps.
- 谢坤鹏仪德智刘义情刘航赫鑫宇龚成卢冶
- 关键词:卷积神经网络加速器设计
- 一种面向门座式起重机工作图像的小目标检测方法
- 本发明提供一种面向门座式起重机工作图像的小目标检测方法,属于图像处理技术领域,包括一个起重机工作图像数据集构建方法,针对海港门座式起重机特殊工作环境,采用了不同旋转角度的长方形的锚框精准标记各个物体,从而提高识别的精准度...
- 刘航郑光明卢冶
- FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架被引量:8
- 2022年
- 卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能.
- 谢坤鹏卢冶卢冶刘义情龚成陈新伟陈新伟
- 关键词:加速器设计