作者:吴焕; 吴俊敏卷积神经网络中央处理单元转置加速访存前向推理
摘要:为加速卷积神经网络的前向推理速度,提出一种针对卷积操作访存连续性的优化策略。在深度学习框架Caffe中,卷积以矩阵乘法的形式实现。Caffe卷积包含两个主要操作,分别是im2col和gemm。im2col称为image to columns,负责展开输入图像;gemm是general matrix-matrix multiplication的缩写,负责完成矩阵与矩阵之间的乘法运算。在以行优先的体系结构中,通过转置操作改变输入图像的数据排列,提升im2col和gemm的访存效率。实验结果表明,卷积操作的平均加速比在40%左右。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社