作者:丁立德; 胡怀湘计算机应用技术深度学习国产服务器现场可编程门阵列卷积神经网络
摘要:FPGA(现场可编程门阵列)作为人工智能应用的新加速载体,可替GPU对人工智能应用推理阶段进行加速。文中提出了一种新的人工智能应用加速方案,利用定点、矩阵压缩等方法对卷积神经网络(CNN)模型进行处理,优化CNN网络模型,并设计开发一套驱动软件框架以适配国产平台。该技术在飞腾1500A国产服务器上对卷积神经网络中的人脸识别与目标检测应用进行加速,运算性能较目前国产服务器运算能力提升30倍以上,实现自主可控的人工智能应用加速。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社