然后离开了指令集实验室。
走廊里灯光调得很暗,只有应急灯还亮着。
他走进电梯按下另一层的按钮,那是AI芯片研发团队所在的楼层。
AI芯片实验室里的气氛比指令集那边更凝重。
长桌上摊着好几块测试板,每块板上都焊着不同版本的AI加速核心。
测试板旁边堆着厚厚一摞功耗曲线报告,每一页的页脚都被翻得起了毛边。
项目负责人姓周,是从英伟达挖过来的资深架构师,头发已经白了大半,但眼神极其锐利。
“王总。”
周工把他引到主测试台前,屏幕上正跑着一组AI推理任务的功耗曲线。
“我们目前基于传统SIMD架构做的AI加速核心,在图象识别和自然语言处理上的性能已经追平了英伟达同级别产品,但功耗始终偏高。主要是数据搬运太频繁,神经网络每一层都要从外部DRAM里反复加载权重,加载一次能耗比算一次还高。这个问题不解决,我们的AI芯片就只能用在服务器端,塞不进车机和手机。”
他把功耗曲线逐层拆解开来,每拆一层就在屏幕上标一个对应的数据搬运量。
从卷积层到全连接层再到注意力机制,搬运量的峰值越来越高,整张图看上去就像一面正在倾斜的墙。
王东来没有直接回答。
他走到白板前拿起记号笔,画了一个全新的架构草图。
不是传统的SIMD阵列,而是一种混合粒度的张量计算单元,粗粒度处理大规模矩阵乘法,细粒度处理稀疏化后的注意力计算。
两者共用同一组片上缓存,但调度逻辑分开。
“传统GPU用SIMD堆算力,靠暴力计算碾压神经网络。但AI推理任务的瓶颈不是算力,是数据搬运。每一层神经网络的权重都要从外部内存搬进计算单元,搬一次消耗的能量比算一次还多。你们的方案用大容量片上缓存来减少搬运次数,方向对,但片上缓存的容量终归有限,缓存再大,也装不下整个GPT模型的权重。”
他在混合粒度张量计算单元的架构图上添了几笔,在片上缓存和外部DRAM之间加了一个极简的数据压缩引擎。
“在数据进出片上缓存的时候加一层硬件压缩解压逻辑,不是软件压缩,是直接做在硅片上的专用压缩引擎。神经网络权重本身有大量冗余,稀疏化之后大部分权重是零,非零部分也有很强的规律性。用轻量级的差分编码把权重流
…。。本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。
Copyright © 2020 祭司书院 All Rights Reserved.kk