压缩到原来的几分之一,数据搬运量就对应降下来了。”
周工盯着那张架构图看了很久,眼神越来越亮。
他拿起红色记号笔在数据压缩引擎旁边写了几行字,差分编码、零值压缩、自适应量化,每一行都是硬件压缩领域的前沿方向,但真正做成硅片的没有几家。
看了一会儿,周工问了一个关键问题:压缩解压本身会带来延迟开销,如果延迟累积超过计算单元的空闲窗口,整体推理时间反而会被拖长。
王东来的回答更是没有丝毫犹豫:压缩解压逻辑和计算流水线做并行化处理,不是先解压再计算,是边解压边计算。解压完一个数据块直接推进计算流水线,不等整个批次解压完成。延迟开销被计算流水线的吞吐率吃掉,净功耗下降,净延迟不增。
他在白板上写下最后一行字,然后转过身把记号笔放回槽里。
周工看着那行字沉默了很长时间。
测试台上那组还在跑的功耗曲线在屏幕上缓慢波动着,每一层神经网络的计算功耗被拆解成数据搬运和矩阵运算两部分,前者占比高得惊人。
他知道如果王东来提出的这个架构能跑通,国内AI芯片在车机端和手机端将实现从无到有的跨越。
他转过身对团队说了一句话:“把王总的混合粒度计算单元方案做成RTL级仿真,三天之内出结果。另外,通知梁总,AI芯片流片排期提前,光刻工厂那边需要单独排产线。”
实验室里顿时响起一片键盘敲击声。
几个年轻工程师围在测试台前七嘴八舌地讨论着硬件压缩引擎的编码方案,有人调出娲之前做过的神经网络权重稀疏性分析报告,把差分编码的压缩比逐层标出来。
那个从英伟达跟周工一起跳过来的年轻工程师对着屏幕看了很久,忽然说了一句:“如果我们真把这东西做出来,以后英伟达的GPU在端侧推理上就没法跟我们打了。不是价格战,是直接从架构上抄近路,他们还在用SIMD堆算力,我们已经切到数据流驱动的张量计算了。”
周工没有回答。
他只是看着白板上那张被画得密密麻麻的架构图,想起自己在英伟达时期曾经反复呼吁过用近存计算思路来打端侧AI芯片,但每次都被优先级更高的数据中心GPU项目压下去。
现在他坐在唐都的实验室里,和一群年轻人一起重新做这件事,这条路终于有人肯认真走下去了。
第二天,王东来坐在办公室里审阅AI芯片
…。。本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。
Copyright © 2020 祭司书院 All Rights Reserved.kk