北京大學(xué)人工智能研究院類腦智能芯片研究中心李萌助理教授和集成電路學(xué)院王潤聲教授團(tuán)隊在2023年國際電子設(shè)計與測試領(lǐng)域頂級會議Design, Automation and Test in Europe(DATE)上發(fā)表論文“Accurate yet Efficient Stochastic Computing Neural Acceleration with High Precision Residual Fusion”。該論文提出一種基于隨機(jī)計算的神經(jīng)網(wǎng)絡(luò)加速器,通過協(xié)同設(shè)計、優(yōu)化神經(jīng)網(wǎng)絡(luò)與加速器芯片,在低精度隨機(jī)計算卷積運(yùn)算中融合高精度殘差連接,有效提升了推理準(zhǔn)確率(9.43%),并且?guī)缀醪辉黾宇~外的硬件開銷(僅1.3%)。

隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)研究的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)模型推理智能物聯(lián)網(wǎng)設(shè)備得到廣泛應(yīng)用,涵蓋圖像識別、視頻處理、自然語言處理等多個任務(wù)。然而,隨著DNN模型的發(fā)展,網(wǎng)絡(luò)參數(shù)和計算量快速增加給計算和存儲受限的邊緣設(shè)備帶來新的挑戰(zhàn)。隨機(jī)計算(SC)作為一種基于概率計算的計算方法被提出,其通過使用比特流代替?zhèn)鹘y(tǒng)二進(jìn)制編碼進(jìn)行計算,有望實(shí)現(xiàn)高面積效率的算術(shù)電路和很好的容錯性,非常適合用于邊緣計算的神經(jīng)網(wǎng)絡(luò)加速。

隨機(jī)計算(SC)用于網(wǎng)絡(luò)加速的相關(guān)研究已經(jīng)有許多,研究者們通過優(yōu)化乘法器或整體電路使SC網(wǎng)絡(luò)加速的性能顯著提升。即便如此,之前的工作仍然面臨著推理效率和準(zhǔn)確率的本征矛盾:算術(shù)運(yùn)算精度的提高雖然能夠提升推理準(zhǔn)確率,但會導(dǎo)致硬件計算代價指數(shù)級增長;相反,降低算術(shù)運(yùn)算精度能提升計算效率,但會直接降低推理的準(zhǔn)確率。

如圖1所示,用短比特流(例如2比特)的低精度隨機(jī)計算電路非常高效,但造成了10%準(zhǔn)確率降低;而更長的比特流可以提高精度,卻需要承擔(dān)3到10倍的硬件開銷代價。

人工智能研究院李萌及合作者在基于隨機(jī)計算的神經(jīng)網(wǎng)絡(luò)模型-加速器電路協(xié)同設(shè)計研究方向取得進(jìn)展-肽度TIMEDOO

圖1. 隨機(jī)計算(SC)推理準(zhǔn)確率與電路效率隨比特流長度的變化趨勢

針對以上SC電路面臨的無法兼顧神經(jīng)網(wǎng)絡(luò)推斷準(zhǔn)確率和電路效率的問題,本文所述工作對CIFAR10上ResNet18的權(quán)重和激活分別進(jìn)行量化并深入探究。結(jié)果發(fā)現(xiàn),對激活值的量化更顯著地影響了網(wǎng)絡(luò)準(zhǔn)確率,因而低精度的激活值是準(zhǔn)確率的主要瓶頸。因此,該工作從神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)和電路方面進(jìn)行協(xié)同優(yōu)化,提出一種準(zhǔn)確且高效的隨機(jī)計算神經(jīng)網(wǎng)絡(luò)加速設(shè)計方案。

人工智能研究院李萌及合作者在基于隨機(jī)計算的神經(jīng)網(wǎng)絡(luò)模型-加速器電路協(xié)同設(shè)計研究方向取得進(jìn)展-肽度TIMEDOO

圖2. 分別量化模型參數(shù)和激活值找出低精度網(wǎng)絡(luò)準(zhǔn)確率的瓶頸,即低精度的激活值

在神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)方面,該工作提出將高精度殘差與低精度數(shù)據(jù)通路相結(jié)合的新架構(gòu):通過將神經(jīng)網(wǎng)絡(luò)推斷運(yùn)算中占據(jù)最多運(yùn)算量的卷積操作保持在較低的精度,保障整體電路的硬件效率;同時引入高精度的殘差連接,大幅提升網(wǎng)絡(luò)推斷的準(zhǔn)確性。該架構(gòu)還將批歸一化(BN)與激活函數(shù)融合,以進(jìn)一步提高SC推理效率。

在電路方面,該工作分析了不同精度比特流的累加邏輯,并提出對殘差比特流縮放因子做匹配處理的高精度殘差模塊,以及能夠一次性實(shí)現(xiàn)BN、ReLU激活和輸出重量化的融合激活函數(shù)模塊。

人工智能研究院李萌及合作者在基于隨機(jī)計算的神經(jīng)網(wǎng)絡(luò)模型-加速器電路協(xié)同設(shè)計研究方向取得進(jìn)展-肽度TIMEDOO

圖3. 所提出的SC友好的低精度量化神經(jīng)網(wǎng)絡(luò)及其所需電路支持

基于上述創(chuàng)新技術(shù),課題組對提出的高精度殘差設(shè)計與對照加速器進(jìn)行了比較。比較結(jié)果表明,本研究的設(shè)計相比于側(cè)重電路效率的原始設(shè)計,以1.3%的硬件代價,提高了9.4%推斷準(zhǔn)確率。而與側(cè)重準(zhǔn)確率的原始設(shè)計相比,所提出的高精度殘差設(shè)計提高了3倍電路效率,同時保持準(zhǔn)確率相當(dāng)。

人工智能研究院李萌及合作者在基于隨機(jī)計算的神經(jīng)網(wǎng)絡(luò)模型-加速器電路協(xié)同設(shè)計研究方向取得進(jìn)展-肽度TIMEDOO

圖4. 基于神經(jīng)網(wǎng)絡(luò)-SC電路協(xié)同優(yōu)化,兼顧推理準(zhǔn)確性和效率

總的來說,李萌與王潤聲研究團(tuán)隊提出了一種新的神經(jīng)網(wǎng)絡(luò)-SC電路協(xié)同優(yōu)化設(shè)計,該設(shè)計在保持電路硬件效率的同時提高網(wǎng)絡(luò)精度,這對于隨機(jī)計算在邊緣計算神經(jīng)網(wǎng)絡(luò)加速器中的應(yīng)用具有重要意義。

北京大學(xué)集成電路學(xué)院博士研究生胡逸軒為第一作者,李萌與王潤聲為指導(dǎo)老師。

來源:北京大學(xué)