文章來源:機器之心
MIT、微軟聯(lián)合研究:不需要額外訓(xùn)練,也能增強大語言模型的任務(wù)性能并降低其大小。
圖片來源:由無界 AI生成
在大模型時代,Transformer 憑一己之力撐起了整個科研領(lǐng)域。自發(fā)布以來,基于 Transformer 的 LLM 在各種任務(wù)上表現(xiàn)出卓越的性能,其底層的 Transformer 架構(gòu)已成為自然語言建模和推理的最先進技術(shù),并在計算機視覺和強化學(xué)習(xí)等領(lǐng)域顯示出強有力的前景。
然而,當(dāng)前 Transformer 架構(gòu)非常龐大,通常需要大量計算資源來進行訓(xùn)練和推理。?
這是有意為之的,因為經(jīng)過更多參數(shù)或數(shù)據(jù)訓(xùn)練的 Transformer 顯然比其他模型更有能力。盡管如此,越來越多的工作表明,基于 Transformer 的模型以及神經(jīng)網(wǎng)絡(luò)不需要所有擬合參數(shù)來保留其學(xué)到的假設(shè)。?
一般來講,在訓(xùn)練模型時大規(guī)模過度參數(shù)化似乎很有幫助,但這些模型可以在推理之前進行大幅剪枝;有研究表明神經(jīng)網(wǎng)絡(luò)通??梢匀コ?90% 以上的權(quán)重,而性能不會出現(xiàn)任何顯著下降。這種現(xiàn)象促使研究者開始轉(zhuǎn)向有助于模型推理的剪枝策略研究。
來自 MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一個令人驚訝的發(fā)現(xiàn),即在 Transformer 模型的特定層上進行仔細的剪枝可以顯著提高模型在某些任務(wù)的性能。
- 論文地址:https://arxiv.org/pdf/2312.13558.pdf
- 論文主頁:https://pratyushasharma.github.io/laser/
該研究將這種簡單的干預(yù)措施稱之為 LASER( LAyer SElective Rank reduction ,層選擇性降秩),通過奇異值分解來選擇性地減少 Transformer 模型中特定層的學(xué)習(xí)權(quán)重矩陣的高階分量,從而顯著提高 LLM 的性能,這種操作可以在模型訓(xùn)練完成后進行,并且不需要額外的參數(shù)或數(shù)據(jù)。
操作過程中,權(quán)重的減少是在模型特定權(quán)重矩陣和層中執(zhí)行的,該研究還發(fā)現(xiàn)許多類似矩陣都可以顯著減少權(quán)重,并且在完全刪除 90% 以上的組件之前通常不會觀察到性能下降。
該研究還發(fā)現(xiàn)這些減少可以顯著提高準(zhǔn)確率,這一發(fā)現(xiàn)似乎不僅限于自然語言,在強化學(xué)習(xí)中也發(fā)現(xiàn)了性能提升。
此外,該研究嘗試推斷出高階組件中存儲的內(nèi)容是什么,以便進行刪除從而提高性能。該研究發(fā)現(xiàn)經(jīng)過 LASER 回答正確的問題,但在干預(yù)之前,原始模型主要用高頻詞 (如 “the”、“of” 等) 來回應(yīng),這些詞甚至與正確答案的語義類型都不相同,也就是說這些成分在未經(jīng)干預(yù)的情況下會導(dǎo)致模型生成一些不相干的高頻詞匯。
然而,通過進行一定程度的降秩后,模型的回答可以轉(zhuǎn)變?yōu)檎_的。
為了理解這一點,該研究還探索了其余組件各自編碼的內(nèi)容,他們僅使用其高階奇異向量來近似權(quán)重矩陣。結(jié)果發(fā)現(xiàn)這些組件描述了與正確答案相同語義類別的不同響應(yīng)或通用高頻詞。
這些結(jié)果表明,當(dāng)嘈雜的高階分量與低階分量組合時,它們相互沖突的響應(yīng)會產(chǎn)生一種平均答案,這可能是不正確的。圖 1 直觀地展示了 Transformer 架構(gòu)和 LASER 遵循的程序。在這里,特定層的多層感知器(MLP)的權(quán)重矩陣被替換為其低秩近似。
LASER 概覽?
研究者詳細介紹了 LASER 干預(yù)。單步 LASER 干預(yù)由包含參數(shù) τ、層數(shù)?和降秩 ρ 的三元組 (τ, ?, ρ) 定義。這些值共同描述了哪個矩陣會被它們的低秩近似所替代以及近似的嚴格程度。研究者依賴參數(shù)類型對他們將要干預(yù)的矩陣類型進行分類。
研究者重點關(guān)注 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由 MLP 和注意力層中的矩陣組成。層數(shù)表示了研究者干預(yù)的層(第一層從 0 開始索引)。例如 Llama-2 有 32 層,因此 ? ∈ {0, 1, 2,???31}。
最終,ρ ∈ [0, 1) 描述了在做低秩近似時應(yīng)該保留最大秩的哪一部分。例如設(shè)
則該矩陣的最大秩為 d。研究者將它替換為?ρ?d?- 近似。
下圖 1 為 LASER 示例,該圖中,τ = U_in 和? = L 表示在 L^th 層的 Transformer 塊中來更新 MLP 第一層的權(quán)重矩陣。另一個參數(shù)控制 rank-k 近似中的 k。
LASER 可以限制網(wǎng)絡(luò)中某些信息的流動,并出乎意料地產(chǎn)生顯著的性能優(yōu)勢。這些干預(yù)也可以很容易組合起來,比如以任何順序來應(yīng)用一組干預(yù)
LASER 方法只是對這類干預(yù)進行簡單的搜索,并修改以帶來最大收益。不過,還有很多其他方法可以將這些干預(yù)組合起來,這是研究者未來工作的方向。
實驗結(jié)果
在實驗部分,研究者使用了在 PILE 數(shù)據(jù)集上預(yù)訓(xùn)練的 GPT-J 模型,該模型的層數(shù)為 27,參數(shù)為 60 億。然后在 CounterFact 數(shù)據(jù)集上評估模型的行為,該數(shù)據(jù)集包含(主題、關(guān)系和答案)三元組的樣本,每個問題提供了三個釋義 prompt。
首先是 CounterFact 數(shù)據(jù)集上對 GPT-J 模型的分析。下圖 2 展示了在 Transformer 架構(gòu)中為每個矩陣應(yīng)用不同數(shù)量降秩的結(jié)果對數(shù)據(jù)集分類損失的影響。其中每個 Transformer 層都由一個兩層的小型 MLP 組成,輸入和輸出矩陣分別顯示。不同的顏色表示移除組件的不同百分比。
關(guān)于提升釋義的準(zhǔn)確度和穩(wěn)健性,如上圖 2 和下表 1 所示,研究者發(fā)現(xiàn),當(dāng)在單層上進行降秩時,GPT-J 模型在 CounterFact 數(shù)據(jù)集上的事實準(zhǔn)確度從 13.1% 增加到了 24.0%。需要注意一點,這些改進只是降秩的結(jié)果,并不涉及對模型的任何進一步訓(xùn)練或微調(diào)。
數(shù)據(jù)集中的哪些事實會通過降秩恢復(fù)呢?研究者發(fā)現(xiàn),通過降秩恢復(fù)的事實極大可能很少出現(xiàn)在數(shù)據(jù)中,如下圖 3 所示。
高階組件存儲什么呢?研究者使用高階組件近似最終的權(quán)重矩陣(而不像 LASER 那樣使用低階組件來近似),如下圖 5 (a) 所示。當(dāng)使用不同數(shù)量的高階組件來近似矩陣時,他們測量了真實答案相對于預(yù)測答案的平均余弦相似度,如下圖 5 (b) 所示。
最后,研究者評估了自身發(fā)現(xiàn)對 3 種不同的 LLM 在多項語言理解任務(wù)上的普遍性。對于每項任務(wù),他們通過生成準(zhǔn)確度、分類準(zhǔn)確度和損失三種指標(biāo)來評估模型的性能。如上表 1 所示,即使降秩很大也不會導(dǎo)致模型準(zhǔn)確度下降,卻可以提升模型性能。