當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > MoE與Mamba強(qiáng)強(qiáng)聯(lián)合，將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)

MoE與Mamba強(qiáng)強(qiáng)聯(lián)合，將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)

更新時(shí)間：2024-01-23 16:04:54 | 作者：佚名

文章來源：機(jī)器之心性能與Mamba一樣，但所需訓(xùn)練步驟數(shù)卻少2.2倍。圖片來源：由無界AI生成狀態(tài)空間模型（SSM）是近來一種備受關(guān)注的Transformer替代技術(shù)，其優(yōu)勢(shì)是能在長上下文任務(wù)上實(shí)現(xiàn)線性時(shí)間的推理、并行化訓(xùn)練和強(qiáng)大的性能。而基于選擇性SSM和硬件感知型設(shè)計(jì)的Mamba更是表現(xiàn)出色，成為了基于注意力的Transformer架構(gòu)的一大有力...

文章來源：機(jī)器之心

性能與 Mamba 一樣，但所需訓(xùn)練步驟數(shù)卻少 2.2 倍。

圖片來源：由無界 AI生成

狀態(tài)空間模型（SSM）是近來一種備受關(guān)注的 Transformer 替代技術(shù)，其優(yōu)勢(shì)是能在長上下文任務(wù)上實(shí)現(xiàn)線性時(shí)間的推理、并行化訓(xùn)練和強(qiáng)大的性能。而基于選擇性 SSM 和硬件感知型設(shè)計(jì)的 Mamba 更是表現(xiàn)出色，成為了基于注意力的 Transformer 架構(gòu)的一大有力替代架構(gòu)。

近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強(qiáng)大的架構(gòu)，比如機(jī)器之心曾報(bào)告過《Mamba 可以替代 Transformer，但它們也能組合起來使用》。

近日，波蘭一個(gè)研究團(tuán)隊(duì)發(fā)現(xiàn)，如果將 SSM 與混合專家系統(tǒng)（MoE/Mixture of Experts）組合起來，可望讓 SSM 實(shí)現(xiàn)大規(guī)模擴(kuò)展。MoE 是目前常用于擴(kuò)展 Transformer 的技術(shù)，比如近期的 Mixtral 模型就使用了這一技術(shù)，參閱機(jī)器之心文章。

這個(gè)波蘭研究團(tuán)隊(duì)給出的研究成果是 MoE-Mamba，即將 Mamba 和混合專家層組合起來的模型。

論文地址：https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同時(shí)提升 SSM 和 MoE 的效率。而且該團(tuán)隊(duì)還發(fā)現(xiàn)，當(dāng)專家的數(shù)量發(fā)生變化時(shí)，MoE-Mamba 的行為是可預(yù)測(cè)的。

該團(tuán)隊(duì)也進(jìn)行了實(shí)驗(yàn)論證，如圖 1 所示，結(jié)果表明：相比于 Mamba，MoE-Mamba 達(dá)到同等性能時(shí)所需的訓(xùn)練步驟數(shù)少 2.2 倍，這彰顯了新方法相較于 Transformer 和 Transformer-MoE 的潛在優(yōu)勢(shì)。這些初步結(jié)果也指出了一個(gè)頗具潛力的研究方向：SSM 也許可以擴(kuò)展到數(shù)百億參數(shù)！

模型架構(gòu)

盡管 Mamba 的主要底層機(jī)制與 Transformer 中使用的注意力機(jī)制大不相同，但 Mamba 保留了 Transformer 模型的高層級(jí)、基于模塊的結(jié)構(gòu)。使用這一范式，由相同模塊構(gòu)成的一層或多層會(huì)彼此堆疊在一起，而每一層的輸出都會(huì)被添加到殘差流（residual stream）中，見圖 2。之后，這個(gè)殘差流的最終值會(huì)被用于預(yù)測(cè)語言建模任務(wù)的下一個(gè) token。

MoE-Mamba 利用了這兩種架構(gòu)的兼容能力。如圖 2 所示，在 MoE-Mamba 中，每間隔一個(gè) Mamba 層就會(huì)被替換成一個(gè)基于 Switch 的 MoE 前饋層。

不過該團(tuán)隊(duì)也注意到這一設(shè)計(jì)和《Mamba: Linear-time sequence modeling with selective state spaces》的設(shè)計(jì)有些相似；后者交替堆疊了 Mamba 層和前饋層，但得到的模型相比于單純的 Mamba 還略有不及。該設(shè)計(jì)在圖 1 中被記為 Mamba-MLP。

MoE-Mamba 分開了 Mamba 層執(zhí)行的每個(gè) token 的無條件處理和 MoE 層執(zhí)行的有條件處理；其中的無條件處理可高效地將序列的整個(gè)上下文整合到一個(gè)內(nèi)部表征中，而有條件處理可為每個(gè) token 使用最相關(guān)的專家。這種將有條件處理和無條件處理交替起來的思路在一些基于 MoE 的模型中已經(jīng)得到了應(yīng)用，不過它們通常是交替基本的和 MoE 的前饋層。

主要結(jié)果

訓(xùn)練設(shè)置

該團(tuán)隊(duì)比較了 5 種不同設(shè)置：基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多數(shù) Transformers 中，前饋層包含 8dm2 個(gè)參數(shù)，而 Mamba 論文中則讓 Mamba 更小一些（約 6dm2），這樣兩個(gè) Mamba 層的參數(shù)數(shù)量與一個(gè)前饋層和一個(gè)注意力層加起來差不多。為了讓 Mamba 和新模型中每個(gè) token 的活動(dòng)參數(shù)數(shù)量大致一樣，該團(tuán)隊(duì)將每個(gè)專家前向?qū)拥拇笮】s小到了 6dm2。除了嵌入層和解除嵌入（unembedding）層，所有模型都是每個(gè) token 使用大約 2600 萬參數(shù)。訓(xùn)練過程使用了 65 億個(gè) token，訓(xùn)練步驟數(shù)為 100k。

訓(xùn)練使用的數(shù)據(jù)集是 English C4 數(shù)據(jù)集，任務(wù)是預(yù)測(cè)下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 給出了超參數(shù)的完整列表。

結(jié)果

表 1 給出了訓(xùn)練結(jié)果。MoE-Mamba 的表現(xiàn)顯著優(yōu)于普通 Mamba 模型。

值得注意的是，MoE-Mamba 只用僅僅 46% 的訓(xùn)練步驟就達(dá)到了與普通 Mamba 同等的結(jié)果水平。由于學(xué)習(xí)率是針對(duì)普通 Mamba 進(jìn)行調(diào)整的，因此可以預(yù)計(jì)，如果再針對(duì) MoE-Mamba 對(duì)訓(xùn)練流程進(jìn)行一番優(yōu)化，MoE-Mamba 的表現(xiàn)還會(huì)更好。

消融研究

為了評(píng)估 Mamba 是否能隨專家數(shù)量的增長而很好地?cái)U(kuò)展，研究者比較了使用不同數(shù)量專家的模型。

圖 3 展示了使用不同數(shù)量的專家時(shí)的訓(xùn)練運(yùn)行步驟情況。

表 2 給出了 100k 步驟后的結(jié)果。

這些結(jié)果表明新提出的方法能隨專家數(shù)量而很好地?cái)U(kuò)展。如果專家的數(shù)量為 8 或更多，新模型的最終性能優(yōu)于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差，可以預(yù)見使用少量專家的 MoE-Mamba 的性能表現(xiàn)會(huì)比 Mamba 差。當(dāng)專家數(shù)為 32 時(shí)，新方法得到了最佳結(jié)果。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。

MoE與Mamba強(qiáng)強(qiáng)聯(lián)合，將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)

相關(guān)研究

模型架構(gòu)

主要結(jié)果

消融研究

MoE與Mamba強(qiáng)強(qiáng)聯(lián)合，將狀態(tài)空間模型擴(kuò)展到數(shù)百億參數(shù)