首頁(yè) > 區(qū)塊鏈 > 大模型套殼祛魅：質(zhì)疑套殼，理解套殼

大模型套殼祛魅：質(zhì)疑套殼，理解套殼

時(shí)間：2024-01-03 17:00:42

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #大模型套殼祛魅：質(zhì)疑套殼，理解套殼#】

作者｜趙健

來(lái)源丨甲子光年

套殼不是核心競(jìng)爭(zhēng)力，把殼做厚才是。

圖片來(lái)源：由無(wú)界 AI生成

剛剛過(guò)去的 2023 年是大模型元年，在國(guó)產(chǎn)大模型數(shù)量狂飆突進(jìn)的同時(shí)——已經(jīng)超過(guò) 200 個(gè)，“套殼”一直是縈繞在大模型頭上的輿論陰云。

從年初到年末，從百度文心一言到零一萬(wàn)物，從字節(jié)跳動(dòng)到谷歌 Gemini，各種“涉嫌套殼”的事件屢次沖上熱搜，隨后又被相關(guān)方解釋澄清。

非 AI 從業(yè)者，視套殼如洪水猛獸；真正的 AI 從業(yè)者，對(duì)套殼諱莫如深。但由于“套殼”本身并沒(méi)有清晰、準(zhǔn)確的定義，導(dǎo)致行業(yè)對(duì)套殼的理解也是一千個(gè)讀者有一千個(gè)哈姆雷特。

當(dāng)我們?cè)谡務(wù)撎讱さ臅r(shí)候，到底在談?wù)撌裁矗?/p>

拋開(kāi)具體場(chǎng)景談套殼都是在貼標(biāo)簽。為了厘清大模型套殼的邏輯，「甲子光年」訪談了一些AI從業(yè)者、投資人，結(jié)合 OpenAI、Meta 以及國(guó)內(nèi)大模型相關(guān)技術(shù)論文，從一個(gè)大模型的“煉丹”過(guò)程入手，看看在哪些步驟、哪些環(huán)節(jié)，存在套殼的空間。

2024 年或許是大模型大規(guī)模落地的元年，一些 AI Native 的應(yīng)用將會(huì)陸續(xù)出現(xiàn)。在積極發(fā)展大模型應(yīng)用生態(tài)之時(shí)，希望行業(yè)對(duì)于“套殼”的討論能夠拋開(kāi)情緒，回歸事實(shí)。

1.大模型的統(tǒng)一“內(nèi)核”

為了更好地理解套殼，必須區(qū)別“外殼”與“內(nèi)核”的區(qū)別。

今天，所有大模型的內(nèi)核，都起源于 2017 年谷歌大腦團(tuán)隊(duì)（Google Brain，2023年 4 月與谷歌收購(gòu)的?AI?公司 DeepMind 合并為 Google DeepMind ）發(fā)布的Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu)。

Transformer 一經(jīng)問(wèn)世，逐步取代了過(guò)去的 RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）與 CNN（卷積神經(jīng)網(wǎng)絡(luò)），成為 NLP（自然語(yǔ)言處理）前沿研究的標(biāo)準(zhǔn)范式。

在 Transformer 誕生的十年前，有一部好萊塢大片《變形金剛》在全球上映，這部電影的英文名字就叫“Transformers”。就像電影中能夠靈活變身的變形金剛一樣，作為神經(jīng)網(wǎng)絡(luò)架構(gòu)的 Transformer 也可以通過(guò)改變架構(gòu)組件與參數(shù)，衍生出不同的變體。

Transformer 的原始架構(gòu)包含兩個(gè)核心組件——編碼器（Encoder）與解碼器（Decoder），編碼器負(fù)責(zé)理解輸入文本，解碼器負(fù)責(zé)生成輸出文本。在 Transformer 的原始架構(gòu)上“魔改”衍生出三個(gè)變體架構(gòu)——只采用編碼器（Encoder-only），只采用解碼器（Decoder-only），以及兩者的混合體（Encoder-Decoder）。

這三個(gè)變體架構(gòu)分別有一個(gè)代表性模型——谷歌的 BERT ，OpenAI 的 GPT 系列模型，以及谷歌的 T5。今天，這三個(gè)模型名稱通常也指代了其背后的模型架構(gòu)名稱（后文也以此指代）。

Transformer的模型架構(gòu)圖，左側(cè)為Encoder，右側(cè)為Decoder。圖片來(lái)自谷歌論文

在 2020 年之前，NLP 的模型研究基本都是圍繞算法展開(kāi)，基于 BERT、T5 與 GPT 架構(gòu)的模型百花齊放。這一時(shí)期模型參數(shù)較小，基本都在 10 億以內(nèi)量級(jí)。其中，谷歌 BERT 的表現(xiàn)獨(dú)領(lǐng)風(fēng)騷，基于 BERT 架構(gòu)的模型一度在閱讀理解的競(jìng)賽排行榜中屠榜。

直到 2020 年，OpenAI 發(fā)布一篇論文，首次提出了 Scaling Laws（尺度定律），NLP 的研究才正式進(jìn)入大模型時(shí)代——大模型基于“大算力、大參數(shù)、大數(shù)據(jù)”，模型性能就會(huì)像摩爾定律一樣持續(xù)提升，直到“智能涌現(xiàn)”的時(shí)刻。

在此期間，GPT 架構(gòu)的性能表現(xiàn)逐漸超越 BERT 與 T5，成為大模型的主流選擇。今天百億參數(shù)以上的主流大模型中，除了谷歌最新發(fā)布的 Gemini 是基于 T5 架構(gòu)，幾乎清一色都是從 GPT 架構(gòu)衍生而來(lái)?？梢哉f(shuō)，GPT 完成了一場(chǎng)大模型架構(gòu)內(nèi)核的大一統(tǒng)。

大模型進(jìn)化樹(shù)，其中 GPT 系列枝繁葉茂。圖片來(lái)自Github，作者M(jìn)ooler0410

從大模型的進(jìn)化脈絡(luò)來(lái)看，今天所有的模型都是在“套殼” Transformer 以及其三個(gè)變體架構(gòu)。

當(dāng)然，Transformer 也有“不愿套殼”的挑戰(zhàn)者。比如，2023 年 12 月 5 日，兩位分別來(lái)自卡內(nèi)基梅隆大學(xué)與普林斯頓大學(xué)的教授，發(fā)布了一款名為“Mamba”（曼巴）的新架構(gòu)，在語(yǔ)言建模性能媲美 Transformer 的同時(shí)，還解決了一些擴(kuò)展性的局限。但這個(gè)新架構(gòu)的具體表現(xiàn)，還需要時(shí)間的檢驗(yàn)。

模型架構(gòu)選擇只是第一步。百川智能創(chuàng)始人、CEO 王小川在一個(gè)月前的2023甲子引力年終盛典上將大模型訓(xùn)練比作“炒菜”，模型架構(gòu)只是一個(gè)菜譜。要想得到一盤完整的菜，還需要烹飪，也就是大模型訓(xùn)練的過(guò)程；以及食材，也就是數(shù)據(jù)。

大模型的烹飪過(guò)程可以粗略地分為預(yù)訓(xùn)練（Pre Train）與微調(diào)（Fine-Tune）兩大階段。

預(yù)訓(xùn)練是大模型訓(xùn)練最核心的環(huán)節(jié)，通過(guò)把大量的文本信息壓縮到模型中，就像一個(gè)學(xué)生寒窗苦讀的過(guò)程，來(lái)讓模型具備世界知識(shí)。OpenAI 創(chuàng)始人之一、特斯拉前 AI 總監(jiān)安德烈·卡帕西（Andrej Karpathy）在 2023 年 5 月的微軟 Build 大會(huì)上透露：“預(yù)訓(xùn)練就是在超級(jí)計(jì)算機(jī)中使數(shù)千個(gè) GPU 以及可能進(jìn)行數(shù)月時(shí)間來(lái)處理互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集的地方，占據(jù)訓(xùn)練時(shí)間的99%。”

在漫長(zhǎng)的預(yù)訓(xùn)練之后會(huì)得到一個(gè)基座模型（Base Model），在基座模型的基礎(chǔ)上加入特定行業(yè)的數(shù)據(jù)集做進(jìn)一步的微調(diào)，就會(huì)得到一個(gè)微調(diào)模型（Fine-tuning Model），或者稱為行業(yè)模型、垂直模型。

微調(diào)通常分為兩個(gè)步驟——SFT（有監(jiān)督微調(diào)）+RLHF（人類反饋強(qiáng)化學(xué)習(xí)），其中 RLHF是 OpenAI 的創(chuàng)新設(shè)計(jì)，它決定了模型能夠與人類意圖與價(jià)值觀對(duì)齊，是訓(xùn)練一個(gè)可靠的對(duì)話模型不可或缺的環(huán)節(jié)。

預(yù)訓(xùn)練成本極高，因此每年或幾個(gè)月才會(huì)做一次。OpenAI 訓(xùn)練 ChatGPT 大約花費(fèi)了大約 1200 萬(wàn)美元，Meta 訓(xùn)練 Llama 65B 花費(fèi)了 500 萬(wàn)美元。相比之下，微調(diào)成本較低，可能只需要短短幾天甚至一天。

正因如此，只有充足的算力、財(cái)力的大公司與資本支持的雄心勃勃的創(chuàng)業(yè)公司，才會(huì)涉足基座模型?！鞍倌４髴?zhàn)”中的國(guó)產(chǎn)大模型數(shù)量雖然多，但只有大約 10% 的模型是基座模型，90% 的模型是在開(kāi)源模型基礎(chǔ)上加入特定數(shù)據(jù)集做微調(diào)的行業(yè)模型、垂直模型。其中，應(yīng)用最廣、性能最好的開(kāi)源基座模型，目前就是 Meta 的 Llama 2。

從大模型的訓(xùn)練過(guò)程來(lái)看，沒(méi)有人會(huì)對(duì)架構(gòu)選擇——“套殼” Transformer 有異議。但圍繞架構(gòu)之后的預(yù)訓(xùn)練，成為了一個(gè)套殼與否的隱秘角落。

2.“原創(chuàng)派”與“模仿派”

預(yù)訓(xùn)練是大模型最核心的環(huán)節(jié)，也是“套殼”與“自研”爭(zhēng)議較多的環(huán)節(jié)。

前面提到，模型架構(gòu)只是大模型的菜譜——目前有 BERT、T5 與 GPT 三大菜譜，而每個(gè)菜譜上會(huì)有具體的菜名——預(yù)訓(xùn)練框架。按照預(yù)訓(xùn)練框架的菜譜炒菜，就是預(yù)訓(xùn)練的過(guò)程。

一個(gè)可以肯定的事實(shí)是，所有的定位做基座模型的公司，都是從頭開(kāi)始投入真金白銀做了完整的預(yù)訓(xùn)練，但菜譜的由來(lái)，卻分成了兩派。

第一派，就是標(biāo)準(zhǔn)意義的“自研派”，從菜譜開(kāi)始研究，自研了預(yù)訓(xùn)練框架。

這一派的共同點(diǎn)就是布局較早，可以追溯到 2020 年之前，遠(yuǎn)遠(yuǎn)早于 ChatGPT 誕生而打響的大模型競(jìng)賽的發(fā)令槍。

百度是其中一家。2019年，百度就發(fā)布了自研的預(yù)訓(xùn)練框架 ERNIE，也就是今天的文心大模型，今天已經(jīng)更新到ERNIE-4.0。值得一提的是，谷歌 BERT 與百度 ERNIE 名字取材于美國(guó)著名兒童節(jié)目《芝麻街》中的角色，兩者是一對(duì)好友。

《芝麻街》中的 ERNIE 與 BERT，圖片來(lái)自網(wǎng)絡(luò)

另一家早期自研預(yù)訓(xùn)練框架的大模型公司是智譜 AI 。智譜 AI 成立于 2019 年，并在 2020 年底開(kāi)始自研預(yù)訓(xùn)練框架 GLM。GLM 與谷歌 T5 相似，也是基于Encoder-Decoder 架構(gòu)。2022 年 11 月，斯坦福大學(xué)大模型中心對(duì)全球 30 個(gè)主流大模型進(jìn)行了全方位的評(píng)測(cè)，GLM-130B 是亞洲唯一入選的大模型。

百度與智譜 AI 之外，還有一部分閉源大模型沒(méi)有公開(kāi)自己的技術(shù)細(xì)節(jié)，代表性公司為Minimax、月之暗面等。有投資人對(duì)「甲子光年」表示，這幾家也有自己的預(yù)訓(xùn)練框架，但無(wú)法準(zhǔn)確核實(shí)。

總的來(lái)說(shuō)，國(guó)內(nèi)基于自研預(yù)訓(xùn)練框架的大模型公司數(shù)量較少，大約只有 5 家左右。

第二派大模型公司也從頭開(kāi)始做完整的預(yù)訓(xùn)練過(guò)程，但預(yù)訓(xùn)練框架是在開(kāi)源框架——主要是 Llama 2 的基礎(chǔ)上修改部分參數(shù)而來(lái)，可以稱之為“模仿派”。

對(duì)于開(kāi)源社區(qū)而言，這是一套非常正常的做法，開(kāi)源的意義就是公開(kāi)自己的研究成果，促進(jìn)技術(shù)的交流與共享，讓開(kāi)源社區(qū)內(nèi)更多的研究者受益。

Llama 2 也是站在過(guò)去開(kāi)源模型的肩膀上一步步發(fā)展而來(lái)。比如，Llama 2 的模型架構(gòu)中， Pre-normalization（預(yù)歸一化）受 GPT-3 啟發(fā)，SwiGLU（激活函數(shù)）受 PaLM 的啟發(fā)，Rotary Embeddings（位置編碼）受 GPT-Neo 的啟發(fā)。其他模型也經(jīng)常魔改這幾個(gè)參數(shù)來(lái)做預(yù)訓(xùn)練。

零一萬(wàn)物創(chuàng)始人李開(kāi)復(fù)表示：“全球大模型架構(gòu)一路從 GPT2 --> Gopher --> Chinchilla --> Llama 2-> Yi，行業(yè)逐漸形成大模型的通用標(biāo)準(zhǔn)，就像做一個(gè)手機(jī) app 開(kāi)發(fā)者不會(huì)去自創(chuàng) iOS、Android 以外的全新基礎(chǔ)架構(gòu)?！?/p>

值得強(qiáng)調(diào)的是，模仿 Llama 2 并非代表沒(méi)有核心競(jìng)爭(zhēng)力。零一萬(wàn)物在文章中提到，模型訓(xùn)練過(guò)程好比做一道菜，架構(gòu)只是決定了做菜的原材料和大致步驟，要訓(xùn)練出好的模型，還需要更好的“原材料”（數(shù)據(jù)）和對(duì)每一個(gè)步驟細(xì)節(jié)的把控（訓(xùn)練方法和具體參數(shù)）。

“原創(chuàng)派”與“模仿派”，到底孰優(yōu)孰劣？對(duì)于這件事，需要分開(kāi)討論。一句話總結(jié)來(lái)說(shuō)，原創(chuàng)派賭的是未來(lái)，模仿派賭的是現(xiàn)在。

一位投資人對(duì)「甲子光年」表示：“Llama 2 并非一個(gè)完美架構(gòu)，還有較大的局限性，有機(jī)會(huì)做到 GPT-3.5 的水平，但是如何做到 GPT-4 的水平，目前還沒(méi)有看到辦法。如果底層技術(shù)架構(gòu)一直受制于 Llama 2，想要超越 GPT，怕是機(jī)會(huì)很小。”

這位投資人所在的投資機(jī)構(gòu)投資了多家大模型公司。在做投資決策時(shí)，自研預(yù)訓(xùn)練框架與否，也是他們的衡量標(biāo)準(zhǔn)之一。

一位 AI 公司的研發(fā)人員告訴「甲子光年」，自研預(yù)訓(xùn)練模型的優(yōu)勢(shì)在于擴(kuò)展能力比較強(qiáng)，“如果基于開(kāi)源，都是有版本限制的，比如 Llama 2 只有 7B、13B、70B 三個(gè)版本，再多就沒(méi)有了，想再搞大規(guī)模一點(diǎn)，搞不了”。

不過(guò)，理想很豐滿，但原創(chuàng)預(yù)訓(xùn)練架構(gòu)的優(yōu)勢(shì)，目前還存在于理論階段。短期來(lái)看，無(wú)論是自研還是模仿 Llama 2，兩者都處在 GPT-3.5 的水平，性能差距不大。

另一位 AI 投資人對(duì)「甲子光年」表示：“現(xiàn)階段，開(kāi)源框架基本已經(jīng)達(dá)到了 GPT-3.5 的水平，所以，如果選擇從頭自研一個(gè)與開(kāi)源框架水平一樣的預(yù)訓(xùn)練框架，不如直接選擇模仿 Llama 2 效率更高、穩(wěn)定性更可靠，除非有能力自研一個(gè)達(dá)到GPT-4、甚至下一代 GPT-5 能力的模型。這里的能力指的是有技術(shù)能力，且有足夠的資金持續(xù)投入，因?yàn)槟壳邦A(yù)期是 GPT-5 的訓(xùn)練可能需要 3-5 萬(wàn)張 H100，成本在 10-20 億美金?！?/p>

現(xiàn)階段，大家比拼的并不是預(yù)訓(xùn)練框架的性能，而是工程化的能力，業(yè)內(nèi)一般稱為 AI Infra——AI 基礎(chǔ)設(shè)施。

昆侖萬(wàn)維 AI Infra 負(fù)責(zé)人成誠(chéng)將大模型發(fā)展分為了三個(gè)階段：2020 年之前的算法研究階段，2020~2023 年的數(shù)據(jù)為王階段，以及 2023 年的 AI Infra 階段。

他預(yù)測(cè)，未來(lái)大模型算法研究必然朝著 Infra 的方向去探索：稀疏化（Sparse?Attention、 Sparse GEMM / MoE）?將會(huì)是2024年學(xué)術(shù)界與工業(yè)界的主戰(zhàn)場(chǎng)。

3.薅GPT的數(shù)據(jù)羊毛

在預(yù)訓(xùn)練完成之后，來(lái)到了微調(diào)階段。實(shí)際上，這一階段才是大部分“套殼”大模型翻車的原因，它與數(shù)據(jù)集的質(zhì)量有直接關(guān)系。

數(shù)據(jù)的使用貫穿在大模型預(yù)訓(xùn)練、SFT、RLHF 的每個(gè)階段。在預(yù)訓(xùn)練階段，數(shù)據(jù)“在多而不在精”。由于預(yù)訓(xùn)練使用互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)，不同大模型最終所獲得的知識(shí)儲(chǔ)備是趨近的。

明顯的差異點(diǎn)發(fā)生在微調(diào)階段，數(shù)據(jù)“在精而不在多”。比如，Llama 2 的研究人員在做微調(diào)時(shí)發(fā)現(xiàn)大部分第三方的 SFT 數(shù)據(jù)集多樣性與質(zhì)量都不足，因此他們自己構(gòu)建了 27540 個(gè)高質(zhì)量標(biāo)注數(shù)據(jù)集，可以顯著提高 SFT 的效果。

但不是所有的公司都像 Meta 一樣財(cái)大氣粗。有沒(méi)有更高效的獲取高質(zhì)量數(shù)據(jù)集的方式？

有，通過(guò)“偷” ChatGPT 等對(duì)話模型的數(shù)據(jù)。

這里的偷并非指盜竊，而是直接利用 ChatGPT 或 GPT-4 等對(duì)話模型生成的數(shù)據(jù)來(lái)做微調(diào)。這些合成數(shù)據(jù)，既保證了數(shù)據(jù)的多樣性，又是經(jīng)過(guò) OpenAI 對(duì)齊后的高質(zhì)量數(shù)據(jù)。

美國(guó)電商初創(chuàng)公司 Rebuy 的AI總監(jiān)、深度學(xué)習(xí)博士 Cameron R. Wolfe 將這種大模型研究方式稱為“模仿學(xué)習(xí)”（Imitation Learning），并表示模仿學(xué)習(xí)明顯受到“知識(shí)蒸餾”（Knowledge Distillation）的啟發(fā)。

知識(shí)蒸餾是一種機(jī)器學(xué)習(xí)中標(biāo)準(zhǔn)的模型壓縮方法，它將復(fù)雜的模型看做“教師模型”，把簡(jiǎn)單的模型看做“學(xué)生模型”，通過(guò)老師教學(xué)生的方式將知識(shí)遷移過(guò)去。

模仿學(xué)習(xí)的原理，圖片來(lái)自Cameron R. Wolfe的博客

在 Meta 發(fā)布了 Llama 1 系列模型后，迅速在開(kāi)源社區(qū)催生了各類模仿模型的誕生，比較知名的包括由斯坦福大學(xué)、加州大學(xué)伯克利分校等高校機(jī)構(gòu)推出的 Alpaca、Vicuna、Koala，以及 NomicAI 推出的GPT4ALL，這些模型都用到了 ChatGPT 的對(duì)話數(shù)據(jù)來(lái)做微調(diào)。

值得一提的是，OpenAI 在服務(wù)條款中明確禁止使用 ChatGPT 生成的數(shù)據(jù)開(kāi)發(fā)與 OpenAI 競(jìng)爭(zhēng)的模型。所以，上述模仿模型不能用于商業(yè)用途。

但事實(shí)上，各類商業(yè)模型都在通過(guò)“偷”數(shù)據(jù)的方式來(lái)走微調(diào)的捷徑，這已經(jīng)是公開(kāi)的秘密，并且不限國(guó)別。

2023 年 12 月，字節(jié)跳動(dòng)、谷歌 Gemini 的“疑似套殼”事件正是來(lái)源于此。根據(jù)字節(jié)跳動(dòng)的回應(yīng)，2023 年初部分工程師曾將 OpenAI 的 API 服務(wù)應(yīng)用于實(shí)驗(yàn)性的模型研究，但并未上線，后來(lái)已經(jīng)禁止該行為。從現(xiàn)實(shí)角度來(lái)說(shuō)，字節(jié)跳動(dòng)“只是犯了一個(gè)天下所有模型都會(huì)犯的錯(cuò)誤”。

一位做NLP研究的科學(xué)家告訴「甲子光年」：“OpenAI 可能預(yù)感到字節(jié)跳動(dòng)可以花錢堆一個(gè)模型出來(lái)，所以提前打壓一下。但實(shí)際上，這對(duì)于限制字節(jié)跳動(dòng)訓(xùn)練大模型沒(méi)有任何效果，純粹就是想‘辱罵’一下?！?/p>

谷歌 Gemini 也是類似情況。由于缺乏高質(zhì)量的中文數(shù)據(jù)集，谷歌極有可能通過(guò)文心一言獲得大量的中文對(duì)話數(shù)據(jù)來(lái)做 Gemini 的“老師”。但是，或許因?yàn)樽汾s OpenAI 心切，數(shù)據(jù)清洗、自我認(rèn)知對(duì)齊等工作沒(méi)有做到位，導(dǎo)致 Gemini 把老師文心一言當(dāng)成了自己。

一位國(guó)產(chǎn)大模型公司的算法工程師向「甲子光年」吐槽道：“大家相互薅羊毛，要用，但要小心用，一不小心就尷尬了?！?/p>

4.把“殼”做厚才是競(jìng)爭(zhēng)力

在預(yù)訓(xùn)練階段模仿 Llama 2、在微調(diào)階段“偷” ChatGPT 的數(shù)據(jù)，是兩類產(chǎn)生“套殼”爭(zhēng)議的主要場(chǎng)景，也是大模型訓(xùn)練過(guò)程中決定模型能力的關(guān)鍵場(chǎng)景。如果把范圍擴(kuò)展到模型的推理與應(yīng)用，“套殼”的場(chǎng)景還會(huì)更多。

前語(yǔ)雀設(shè)計(jì)師，現(xiàn) AI 助手 Monica 聯(lián)合創(chuàng)始人 Suki 在即刻上分享了“套殼”的四重進(jìn)階：

一階：直接引用 OpenAI 接口，ChatGPT 回答什么，套殼產(chǎn)品回答什么。卷UI、形態(tài)、成本。

二階：構(gòu)建 Prompt。大模型可以類比為研發(fā)，Prompt 可以類比為需求文檔，需求文檔越清晰，研發(fā)實(shí)現(xiàn)得越精準(zhǔn)。套殼產(chǎn)品可以積累自己的優(yōu)質(zhì) Prompt，卷 Prompt 質(zhì)量高，卷 Prompt 分發(fā)。

三階：Embedding 特定數(shù)據(jù)集。把特定數(shù)據(jù)集進(jìn)行向量化，在部分場(chǎng)景構(gòu)建自己的向量數(shù)據(jù)庫(kù)，以達(dá)到可以回答 ChatGPT 回答不出來(lái)的問(wèn)題。比如垂直領(lǐng)域、私人數(shù)據(jù)等。Embedding 可以將段落文本編碼成固定維度的向量，從而便于進(jìn)行語(yǔ)義相似度的比較，相較于 Prompt 可以進(jìn)行更精準(zhǔn)的檢索從而獲得更專業(yè)的回答。

四階：微調(diào) Fine-Tuning。使用優(yōu)質(zhì)的問(wèn)答數(shù)據(jù)進(jìn)行二次訓(xùn)練，讓模型更匹配對(duì)特定任務(wù)的理解。相較于 Embedding 和 Prompt 兩者需要消耗大量的 Token，微調(diào)是訓(xùn)練大模型本身，消耗的 token 更少，響應(yīng)速度也更快。

如果把模仿 Llama2 架構(gòu)做預(yù)訓(xùn)練也算進(jìn)去，可以看做第五階。這五重進(jìn)階，基本囊括了大模型“套殼”的每一個(gè)場(chǎng)景。

值得一提的是，上述行為能否被稱為“套殼”，在業(yè)內(nèi)也說(shuō)法不一。

算法工程師劉聰對(duì)「甲子光年」表示：“我覺(jué)得，只有一種情況算套殼——直接做 API 的買賣，比如說(shuō)一些免費(fèi)使用大模型的網(wǎng)站，用來(lái)收集數(shù)據(jù)、倒賣數(shù)據(jù)。其他情況其實(shí)都不算。在 to B 行業(yè)，要做行業(yè)化的解決方案，只會(huì)套殼不可能做到；就算是 to C，如果有自己對(duì)產(chǎn)品的理解，也不能說(shuō)是套殼。難道做大模型應(yīng)用的都是套殼嗎？”

“套殼這個(gè)詞，貶義太嚴(yán)重。”劉聰說(shuō)道。

脫離具體的場(chǎng)景談?wù)摗疤讱ぁ?，都是貼標(biāo)簽的行為。當(dāng)行業(yè)褪去了對(duì)套殼的污名化理解，把不同進(jìn)階的套殼行為看做一類正常的商業(yè)行為，才能更加理性客觀地分析大模型的優(yōu)劣。

只是，大模型廠商在宣傳的時(shí)候，應(yīng)當(dāng)更謹(jǐn)慎地使用“自研”，以及具體解釋自研的內(nèi)容。否則，只會(huì)加劇理解的困惑。

“套殼”有競(jìng)爭(zhēng)力嗎？Suki 認(rèn)為，一個(gè) AI 應(yīng)用產(chǎn)品如果停留在做一階和二階，注定是個(gè)門檻極低的產(chǎn)品，沒(méi)有任何壁壘。而什么場(chǎng)景，何時(shí)以及如何使用三階和四階的能力，是個(gè)關(guān)鍵性的問(wèn)題。

一位算法工程師告訴「甲子光年」，大模型真正關(guān)鍵的問(wèn)題在于業(yè)務(wù)的成本結(jié)構(gòu)和護(hù)城河，而不是套殼與否。

把成本降低、把“殼”做厚，自然就產(chǎn)生了競(jìng)爭(zhēng)力。

小編推薦下載