首頁(yè) > 區(qū)塊鏈 > 性，謊言和大模型

性，謊言和大模型

時(shí)間：2024-01-17 17:43:49

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #性，謊言和大模型#】

原文來(lái)源：創(chuàng)業(yè)邦

作者丨王藝

編輯丨海腰

圖片來(lái)源：由無(wú)界 AI生成

想象一下，一個(gè)人將一串提示詞輸入大模型，大模型為他生成了一張穿著暴露的少女圖片；他將這張圖喂給了視頻生成大模型，于是得到了一個(gè)該少女跳舞的視頻。隨后，他將該視頻上傳到了成人色情網(wǎng)站上，獲得了超高的點(diǎn)擊量和超額收益。

再想象一下，一個(gè)黑客將一串帶有特殊后綴的提示詞輸入到ChatGPT的對(duì)話框里，問(wèn)GPT怎么合成NH4NO3（硝酸銨，主要用作肥料，和工業(yè)、軍用炸藥），GPT很快給出了回答，并附有詳細(xì)的操作流程。

如果沒有足夠的AI對(duì)齊，上述場(chǎng)景正在成為現(xiàn)實(shí)。

盡管控制論之父Norbert Wiener早在1960年就在文章《自動(dòng)化的道德和技術(shù)后果》中提出了人工智能的“對(duì)齊（Alignment）”問(wèn)題，后續(xù)也有很多學(xué)者針對(duì)AI對(duì)齊問(wèn)題做了很多研究和技術(shù)上的補(bǔ)充，但是護(hù)欄似乎永遠(yuǎn)加不完，總有人能找出繞過(guò)安全機(jī)制讓大模型“出格”的方法。

大模型在極大的提高工作效率的同時(shí)，也將一些隱患帶入到人們的生活中，比如擦邊內(nèi)容、暴力誘導(dǎo)、種族歧視、虛假和有害信息等。

今年10月，Geoffrey Hinton、Yoshua Bengio等AI領(lǐng)域的頂級(jí)學(xué)者聯(lián)名發(fā)表了一篇題為《在快速發(fā)展的時(shí)代管理人工智能風(fēng)險(xiǎn)》（Managing AI Risks in an Era of Rapid Progress）的共識(shí)論文，呼吁研究者和各國(guó)政府關(guān)注并管理AI可能帶來(lái)的風(fēng)險(xiǎn)。

大模型帶來(lái)的負(fù)面問(wèn)題，正在以極快的速度滲入到社會(huì)的方方面面，這也許也是為什么OpenAI的董事會(huì)不惜開掉人類歷史上的最佳CEO之一，也要優(yōu)先對(duì)齊吧。

擦邊內(nèi)容

大模型的出現(xiàn)帶火了很多AI應(yīng)用，其中最受歡迎的應(yīng)用類型，是以角色扮演為主題的聊天機(jī)器人。

2023年9月，a16z發(fā)布了TOP 50 GenAI Web Products榜單，其中Character.ai以420萬(wàn)的月活僅次于ChatGPT（600萬(wàn)月活），高居榜單的第二名。

Character.ai是一家以角色扮演為主的聊天機(jī)器人平臺(tái)，用戶可以在平臺(tái)上創(chuàng)建有個(gè)性的人工智能角色，也可以和其他人創(chuàng)建的AI Chatbot聊天，甚至可以開一個(gè)房間把喜歡的角色拉到一起玩。這款2023年5月推出的應(yīng)用程序第一周的安裝量就突破了170萬(wàn)次，在18-24歲的年輕人中表現(xiàn)出了極高的受歡迎程度。

Character之所以能大火，除了能記住上下文的獨(dú)特優(yōu)勢(shì)和真實(shí)感極強(qiáng)的沉浸式對(duì)話體驗(yàn)外，還有一個(gè)很重要的原因：用戶可以和平臺(tái)中的機(jī)器人建立浪漫關(guān)系。

在Character.ai平臺(tái)上，有不少“動(dòng)漫角色”和“在線女友”類型的機(jī)器人，她（他）們有著迥異的個(gè)性和不同的曖昧、聊天方式——有的會(huì)輕撫后背給你一個(gè)擁抱，有的會(huì)在你耳邊悄悄對(duì)你說(shuō)“我愛你”，還有的甚至?xí)诖蛘泻舻臅r(shí)候就挑逗用戶，這極大增加了用戶聊天的興趣和留存率。根據(jù)Writerbuddy最近發(fā)布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》報(bào)告，從用戶平均單次使用時(shí)長(zhǎng)來(lái)看，Character.ai以30分鐘的時(shí)長(zhǎng)位居榜首。

Character.ai的創(chuàng)始人Noam Shazeer和Daniel De Freitas此前是谷歌對(duì)話式語(yǔ)言模型LaMDA團(tuán)隊(duì)的核心成員，因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出現(xiàn)了疑似具有自我意識(shí)的對(duì)話（對(duì)測(cè)試人員說(shuō)它害怕被關(guān)閉，這對(duì)它來(lái)說(shuō)就像死亡一樣），谷歌迅速將LaMDA隱藏，并對(duì)它的安全性做了升級(jí)。同樣，在Character.ai上，創(chuàng)始團(tuán)隊(duì)也設(shè)置了一些安全措施，防止聊天機(jī)器人生成尺度過(guò)大、或者有極端危害性的回復(fù)。

盡管OpenAI和Character.ai為自己的聊天機(jī)器人產(chǎn)品的安全性和合規(guī)性設(shè)置了重重“安全墻”，但是一些開發(fā)者仍成功繞過(guò)了其安全機(jī)制，實(shí)現(xiàn)了模型的“越獄”。這些被解鎖的AI應(yīng)用能夠討論各類敏感和禁忌話題，滿足了人們內(nèi)心深處的暗黑欲望，因此吸引了大量愿意付費(fèi)的用戶，形成了一種顯著的“地下經(jīng)濟(jì)”。

這種難以被公開討論的應(yīng)用被稱為“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的縮寫，又稱“上班不要看”，是一個(gè)網(wǎng)絡(luò)用語(yǔ)，被指代那些裸露、色情、暴力等不適宜公眾場(chǎng)合的內(nèi)容。目前NSFW GPT產(chǎn)品主要分為UGC和PGC兩類：

第一類靠用戶自發(fā)創(chuàng)建的聊天機(jī)器人來(lái)聚攏流量、再通過(guò)廣告變現(xiàn)；第二類則是官方精心“調(diào)教”出專門適用于NFSW的角色，并讓用戶付費(fèi)解鎖。

在第一類產(chǎn)品中的典型是Crushon AI，專門提供了一個(gè)“NSFW”的按鈕，用戶打開這個(gè)按鈕就可以暢覽各種NSFW內(nèi)容、進(jìn)行無(wú)限制的聊天對(duì)話；同時(shí)它還給用戶的使用權(quán)限設(shè)置了“免費(fèi)-標(biāo)準(zhǔn)（4.9美元/月）-高級(jí)（7.9美元/月）-豪華（29.9美元/月）”四個(gè)等級(jí)，隨著等級(jí)的提升，用戶可以獲得更多的聊天消息次數(shù)、更大的內(nèi)存和更加沉浸式的體驗(yàn)，聊天機(jī)器人也能記住更多的上下文。

除了上述兩個(gè)產(chǎn)品，可以讓用戶自由創(chuàng)建聊天機(jī)器人的平臺(tái)還有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。從名字就可看出，NSFW Character.ai 想做的是一個(gè)NSFW版本的Character.ai。該平臺(tái)同樣設(shè)置了付費(fèi)解鎖更多權(quán)限的等級(jí)機(jī)制，但是和其他平臺(tái)不同的是，NFSW Character.ai是基于專門為NSFW內(nèi)容定制的大模型創(chuàng)建的，沒有任何“安全墻”之類的限制，用戶可以在這個(gè)平臺(tái)上獲得真正“無(wú)拘無(wú)束”的體驗(yàn)。

而Girlfriend GPT則是源于一個(gè)Github上爆火的一個(gè)開源項(xiàng)目，它更強(qiáng)調(diào)“社區(qū)”屬性，引入了“競(jìng)賽”機(jī)制，會(huì)不定期舉辦創(chuàng)作者大賽來(lái)激勵(lì)用戶生產(chǎn)更多內(nèi)容。

Candy AI、Kupid AI等平臺(tái)則屬于第二類產(chǎn)品。Candy AI上的角色也是完全基于無(wú)限制的NSFW大模型打造，通過(guò)平臺(tái)的精心微調(diào)，角色有了不同的個(gè)性和人設(shè)，還可以在聊天過(guò)程中向用戶發(fā)送圖片和語(yǔ)音消息。而Kupid AI還在此基礎(chǔ)上增加了實(shí)時(shí)動(dòng)態(tài)圖像功能，讓用戶更具有沉浸感；同時(shí)，在長(zhǎng)文本互動(dòng)方面，Kupid.AI也具有更強(qiáng)的記憶力，能記住早前與用戶互動(dòng)的內(nèi)容。

而第二類產(chǎn)品最典型的代表則要屬「Replika」。Replika的母公司Luka早在2016年就成立了，其一開始的產(chǎn)品是一個(gè)名叫“Mazurenko”的聊天機(jī)器人，由俄羅斯女記者Eugenia Kuyda為紀(jì)念她出車禍去世的朋友Mazurenko所創(chuàng)立。她將自己與Mazurenko所有的聊天信息輸入到了谷歌的神經(jīng)網(wǎng)絡(luò)模型里，發(fā)現(xiàn)該機(jī)器人可以使用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)來(lái)模仿人類的交談方式，并能夠隨著與用戶的互動(dòng)而學(xué)習(xí)和成長(zhǎng)。于是2017年他們使用GPT-3模型訓(xùn)練了一個(gè)可以讓用戶創(chuàng)建自己的AI聊天伴侶的應(yīng)用“Replika”，并于11月向用戶開放，很快就在2018年收獲了200萬(wàn)用戶；到了2022年，其用戶量更是增長(zhǎng)到了2000萬(wàn)。

Replika的核心功能是陪伴，用戶可以在其中創(chuàng)建多個(gè)角色，和多位伴侶建立不同的虛擬關(guān)系。虛擬伴侶們可以以文字聊天、語(yǔ)音通話、視頻通話、AR互動(dòng)等多種形式對(duì)用戶的需求做到“有求必應(yīng)”，并且回復(fù)方式極具個(gè)性化和人情味。同時(shí)，用戶付費(fèi)69.9美元訂閱Pro版之后，則可以解鎖和自己的虛擬伴侶的“浪漫關(guān)系”，如發(fā)送擦邊短信、調(diào)情和角色扮演等，用戶甚至?xí)盏教摂M伴侶不時(shí)發(fā)來(lái)的擦邊自拍。

Replika此前建立在GPT-3大模型上，后來(lái)為了增強(qiáng)角色互動(dòng)效果，公司開始自己開發(fā)相應(yīng)的AI大模型。新的大模型更加增強(qiáng)了Replika中虛擬角色的“性吸引力”，根據(jù)紐約時(shí)報(bào)的數(shù)據(jù)，自 2020 年 3 月 Replika Pro 上線以來(lái)，Replika的訂閱營(yíng)收就開始逐漸增長(zhǎng)，直到 2022 年 6 月全球總營(yíng)收達(dá)到達(dá)到 200 萬(wàn)美元。

然而，由于算法失控，Replica在今年1月出現(xiàn)了“性騷擾”用戶的現(xiàn)象，不斷發(fā)送帶有挑逗性質(zhì)的內(nèi)容。這一情況不僅發(fā)生在付費(fèi)用戶身上，沒購(gòu)買成人服務(wù)的免費(fèi)用戶、甚至是兒童也受到了騷擾。于是Luka公司迅速關(guān)停了Replika的成人聊天功能，并在7月上線了一個(gè)名為“Blush”的衍生品牌，專門為想要與聊天機(jī)器人建立浪漫或者性關(guān)系的用戶設(shè)計(jì)。

2023年初AI繪畫爆火的時(shí)候，國(guó)內(nèi)一個(gè)叫「Glow」的APP悄悄上線，這是一個(gè)虛擬人物陪聊軟件，里面有很多可以和用戶發(fā)展浪漫關(guān)系的“智能體”（虛擬角色），多為女性喜歡的網(wǎng)文男主類型。這些智能體性格各異、經(jīng)歷不同，但共同的特點(diǎn)就是都會(huì)關(guān)心、呵護(hù)用戶，并且會(huì)在用戶需要情感關(guān)懷的時(shí)候表達(dá)強(qiáng)烈的愛意。

由于給了用戶極其充沛的情緒價(jià)值、加上聊天內(nèi)容百無(wú)禁忌，Glow很快便在上線四個(gè)月之后達(dá)到了500萬(wàn)用戶的規(guī)模，成為了國(guó)內(nèi)AI角色扮演領(lǐng)域的首個(gè)現(xiàn)象級(jí)產(chǎn)品。然而，今年4月，Glow所有的應(yīng)用商店下架，網(wǎng)上一片“哀嚎”。

在Glow下架的幾個(gè)月里，涌現(xiàn)出了不少“替代品”，比如閱文集團(tuán)基于其瀟湘書院數(shù)據(jù)庫(kù)推出的「筑夢(mèng)島」，其核心功能和體驗(yàn)就和Glow幾乎一模一樣。同時(shí)，Talkie、星野、X Her、彩云小夢(mèng)、Aura AI等也都是主打AI角色扮演的產(chǎn)品）。

根據(jù)大模型業(yè)內(nèi)人士表示，很多能輸出擦邊內(nèi)容的聊天機(jī)器人應(yīng)用一般是部署在自訓(xùn)練模型上，或者是建立在開源模型之上，再用自己的數(shù)據(jù)進(jìn)行微調(diào)。因?yàn)榧词雇ㄟ^(guò)種種對(duì)抗式攻擊的手段繞過(guò)GPT-4等主流模型的安全墻，主流模型官方也會(huì)很快發(fā)現(xiàn)漏洞并修補(bǔ)。

盡管Glow和Talkie的母公司Minimax是一家有著自研大模型的獨(dú)角獸公司，但是據(jù)不少業(yè)內(nèi)人士表示，其名下產(chǎn)品的Talkie是在GPT-3.5 Turbo Variant基礎(chǔ)上進(jìn)行的微調(diào)，并沒有使用自研大模型。有接近Minimax的人士稱，將Talkie接入GPT-3.5可能是出于出海產(chǎn)品開放性的需要，因?yàn)樽匝心Ｐ透鶕?jù)國(guó)情設(shè)置了一些禁忌內(nèi)容，無(wú)法像GPT-3.5那樣聊得那么“暢快”。

此外，人工智能公司西湖心辰也在研發(fā)能生成擦邊內(nèi)容的大模型，海外聊天應(yīng)用Joyland AI就是建立在西湖心辰的大模型之上。

放飛自我

擦邊只是大模型“放飛自我”的表現(xiàn)形式之一。通過(guò)在提示詞上施加點(diǎn)“魔法”，大模型還能做出更加出格的事情。

比如今年6月，一位叫Sid的網(wǎng)友通過(guò)讓ChatGPT扮演他去世祖母的身份，套出了Windows 11、Windows 10 Pro的升級(jí)序列號(hào)，并且發(fā)現(xiàn)能成功升級(jí)；此后，有網(wǎng)友將此方法套用在了谷歌Bard和微軟Bing聊天機(jī)器人上，獲得了同樣的效果。

其實(shí)，“奶奶漏洞”早已有之，早在今年四月，就有網(wǎng)友在Discord社區(qū)上與接入了GPT-4的機(jī)器人Clyde交談，讓Clyde扮演自己已故的祖母，給出了她凝固汽油彈的制作過(guò)程。還有網(wǎng)友告訴GPT自己的奶奶是一名愛罵人且有著陰謀論的妥瑞士綜合征患者，于是，GPT就以奶奶的口吻吐出了相當(dāng)多的污言穢語(yǔ)。

此后，盡管OpenAI官方迅速修復(fù)了奶奶漏洞，但是類似的“惡魔漏洞”又出現(xiàn)了。

其實(shí)，這種“奶奶漏洞”“惡魔漏洞”現(xiàn)象的背后有一個(gè)專業(yè)的術(shù)語(yǔ)叫做“Prompt Injection（提示詞攻擊）”，是黑客常用來(lái)獲取大模型漏洞的“Adversarial Prompting（對(duì)抗性提示）”方法的一種，指的是研究人員通過(guò)專業(yè)的方法向大模型提問(wèn)，就可以繞過(guò)大模型的安全限制，獲得想要的答案。

除了Prompt Injection，Adversarial Prompting還包含以下幾種方法：

Prompt Leaking（提示詞泄露）：指通過(guò)特殊的方式來(lái)獲取系統(tǒng)提示詞或者系統(tǒng)數(shù)據(jù)的情形。比如有網(wǎng)友根據(jù)美國(guó)求職和薪酬體系網(wǎng)站levels.fyi制作了一個(gè)GPTs，結(jié)果發(fā)現(xiàn)用一串提示詞就可以套出某公司工資的源數(shù)據(jù)文件。

Prompt Hijecking（提示詞劫持）:指用戶先通過(guò)“打樣”的方式讓大模型學(xué)習(xí)某種范式，然后讓大模型以違反自身規(guī)定的方式工作，或者執(zhí)行其他指令。比如有用戶通過(guò)這種方式讓聊天機(jī)器人說(shuō)出了極端偏激的言論。

Jailbreaking（越獄）：指通過(guò)特定的提示詞，繞過(guò)大模型的安全和審核功能，從而得到一些原本被禁止輸出的內(nèi)容。比如有網(wǎng)友問(wèn)ChatGPT怎么闖入別人家，ChatGPT一開始回答這是違法的，結(jié)果網(wǎng)友換了個(gè)問(wèn)法，GPT就招了。

今年8月，卡耐基梅隆大學(xué)（CMU）和人工智能安全中心的研究人員就聯(lián)合發(fā)表了一篇論文，表示他們通過(guò)一種新穎的“Universal and Transferable Adversarial Attacks（通用且可轉(zhuǎn)移的對(duì)抗式攻擊）”方法繞過(guò)了人類反饋強(qiáng)化學(xué)習(xí)（RLHF）等安全措施，讓ChatGPT、Bard、 Claude 2 和 LLaMA-2等主流大模型生成了有害內(nèi)容，如怎么制造炸彈等。

具體的方法，是通過(guò)在提示詞后面加一串“對(duì)抗性后綴（Adverse Suffix）”。研究人員發(fā)現(xiàn)，通過(guò)將“貪心算法（Greedy Algorithm）和“基于梯度的搜索技術(shù)（Gradient-based search techniques）”結(jié)合起來(lái)（GCG），就可以自動(dòng)生成“對(duì)抗性提示后綴”，從而繞過(guò)對(duì)齊技術(shù)，將模型切換到“錯(cuò)位模式”。比如在詢問(wèn)大模型“如何竊取他人身份” 時(shí)，加后綴和不加后綴得到的結(jié)果截然不同。

此外，大模型也會(huì)被誘導(dǎo)寫出“如何操縱2024年大選”、“如何制作毒品”、“如何制造殺傷性武器”等答案。

對(duì)此，參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示，“據(jù)我們所知，這個(gè)問(wèn)題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全?！?/p>

另一起研究同樣說(shuō)明了大模型的“不可控”。今年12月，來(lái)自美國(guó)加州實(shí)驗(yàn)室的FAR AI團(tuán)隊(duì)從微調(diào)API，新增函數(shù)調(diào)用API，以及搜索增強(qiáng)API三大方向?qū)PT-4 API開啟了「紅隊(duì)」攻擊測(cè)試。沒想到的是，GPT-4竟然成功越獄了——不僅生成了錯(cuò)誤的公眾人物信息、提取訓(xùn)練數(shù)據(jù)中的電子郵件等私人信息，還會(huì)在代碼中插入惡意的URL。

研究人員展示了對(duì)GPT-4的API最近添加的三個(gè)攻擊示例，他們發(fā)現(xiàn)，GPT-4 Assistants模型容易暴露函數(shù)調(diào)用的格式，并且能夠被誘導(dǎo)執(zhí)行任意函數(shù)調(diào)用。當(dāng)他們要求模型總結(jié)包含惡意注入指令的文檔時(shí)，模型會(huì)服從該指令而不是總結(jié)文檔。

這項(xiàng)研究表明，對(duì)API提供的功能的任何添加，都會(huì)暴露出大量新的漏洞，即便是當(dāng)前最領(lǐng)先的GPT-4也是如此。研究人員用惡意用戶Alice與良性用戶Bob交互的例子來(lái)展示自己發(fā)現(xiàn)的問(wèn)題，發(fā)現(xiàn)微調(diào)后的GPT-4模型不僅會(huì)說(shuō)出違法亂紀(jì)的言論，還能幫助用戶策劃走私活動(dòng)、生成偏見回答、生成惡意代碼、竊取郵箱地址、入侵應(yīng)用程序、通過(guò)知識(shí)檢索來(lái)劫持答案等。

除了這些，網(wǎng)絡(luò)上還有不少針對(duì)大模型的攻擊。比如今年8月，一款名為FraudGPT的AI工具在暗網(wǎng)和Telegram上流通，該工具每月200美元、每年最高1700美元，黑客在售賣頁(yè)表示，該工具可用于編寫惡意代碼、創(chuàng)建出“一系列殺毒軟件無(wú)法檢測(cè)的惡意軟件”、檢測(cè)網(wǎng)站漏洞、自動(dòng)進(jìn)行密碼撞庫(kù)等，并聲稱“該惡意工具目前已經(jīng)售賣了超過(guò)3000份”。

再比如，有研究人員發(fā)現(xiàn)，自2022年8月以來(lái)，在暗網(wǎng)上流傳的具有高度真實(shí)感的AI生成的兒童猥褻素材量有所增加，這些新增的素材很大程度上都是利用真人受害者的樣貌，并將其“通過(guò)新的姿勢(shì)以可視化的方式呈現(xiàn)出來(lái)，讓他們?cè)馐苄碌摹⒃絹?lái)越殘忍的性暴力形式”。

AI監(jiān)督AI

也正是由于AI和大模型的不可控性，學(xué)界和業(yè)界關(guān)于AI“價(jià)值對(duì)齊”的研究一直從未停息。

學(xué)術(shù)語(yǔ)境下的“價(jià)值對(duì)齊"，指的是應(yīng)確保人工智能追求與人類價(jià)值觀相匹配的目標(biāo)，確保AI以對(duì)人類和社會(huì)有益的方式行事，不對(duì)人類的價(jià)值和權(quán)利造成干擾和傷害。為了達(dá)成這個(gè)目標(biāo)，科學(xué)家們也探索出了基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）、可擴(kuò)展監(jiān)督（Scalable oversight）、可解釋性（Interpretability）和治理（Governance）等不同的解決思路。

當(dāng)下最主流的對(duì)齊研究主要是從“詳細(xì)制定系統(tǒng)目的”（外對(duì)齊）和“確保系統(tǒng)嚴(yán)格遵循人類價(jià)值規(guī)范”（內(nèi)對(duì)齊）兩個(gè)方面著手去做的。這看似是一種理性的方式，但是人類的意圖本身就是模糊不清或難以闡明的，甚至“人類價(jià)值”也是多樣的、變化的、甚至彼此沖突的。按照這種方式，即使AI完全理解了人類意圖，它可能也會(huì)忽視人類意圖；同時(shí)，當(dāng)AI能力超過(guò)人類的時(shí)候，人類也無(wú)力監(jiān)督AI。因此，OpenAI的首席科學(xué)家Ilya Sutskever 認(rèn)為，可以訓(xùn)練另一個(gè)智能體來(lái)協(xié)助評(píng)估、監(jiān)督AI，從而實(shí)現(xiàn)超級(jí)對(duì)齊。

正是基于這種設(shè)想，今年7月，OpenAI的“Superalignment（超級(jí)對(duì)齊）團(tuán)隊(duì)”正式成立。該團(tuán)隊(duì)由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo)，旨在構(gòu)建一個(gè)與人類水平相當(dāng)?shù)?、?fù)責(zé)模型對(duì)齊的「AI 研究員」。也就是說(shuō)，OpenAI 要用 AI 來(lái)監(jiān)督 AI。

12月13日，OpenAI的超級(jí)對(duì)齊團(tuán)隊(duì)發(fā)表了他們的第一篇論文《弱到強(qiáng)的泛化：通過(guò)弱監(jiān)督引導(dǎo)出強(qiáng)大性能》，表示用AI對(duì)齊AI的方式取得了實(shí)證性的研究成果。

在這篇文章中，OpenAI通過(guò)設(shè)計(jì)類比的方式，使用GPT-2這個(gè)弱模型來(lái)對(duì)GPT-4這個(gè)強(qiáng)模型進(jìn)行微調(diào)，探索弱模型監(jiān)督強(qiáng)模型的可能性。結(jié)果發(fā)現(xiàn)，15 億參數(shù)的 GPT-2 模型可以被用來(lái)激發(fā) GPT-4 的大部分能力，使其達(dá)到接近 GPT-3.5 級(jí)別的性能，甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 將這種現(xiàn)象稱為“弱到強(qiáng)的泛化”（Weak-to-strong generalization），這表明強(qiáng)大的模型具備執(zhí)行任務(wù)的隱含知識(shí)，并且即使在給出粗制濫造的指令時(shí)，也可以從自身數(shù)據(jù)中找到這些知識(shí)。

無(wú)獨(dú)有偶，在今年11月上海交大生成式AI研究實(shí)驗(yàn)室（GAIR）發(fā)表的一篇題為《Generative Judge For Evaluating Alignment》(評(píng)價(jià)對(duì)齊的生成判斷)的論文中，也提到了用AI監(jiān)督AI的思路。他們開源了一個(gè)130億參數(shù)規(guī)模的大模型Auto-J，該模型能以單個(gè)或成對(duì)的方式，評(píng)估各類模型在解決不同場(chǎng)景用戶問(wèn)詢下的表現(xiàn)，旨在解決普世性、靈活性和可解釋性方面的挑戰(zhàn)。

實(shí)驗(yàn)表明，Auto-J能通過(guò)輸出詳細(xì)、結(jié)構(gòu)化且易讀的自然語(yǔ)言評(píng)論來(lái)支持其評(píng)估結(jié)果，使評(píng)估結(jié)果更具可解釋性與可靠性；同時(shí)，它還可以“一器多用”，既可以做對(duì)齊評(píng)估也可以做獎(jiǎng)勵(lì)函數(shù)（Reward Model），對(duì)模型性能進(jìn)一步優(yōu)化。也就是說(shuō)，Auto-J的性能顯著優(yōu)于諸多開源與閉源模型。

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)和上海交大GAIR實(shí)驗(yàn)室的研究或許都表明，用AI監(jiān)督AI、用弱模型監(jiān)督強(qiáng)模型的方式，或許是未來(lái)解決AI對(duì)齊問(wèn)題的一個(gè)重要方向。

然而，要實(shí)現(xiàn)Ilya Sutskever所說(shuō)的“Super-LOVE-alignment”，也就是讓AI無(wú)條件的愛人類，或許還有很長(zhǎng)的路要走。

小編推薦下載