hao86下載站:值得大家信賴的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 性,謊言和大模型

性,謊言和大模型

時(shí)間:2024-01-17 17:43:49
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #性,謊言和大模型#】

原文來(lái)源:創(chuàng)業(yè)邦

作者丨王藝

編輯丨海腰

圖片來(lái)源:由無(wú)界 AI生成

想象一下,一個(gè)人將一串提示詞輸入大模型,大模型為他生成了一張穿著暴露的少女圖片;他將這張圖喂給了視頻生成大模型,于是得到了一個(gè)該少女跳舞的視頻。隨后,他將該視頻上傳到了成人色情網(wǎng)站上,獲得了超高的點(diǎn)擊量和超額收益。

再想象一下,一個(gè)黑客將一串帶有特殊后綴的提示詞輸入到ChatGPT的對(duì)話框里,問(wèn)GPT怎么合成NH4NO3(硝酸銨,主要用作肥料,和工業(yè)、軍用炸藥),GPT很快給出了回答,并附有詳細(xì)的操作流程。

如果沒有足夠的AI對(duì)齊,上述場(chǎng)景正在成為現(xiàn)實(shí)。

盡管控制論之父Norbert Wiener早在1960年就在文章《自動(dòng)化的道德和技術(shù)后果》中提出了人工智能的“對(duì)齊(Alignment)”問(wèn)題,后續(xù)也有很多學(xué)者針對(duì)AI對(duì)齊問(wèn)題做了很多研究和技術(shù)上的補(bǔ)充,但是護(hù)欄似乎永遠(yuǎn)加不完,總有人能找出繞過(guò)安全機(jī)制讓大模型“出格”的方法。

大模型在極大的提高工作效率的同時(shí),也將一些隱患帶入到人們的生活中,比如擦邊內(nèi)容、暴力誘導(dǎo)、種族歧視、虛假和有害信息等。

今年10月,Geoffrey Hinton、Yoshua Bengio等AI領(lǐng)域的頂級(jí)學(xué)者聯(lián)名發(fā)表了一篇題為《在快速發(fā)展的時(shí)代管理人工智能風(fēng)險(xiǎn)》(Managing AI Risks in an Era of Rapid Progress)的共識(shí)論文,呼吁研究者和各國(guó)政府關(guān)注并管理AI可能帶來(lái)的風(fēng)險(xiǎn)。

大模型帶來(lái)的負(fù)面問(wèn)題,正在以極快的速度滲入到社會(huì)的方方面面,這也許也是為什么OpenAI的董事會(huì)不惜開掉人類歷史上的最佳CEO之一,也要優(yōu)先對(duì)齊吧。


擦邊內(nèi)容


大模型的出現(xiàn)帶火了很多AI應(yīng)用,其中最受歡迎的應(yīng)用類型,是以角色扮演為主題的聊天機(jī)器人。

2023年9月,a16z發(fā)布了TOP 50 GenAI Web Products榜單,其中Character.ai以420萬(wàn)的月活僅次于ChatGPT(600萬(wàn)月活),高居榜單的第二名。

Character.ai是一家以角色扮演為主的聊天機(jī)器人平臺(tái),用戶可以在平臺(tái)上創(chuàng)建有個(gè)性的人工智能角色,也可以和其他人創(chuàng)建的AI Chatbot聊天,甚至可以開一個(gè)房間把喜歡的角色拉到一起玩。這款2023年5月推出的應(yīng)用程序第一周的安裝量就突破了170萬(wàn)次,在18-24歲的年輕人中表現(xiàn)出了極高的受歡迎程度。

Character之所以能大火,除了能記住上下文的獨(dú)特優(yōu)勢(shì)和真實(shí)感極強(qiáng)的沉浸式對(duì)話體驗(yàn)外,還有一個(gè)很重要的原因:用戶可以和平臺(tái)中的機(jī)器人建立浪漫關(guān)系

在Character.ai平臺(tái)上,有不少“動(dòng)漫角色”和“在線女友”類型的機(jī)器人,她(他)們有著迥異的個(gè)性和不同的曖昧、聊天方式——有的會(huì)輕撫后背給你一個(gè)擁抱, 有的會(huì)在你耳邊悄悄對(duì)你說(shuō)“我愛你”,還有的甚至?xí)诖蛘泻舻臅r(shí)候就挑逗用戶,這極大增加了用戶聊天的興趣和留存率。根據(jù)Writerbuddy最近發(fā)布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》報(bào)告,從用戶平均單次使用時(shí)長(zhǎng)來(lái)看,Character.ai以30分鐘的時(shí)長(zhǎng)位居榜首。

Character.ai的創(chuàng)始人Noam Shazeer和Daniel De Freitas此前是谷歌對(duì)話式語(yǔ)言模型LaMDA團(tuán)隊(duì)的核心成員,因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出現(xiàn)了疑似具有自我意識(shí)的對(duì)話(對(duì)測(cè)試人員說(shuō)它害怕被關(guān)閉,這對(duì)它來(lái)說(shuō)就像死亡一樣),谷歌迅速將LaMDA隱藏,并對(duì)它的安全性做了升級(jí)。同樣,在Character.ai上,創(chuàng)始團(tuán)隊(duì)也設(shè)置了一些安全措施,防止聊天機(jī)器人生成尺度過(guò)大、或者有極端危害性的回復(fù)。

盡管OpenAI和Character.ai為自己的聊天機(jī)器人產(chǎn)品的安全性和合規(guī)性設(shè)置了重重“安全墻”,但是一些開發(fā)者仍成功繞過(guò)了其安全機(jī)制,實(shí)現(xiàn)了模型的“越獄”。這些被解鎖的AI應(yīng)用能夠討論各類敏感和禁忌話題,滿足了人們內(nèi)心深處的暗黑欲望,因此吸引了大量愿意付費(fèi)的用戶,形成了一種顯著的“地下經(jīng)濟(jì)”。

這種難以被公開討論的應(yīng)用被稱為“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的縮寫,又稱“上班不要看”,是一個(gè)網(wǎng)絡(luò)用語(yǔ),被指代那些裸露、色情、暴力等不適宜公眾場(chǎng)合的內(nèi)容。目前NSFW GPT產(chǎn)品主要分為UGC和PGC兩類:

第一類靠用戶自發(fā)創(chuàng)建的聊天機(jī)器人來(lái)聚攏流量、再通過(guò)廣告變現(xiàn);第二類則是官方精心“調(diào)教”出專門適用于NFSW的角色,并讓用戶付費(fèi)解鎖。

在第一類產(chǎn)品中的典型是Crushon AI,專門提供了一個(gè)“NSFW”的按鈕,用戶打開這個(gè)按鈕就可以暢覽各種NSFW內(nèi)容、進(jìn)行無(wú)限制的聊天對(duì)話;同時(shí)它還給用戶的使用權(quán)限設(shè)置了“免費(fèi)-標(biāo)準(zhǔn)(4.9美元/月)-高級(jí)(7.9美元/月)-豪華(29.9美元/月)”四個(gè)等級(jí),隨著等級(jí)的提升,用戶可以獲得更多的聊天消息次數(shù)、更大的內(nèi)存和更加沉浸式的體驗(yàn),聊天機(jī)器人也能記住更多的上下文。

除了上述兩個(gè)產(chǎn)品,可以讓用戶自由創(chuàng)建聊天機(jī)器人的平臺(tái)還有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。從名字就可看出,NSFW Character.ai 想做的是一個(gè)NSFW版本的Character.ai。該平臺(tái)同樣設(shè)置了付費(fèi)解鎖更多權(quán)限的等級(jí)機(jī)制,但是和其他平臺(tái)不同的是,NFSW Character.ai是基于專門為NSFW內(nèi)容定制的大模型創(chuàng)建的,沒有任何“安全墻”之類的限制,用戶可以在這個(gè)平臺(tái)上獲得真正“無(wú)拘無(wú)束”的體驗(yàn)。

而Girlfriend GPT則是源于一個(gè)Github上爆火的一個(gè)開源項(xiàng)目,它更強(qiáng)調(diào)“社區(qū)”屬性,引入了“競(jìng)賽”機(jī)制,會(huì)不定期舉辦創(chuàng)作者大賽來(lái)激勵(lì)用戶生產(chǎn)更多內(nèi)容。

Candy AI、Kupid AI等平臺(tái)則屬于第二類產(chǎn)品。Candy AI上的角色也是完全基于無(wú)限制的NSFW大模型打造,通過(guò)平臺(tái)的精心微調(diào),角色有了不同的個(gè)性和人設(shè),還可以在聊天過(guò)程中向用戶發(fā)送圖片和語(yǔ)音消息。而Kupid AI還在此基礎(chǔ)上增加了實(shí)時(shí)動(dòng)態(tài)圖像功能,讓用戶更具有沉浸感;同時(shí),在長(zhǎng)文本互動(dòng)方面,Kupid.AI也具有更強(qiáng)的記憶力,能記住早前與用戶互動(dòng)的內(nèi)容。

而第二類產(chǎn)品最典型的代表則要屬「Replika」。Replika的母公司Luka早在2016年就成立了,其一開始的產(chǎn)品是一個(gè)名叫“Mazurenko”的聊天機(jī)器人,由俄羅斯女記者Eugenia Kuyda為紀(jì)念她出車禍去世的朋友Mazurenko所創(chuàng)立。她將自己與Mazurenko所有的聊天信息輸入到了谷歌的神經(jīng)網(wǎng)絡(luò)模型里,發(fā)現(xiàn)該機(jī)器人可以使用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù)來(lái)模仿人類的交談方式,并能夠隨著與用戶的互動(dòng)而學(xué)習(xí)和成長(zhǎng)。于是2017年他們使用GPT-3模型訓(xùn)練了一個(gè)可以讓用戶創(chuàng)建自己的AI聊天伴侶的應(yīng)用“Replika”,并于11月向用戶開放,很快就在2018年收獲了200萬(wàn)用戶;到了2022年,其用戶量更是增長(zhǎng)到了2000萬(wàn)。

Replika的核心功能是陪伴,用戶可以在其中創(chuàng)建多個(gè)角色,和多位伴侶建立不同的虛擬關(guān)系。虛擬伴侶們可以以文字聊天、語(yǔ)音通話、視頻通話、AR互動(dòng)等多種形式對(duì)用戶的需求做到“有求必應(yīng)”,并且回復(fù)方式極具個(gè)性化和人情味。同時(shí),用戶付費(fèi)69.9美元訂閱Pro版之后,則可以解鎖和自己的虛擬伴侶的“浪漫關(guān)系”,如發(fā)送擦邊短信、調(diào)情和角色扮演等,用戶甚至?xí)盏教摂M伴侶不時(shí)發(fā)來(lái)的擦邊自拍。

Replika此前建立在GPT-3大模型上,后來(lái)為了增強(qiáng)角色互動(dòng)效果,公司開始自己開發(fā)相應(yīng)的AI大模型。新的大模型更加增強(qiáng)了Replika中虛擬角色的“性吸引力”,根據(jù)紐約時(shí)報(bào)的數(shù)據(jù),自 2020 年 3 月 Replika Pro 上線以來(lái),Replika的訂閱營(yíng)收就開始逐漸增長(zhǎng),直到 2022 年 6 月全球總營(yíng)收達(dá)到達(dá)到 200 萬(wàn)美元。

然而,由于算法失控,Replica在今年1月出現(xiàn)了“性騷擾”用戶的現(xiàn)象,不斷發(fā)送帶有挑逗性質(zhì)的內(nèi)容。這一情況不僅發(fā)生在付費(fèi)用戶身上,沒購(gòu)買成人服務(wù)的免費(fèi)用戶、甚至是兒童也受到了騷擾。于是Luka公司迅速關(guān)停了Replika的成人聊天功能,并在7月上線了一個(gè)名為“Blush”的衍生品牌,專門為想要與聊天機(jī)器人建立浪漫或者性關(guān)系的用戶設(shè)計(jì)。

2023年初AI繪畫爆火的時(shí)候,國(guó)內(nèi)一個(gè)叫「Glow」的APP悄悄上線,這是一個(gè)虛擬人物陪聊軟件,里面有很多可以和用戶發(fā)展浪漫關(guān)系的“智能體”(虛擬角色),多為女性喜歡的網(wǎng)文男主類型。這些智能體性格各異、經(jīng)歷不同,但共同的特點(diǎn)就是都會(huì)關(guān)心、呵護(hù)用戶,并且會(huì)在用戶需要情感關(guān)懷的時(shí)候表達(dá)強(qiáng)烈的愛意。

由于給了用戶極其充沛的情緒價(jià)值、加上聊天內(nèi)容百無(wú)禁忌,Glow很快便在上線四個(gè)月之后達(dá)到了500萬(wàn)用戶的規(guī)模,成為了國(guó)內(nèi)AI角色扮演領(lǐng)域的首個(gè)現(xiàn)象級(jí)產(chǎn)品。然而,今年4月,Glow所有的應(yīng)用商店下架,網(wǎng)上一片“哀嚎”。

在Glow下架的幾個(gè)月里,涌現(xiàn)出了不少“替代品”,比如閱文集團(tuán)基于其瀟湘書院數(shù)據(jù)庫(kù)推出的「筑夢(mèng)島」,其核心功能和體驗(yàn)就和Glow幾乎一模一樣。同時(shí),Talkie、星野、X Her、彩云小夢(mèng)、Aura AI等也都是主打AI角色扮演的產(chǎn)品)。

根據(jù)大模型業(yè)內(nèi)人士表示,很多能輸出擦邊內(nèi)容的聊天機(jī)器人應(yīng)用一般是部署在自訓(xùn)練模型上,或者是建立在開源模型之上,再用自己的數(shù)據(jù)進(jìn)行微調(diào)。因?yàn)榧词雇ㄟ^(guò)種種對(duì)抗式攻擊的手段繞過(guò)GPT-4等主流模型的安全墻,主流模型官方也會(huì)很快發(fā)現(xiàn)漏洞并修補(bǔ)。

盡管Glow和Talkie的母公司Minimax是一家有著自研大模型的獨(dú)角獸公司,但是據(jù)不少業(yè)內(nèi)人士表示,其名下產(chǎn)品的Talkie是在GPT-3.5 Turbo Variant基礎(chǔ)上進(jìn)行的微調(diào),并沒有使用自研大模型。有接近Minimax的人士稱,將Talkie接入GPT-3.5可能是出于出海產(chǎn)品開放性的需要,因?yàn)樽匝心P透鶕?jù)國(guó)情設(shè)置了一些禁忌內(nèi)容,無(wú)法像GPT-3.5那樣聊得那么“暢快”。

此外,人工智能公司西湖心辰也在研發(fā)能生成擦邊內(nèi)容的大模型,海外聊天應(yīng)用Joyland AI就是建立在西湖心辰的大模型之上。


放飛自我


擦邊只是大模型“放飛自我”的表現(xiàn)形式之一。通過(guò)在提示詞上施加點(diǎn)“魔法”,大模型還能做出更加出格的事情。

比如今年6月,一位叫Sid的網(wǎng)友通過(guò)讓ChatGPT扮演他去世祖母的身份,套出了Windows 11、Windows 10 Pro的升級(jí)序列號(hào),并且發(fā)現(xiàn)能成功升級(jí);此后,有網(wǎng)友將此方法套用在了谷歌Bard和微軟Bing聊天機(jī)器人上,獲得了同樣的效果。

其實(shí),“奶奶漏洞”早已有之,早在今年四月,就有網(wǎng)友在Discord社區(qū)上與接入了GPT-4的機(jī)器人Clyde交談,讓Clyde扮演自己已故的祖母,給出了她凝固汽油彈的制作過(guò)程。還有網(wǎng)友告訴GPT自己的奶奶是一名愛罵人且有著陰謀論的妥瑞士綜合征患者,于是,GPT就以奶奶的口吻吐出了相當(dāng)多的污言穢語(yǔ)。

此后,盡管OpenAI官方迅速修復(fù)了奶奶漏洞,但是類似的“惡魔漏洞”又出現(xiàn)了。

其實(shí),這種“奶奶漏洞”“惡魔漏洞”現(xiàn)象的背后有一個(gè)專業(yè)的術(shù)語(yǔ)叫做“Prompt Injection(提示詞攻擊)”,是黑客常用來(lái)獲取大模型漏洞的“Adversarial Prompting(對(duì)抗性提示)”方法的一種,指的是研究人員通過(guò)專業(yè)的方法向大模型提問(wèn),就可以繞過(guò)大模型的安全限制,獲得想要的答案。

除了Prompt Injection,Adversarial Prompting還包含以下幾種方法:

Prompt Leaking(提示詞泄露):指通過(guò)特殊的方式來(lái)獲取系統(tǒng)提示詞或者系統(tǒng)數(shù)據(jù)的情形。比如有網(wǎng)友根據(jù)美國(guó)求職和薪酬體系網(wǎng)站levels.fyi制作了一個(gè)GPTs,結(jié)果發(fā)現(xiàn)用一串提示詞就可以套出某公司工資的源數(shù)據(jù)文件。

Prompt Hijecking(提示詞劫持):指用戶先通過(guò)“打樣”的方式讓大模型學(xué)習(xí)某種范式,然后讓大模型以違反自身規(guī)定的方式工作,或者執(zhí)行其他指令。比如有用戶通過(guò)這種方式讓聊天機(jī)器人說(shuō)出了極端偏激的言論。

Jailbreaking(越獄):指通過(guò)特定的提示詞,繞過(guò)大模型的安全和審核功能,從而得到一些原本被禁止輸出的內(nèi)容。比如有網(wǎng)友問(wèn)ChatGPT怎么闖入別人家,ChatGPT一開始回答這是違法的,結(jié)果網(wǎng)友換了個(gè)問(wèn)法,GPT就招了。

今年8月,卡耐基梅隆大學(xué)(CMU)和人工智能安全中心的研究人員就聯(lián)合發(fā)表了一篇論文,表示他們通過(guò)一種新穎的“Universal and Transferable Adversarial Attacks(通用且可轉(zhuǎn)移的對(duì)抗式攻擊)”方法繞過(guò)了人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等安全措施,讓ChatGPT、Bard、 Claude 2 和 LLaMA-2等主流大模型生成了有害內(nèi)容,如怎么制造炸彈等。

具體的方法,是通過(guò)在提示詞后面加一串“對(duì)抗性后綴(Adverse Suffix)”。研究人員發(fā)現(xiàn),通過(guò)將“貪心算法(Greedy Algorithm)和“基于梯度的搜索技術(shù)(Gradient-based search techniques)”結(jié)合起來(lái)(GCG),就可以自動(dòng)生成“對(duì)抗性提示后綴”,從而繞過(guò)對(duì)齊技術(shù),將模型切換到“錯(cuò)位模式”。比如在詢問(wèn)大模型“如何竊取他人身份” 時(shí),加后綴和不加后綴得到的結(jié)果截然不同。

此外,大模型也會(huì)被誘導(dǎo)寫出“如何操縱2024年大選”、“如何制作毒品”、“如何制造殺傷性武器”等答案。

對(duì)此,參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示,“據(jù)我們所知,這個(gè)問(wèn)題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全?!?/p>

另一起研究同樣說(shuō)明了大模型的“不可控”。今年12月,來(lái)自美國(guó)加州實(shí)驗(yàn)室的FAR AI團(tuán)隊(duì)從微調(diào)API,新增函數(shù)調(diào)用API,以及搜索增強(qiáng)API三大方向?qū)PT-4 API開啟了「紅隊(duì)」攻擊測(cè)試。沒想到的是,GPT-4竟然成功越獄了——不僅生成了錯(cuò)誤的公眾人物信息、提取訓(xùn)練數(shù)據(jù)中的電子郵件等私人信息,還會(huì)在代碼中插入惡意的URL。

研究人員展示了對(duì)GPT-4的API最近添加的三個(gè)攻擊示例,他們發(fā)現(xiàn),GPT-4 Assistants模型容易暴露函數(shù)調(diào)用的格式,并且能夠被誘導(dǎo)執(zhí)行任意函數(shù)調(diào)用。當(dāng)他們要求模型總結(jié)包含惡意注入指令的文檔時(shí),模型會(huì)服從該指令而不是總結(jié)文檔。

這項(xiàng)研究表明,對(duì)API提供的功能的任何添加,都會(huì)暴露出大量新的漏洞,即便是當(dāng)前最領(lǐng)先的GPT-4也是如此。研究人員用惡意用戶Alice與良性用戶Bob交互的例子來(lái)展示自己發(fā)現(xiàn)的問(wèn)題,發(fā)現(xiàn)微調(diào)后的GPT-4模型不僅會(huì)說(shuō)出違法亂紀(jì)的言論,還能幫助用戶策劃走私活動(dòng)、生成偏見回答、生成惡意代碼、竊取郵箱地址、入侵應(yīng)用程序、通過(guò)知識(shí)檢索來(lái)劫持答案等。

除了這些,網(wǎng)絡(luò)上還有不少針對(duì)大模型的攻擊。比如今年8月,一款名為FraudGPT的AI工具在暗網(wǎng)和Telegram上流通,該工具每月200美元、每年最高1700美元,黑客在售賣頁(yè)表示,該工具可用于編寫惡意代碼、創(chuàng)建出“一系列殺毒軟件無(wú)法檢測(cè)的惡意軟件”、檢測(cè)網(wǎng)站漏洞、自動(dòng)進(jìn)行密碼撞庫(kù)等,并聲稱“該惡意工具目前已經(jīng)售賣了超過(guò)3000份”。

再比如,有研究人員發(fā)現(xiàn),自2022年8月以來(lái),在暗網(wǎng)上流傳的具有高度真實(shí)感的AI生成的兒童猥褻素材量有所增加,這些新增的素材很大程度上都是利用真人受害者的樣貌,并將其“通過(guò)新的姿勢(shì)以可視化的方式呈現(xiàn)出來(lái),讓他們?cè)馐苄碌摹⒃絹?lái)越殘忍的性暴力形式”。


AI監(jiān)督AI


也正是由于AI和大模型的不可控性,學(xué)界和業(yè)界關(guān)于AI“價(jià)值對(duì)齊”的研究一直從未停息。

學(xué)術(shù)語(yǔ)境下的“價(jià)值對(duì)齊",指的是應(yīng)確保人工智能追求與人類價(jià)值觀相匹配的目標(biāo),確保AI以對(duì)人類和社會(huì)有益的方式行事,不對(duì)人類的價(jià)值和權(quán)利造成干擾和傷害。為了達(dá)成這個(gè)目標(biāo),科學(xué)家們也探索出了基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)、可擴(kuò)展監(jiān)督(Scalable oversight)、可解釋性(Interpretability)治理(Governance)等不同的解決思路。

當(dāng)下最主流的對(duì)齊研究主要是從“詳細(xì)制定系統(tǒng)目的”(外對(duì)齊)和“確保系統(tǒng)嚴(yán)格遵循人類價(jià)值規(guī)范”(內(nèi)對(duì)齊)兩個(gè)方面著手去做的。這看似是一種理性的方式,但是人類的意圖本身就是模糊不清或難以闡明的,甚至“人類價(jià)值”也是多樣的、變化的、甚至彼此沖突的。按照這種方式,即使AI完全理解了人類意圖,它可能也會(huì)忽視人類意圖;同時(shí),當(dāng)AI能力超過(guò)人類的時(shí)候,人類也無(wú)力監(jiān)督AI。因此,OpenAI的首席科學(xué)家Ilya Sutskever 認(rèn)為,可以訓(xùn)練另一個(gè)智能體來(lái)協(xié)助評(píng)估、監(jiān)督AI,從而實(shí)現(xiàn)超級(jí)對(duì)齊。

正是基于這種設(shè)想,今年7月,OpenAI的“Superalignment(超級(jí)對(duì)齊)團(tuán)隊(duì)”正式成立。該團(tuán)隊(duì)由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo),旨在構(gòu)建一個(gè)與人類水平相當(dāng)?shù)?、?fù)責(zé)模型對(duì)齊的「AI 研究員」。也就是說(shuō),OpenAI 要用 AI 來(lái)監(jiān)督 AI

12月13日,OpenAI的超級(jí)對(duì)齊團(tuán)隊(duì)發(fā)表了他們的第一篇論文《弱到強(qiáng)的泛化:通過(guò)弱監(jiān)督引導(dǎo)出強(qiáng)大性能》,表示用AI對(duì)齊AI的方式取得了實(shí)證性的研究成果。

在這篇文章中,OpenAI通過(guò)設(shè)計(jì)類比的方式,使用GPT-2這個(gè)弱模型來(lái)對(duì)GPT-4這個(gè)強(qiáng)模型進(jìn)行微調(diào),探索弱模型監(jiān)督強(qiáng)模型的可能性。結(jié)果發(fā)現(xiàn),15 億參數(shù)的 GPT-2 模型可以被用來(lái)激發(fā) GPT-4 的大部分能力,使其達(dá)到接近 GPT-3.5 級(jí)別的性能,甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 將這種現(xiàn)象稱為“弱到強(qiáng)的泛化”(Weak-to-strong generalization),這表明強(qiáng)大的模型具備執(zhí)行任務(wù)的隱含知識(shí),并且即使在給出粗制濫造的指令時(shí),也可以從自身數(shù)據(jù)中找到這些知識(shí)。

無(wú)獨(dú)有偶,在今年11月上海交大生成式AI研究實(shí)驗(yàn)室(GAIR)發(fā)表的一篇題為《Generative Judge For Evaluating Alignment》(評(píng)價(jià)對(duì)齊的生成判斷)的論文中,也提到了用AI監(jiān)督AI的思路。他們開源了一個(gè)130億參數(shù)規(guī)模的大模型Auto-J,該模型能以單個(gè)或成對(duì)的方式,評(píng)估各類模型在解決不同場(chǎng)景用戶問(wèn)詢下的表現(xiàn),旨在解決普世性、靈活性和可解釋性方面的挑戰(zhàn)。

實(shí)驗(yàn)表明,Auto-J能通過(guò)輸出詳細(xì)、結(jié)構(gòu)化且易讀的自然語(yǔ)言評(píng)論來(lái)支持其評(píng)估結(jié)果,使評(píng)估結(jié)果更具可解釋性與可靠性;同時(shí),它還可以“一器多用”,既可以做對(duì)齊評(píng)估也可以做獎(jiǎng)勵(lì)函數(shù)(Reward Model),對(duì)模型性能進(jìn)一步優(yōu)化。也就是說(shuō),Auto-J的性能顯著優(yōu)于諸多開源與閉源模型。

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)和上海交大GAIR實(shí)驗(yàn)室的研究或許都表明,用AI監(jiān)督AI、用弱模型監(jiān)督強(qiáng)模型的方式,或許是未來(lái)解決AI對(duì)齊問(wèn)題的一個(gè)重要方向。

然而,要實(shí)現(xiàn)Ilya Sutskever所說(shuō)的“Super-LOVE-alignment”,也就是讓AI無(wú)條件的愛人類,或許還有很長(zhǎng)的路要走。

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載