當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 幻覺國(guó)度：你最喜歡的人工智能模型有多瘋狂？

幻覺國(guó)度：你最喜歡的人工智能模型有多瘋狂？

更新時(shí)間：2024-01-30 07:19:20 | 作者：佚名

盡管人工智能的興起帶來了變革性和顛覆性的力量，但生成性人工智能的致命弱點(diǎn)仍然是它的虛構(gòu)傾向。大型語言模型“產(chǎn)生幻覺”的趨勢(shì)伴隨著各種陷阱，播下了錯(cuò)誤信息的種子。自然語言處理領(lǐng)域可能是危險(xiǎn)的，尤其是當(dāng)人們無法區(qū)分什么是人類的，什么是人工智能生成的時(shí)候。為了應(yīng)對(duì)這種情況，自稱是世界上最大的開源人工智能社區(qū)的Huggingface引入了幻覺排行榜，這是一個(gè)新的...

盡管人工智能的興起帶來了變革性和顛覆性的力量，但生成性人工智能的致命弱點(diǎn)仍然是它的虛構(gòu)傾向。

大型語言模型“產(chǎn)生幻覺”的趨勢(shì)伴隨著各種陷阱，播下了錯(cuò)誤信息的種子。自然語言處理領(lǐng)域可能是危險(xiǎn)的，尤其是當(dāng)人們無法區(qū)分什么是人類的，什么是人工智能生成的時(shí)候。

為了應(yīng)對(duì)這種情況，自稱是世界上最大的開源人工智能社區(qū)的Huggingface引入了幻覺排行榜，這是一個(gè)新的排名，專門評(píng)估開源LLM及其生成幻覺內(nèi)容的趨勢(shì)，方法是通過一組專為上下文學(xué)習(xí)而設(shè)的不同基準(zhǔn)來運(yùn)行它們。

排行榜開發(fā)人員解釋道：“這一舉措旨在幫助研究人員和工程師確定最可靠的模型，并有可能推動(dòng)LLM的發(fā)展，使其更準(zhǔn)確、更忠實(shí)地生成語言?！?。

LLMs中的幻覺分為兩類：真實(shí)性和忠實(shí)性。事實(shí)幻覺是指內(nèi)容與可驗(yàn)證的現(xiàn)實(shí)世界事實(shí)相矛盾。這種差異的一個(gè)例子可能是一個(gè)模型錯(cuò)誤地宣稱比特幣有1億個(gè)代幣，而不是2300萬個(gè)。另一方面，當(dāng)生成的內(nèi)容偏離用戶的明確指示或既定上下文時(shí)，就會(huì)出現(xiàn)忠實(shí)的幻覺，導(dǎo)致新聞?wù)驓v史分析等關(guān)鍵領(lǐng)域的潛在不準(zhǔn)確。在這方面，模型會(huì)生成虛假信息，因?yàn)楦鶕?jù)提示，這似乎是最符合邏輯的路徑。

排行榜使用EleutherAI的語言模型評(píng)估工具對(duì)各種任務(wù)進(jìn)行全面的零樣本和少熱點(diǎn)語言模型評(píng)估。這些任務(wù)旨在測(cè)試模型的性能。一般來說，每個(gè)測(cè)試都會(huì)根據(jù)LLM的性能給出一個(gè)分?jǐn)?shù)，然后對(duì)這些結(jié)果進(jìn)行平均，以便每個(gè)模型根據(jù)其在所有測(cè)試中的總體性能進(jìn)行競(jìng)爭(zhēng)。

那么，哪種LLM架構(gòu)是最不瘋狂的呢？

根據(jù)幻覺排行榜的初步結(jié)果，表現(xiàn)出較少幻覺的模型包括Meow（基于太陽能）、Stability AI的Stable Beluga和Meta的LlaMA-2。然而，一些來自共同基礎(chǔ)的模型（如基于Mistral LLM的模型）往往在特定測(cè)試中優(yōu)于競(jìng)爭(zhēng)對(duì)手——這必須根據(jù)每個(gè)用戶可能想到的口味的性質(zhì)來考慮。

圖片：擁抱的臉

在幻覺排行榜上，一個(gè)模型的平均得分越高，表明該模型產(chǎn)生幻覺的傾向越低。這意味著該模型在生成與事實(shí)信息一致、符合用戶輸入或給定上下文的內(nèi)容方面更準(zhǔn)確、更可靠。

然而，需要注意的是，在某些任務(wù)中表現(xiàn)出色的模型在其他任務(wù)中可能表現(xiàn)不佳，因此排名是基于所有基準(zhǔn)之間的平均值，這些基準(zhǔn)測(cè)試了總結(jié)、事實(shí)核查、閱讀理解和自我一致性等不同領(lǐng)域。

幻覺排行榜背后的建筑師Pasquale Minervini博士沒有立即回應(yīng)Decrypt的置評(píng)請(qǐng)求。

值得注意的是，盡管幻覺排行榜提供了對(duì)開源模型的全面評(píng)估，但閉源模型尚未經(jīng)過如此嚴(yán)格的測(cè)試。然而，考慮到測(cè)試協(xié)議和商業(yè)模型的專有限制，幻覺排行榜得分似乎不太可能。

由Ryan Ozawa編輯。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。