hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 幻覺國度:你最喜歡的人工智能模型有多瘋狂?

幻覺國度:你最喜歡的人工智能模型有多瘋狂?

時間:2024-01-30 07:19:20
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #幻覺國度:你最喜歡的人工智能模型有多瘋狂?#】

盡管人工智能的興起帶來了變革性和顛覆性的力量,但生成性人工智能的致命弱點仍然是它的虛構(gòu)傾向。

大型語言模型“產(chǎn)生幻覺”的趨勢伴隨著各種陷阱,播下了錯誤信息的種子。自然語言處理領域可能是危險的,尤其是當人們無法區(qū)分什么是人類的,什么是人工智能生成的時候。

為了應對這種情況,自稱是世界上最大的開源人工智能社區(qū)的Huggingface引入了幻覺排行榜,這是一個新的排名,專門評估開源LLM及其生成幻覺內(nèi)容的趨勢,方法是通過一組專為上下文學習而設的不同基準來運行它們。

排行榜開發(fā)人員解釋道:“這一舉措旨在幫助研究人員和工程師確定最可靠的模型,并有可能推動LLM的發(fā)展,使其更準確、更忠實地生成語言。”。

LLMs中的幻覺分為兩類:真實性和忠實性。事實幻覺是指內(nèi)容與可驗證的現(xiàn)實世界事實相矛盾。這種差異的一個例子可能是一個模型錯誤地宣稱比特幣有1億個代幣,而不是2300萬個。另一方面,當生成的內(nèi)容偏離用戶的明確指示或既定上下文時,就會出現(xiàn)忠實的幻覺,導致新聞摘要或歷史分析等關鍵領域的潛在不準確。在這方面,模型會生成虛假信息,因為根據(jù)提示,這似乎是最符合邏輯的路徑。

排行榜使用EleutherAI的語言模型評估工具對各種任務進行全面的零樣本和少熱點語言模型評估。這些任務旨在測試模型的性能。一般來說,每個測試都會根據(jù)LLM的性能給出一個分數(shù),然后對這些結(jié)果進行平均,以便每個模型根據(jù)其在所有測試中的總體性能進行競爭。

那么,哪種LLM架構(gòu)是最不瘋狂的呢?

根據(jù)幻覺排行榜的初步結(jié)果,表現(xiàn)出較少幻覺的模型包括Meow(基于太陽能)、Stability AI的Stable Beluga和Meta的LlaMA-2。然而,一些來自共同基礎的模型(如基于Mistral LLM的模型)往往在特定測試中優(yōu)于競爭對手——這必須根據(jù)每個用戶可能想到的口味的性質(zhì)來考慮。

圖片:擁抱的臉

在幻覺排行榜上,一個模型的平均得分越高,表明該模型產(chǎn)生幻覺的傾向越低。這意味著該模型在生成與事實信息一致、符合用戶輸入或給定上下文的內(nèi)容方面更準確、更可靠。

然而,需要注意的是,在某些任務中表現(xiàn)出色的模型在其他任務中可能表現(xiàn)不佳,因此排名是基于所有基準之間的平均值,這些基準測試了總結(jié)、事實核查、閱讀理解和自我一致性等不同領域。

幻覺排行榜背后的建筑師Pasquale Minervini博士沒有立即回應Decrypt的置評請求。

值得注意的是,盡管幻覺排行榜提供了對開源模型的全面評估,但閉源模型尚未經(jīng)過如此嚴格的測試。然而,考慮到測試協(xié)議和商業(yè)模型的專有限制,幻覺排行榜得分似乎不太可能。

由Ryan Ozawa編輯。

小編推薦下載

相關文章

更多>>

資訊排行

同類軟件下載