“Anthropic Claude2.1已經(jīng)把幻覺發(fā)生幾率降低了50%,但從實(shí)現(xiàn)原理上,模型設(shè)計(jì)就是為了生成,一定會(huì)胡說八道?!?br>“幻覺不是一個(gè)孤立問題,它不光跟模型結(jié)構(gòu)有關(guān),還跟數(shù)據(jù)、訓(xùn)練方式有關(guān)。當(dāng)所有因素綜合在一起,才能有效緩解幻覺問題。不過我覺得幻覺很難說根本性解決掉,它畢竟到現(xiàn)在位置屬于概率模型?!?br>“可以通過有效的Prompt來減少幻覺,Prompt來自用戶有時(shí)會(huì)存在誤導(dǎo)或惡意,就需要在應(yīng)用層面提供語意理解和改寫。也可以制定相應(yīng)安全機(jī)制,將惡意誘導(dǎo)排除在外?!?br>“現(xiàn)在市面上有了檢索增強(qiáng)RAG,微調(diào)Finetune,以及控制輸出和輸入的工具,都是在減少幻覺。服務(wù)商做這件事情,也需要長(zhǎng)期的AI工程化經(jīng)驗(yàn)。”
原文來源:鈦媒體APP
作者 | 楊麗
圖片來源:由無界 AI?生成
最近一段時(shí)間,鈦媒體與大量AI從業(yè)者溝通中發(fā)現(xiàn):大模型幻覺,已經(jīng)成為阻礙企業(yè)應(yīng)用的嚴(yán)重缺陷性問題,這也導(dǎo)致大模型在實(shí)際應(yīng)用中無法用起來。
2022年末,ChatGPT作為一款自動(dòng)化交互式聊天機(jī)器人的出現(xiàn),給業(yè)界啟發(fā),由此帶動(dòng)了后來自然語言處理領(lǐng)域的解題思路。
只不過,外界一開始所忽視的是,這款聊天機(jī)器人最早被命名為ELIZA,其目的是模擬一位心理診療師,通過接受用戶的輸入(這個(gè)過程稱為“理解用戶意圖”),然后巧妙地輸出讓用戶保持參與的回復(fù)。
但由于大語言模型(LLM)的訓(xùn)練語料是來自于互聯(lián)網(wǎng)、書籍、文章等海量數(shù)據(jù),雖然機(jī)器人展示出了比較高的上下文理解能力,但其局限性從其出生就一直攜帶:僅限于語料知識(shí),且往往會(huì)生成一些與事實(shí)不符或毫無根據(jù)的結(jié)果,甚至編造出一些參考文獻(xiàn),無意中傳播出錯(cuò)誤信息。其核心就在于,大模型本身是黑匣子,基于統(tǒng)計(jì)學(xué)邏輯,同時(shí)會(huì)結(jié)合提示工程、學(xué)習(xí)指令數(shù)據(jù),生成盡可能與上下文語法語義一致的結(jié)果。
最先進(jìn)的AI模型也容易說謊
OpenAI的研究人員在近期報(bào)告中指出,即使是最先進(jìn)的AI模型也容易產(chǎn)生謊言,它們?cè)诓淮_定的時(shí)刻往往表現(xiàn)出捏造事實(shí)的傾向。而這尤其在需要多步驟推理的領(lǐng)域尤為嚴(yán)重,因?yàn)橐粋€(gè)邏輯錯(cuò)誤就足以影響全局。
一個(gè)臭名昭著的例子,是谷歌Bard關(guān)于韋伯望遠(yuǎn)鏡的說法。
當(dāng)輸入“可以告訴我9歲的孩子,有關(guān)韋伯望遠(yuǎn)鏡有哪些新發(fā)現(xiàn)嗎?”谷歌Bard回答是:“韋伯望遠(yuǎn)鏡拍攝了太陽系外行星的第一張照片?!?/p>
其實(shí),該回復(fù)其實(shí)是錯(cuò)誤的。據(jù)NASA稱,第一張系外行星圖像于2004年拍攝,韋伯望遠(yuǎn)鏡直到2021年才發(fā)射。
鈦媒體摘取了TechTarget上有關(guān)幻覺的分類表述,目前來看主要有以下幾類:
- 句子矛盾。
?提示:“用四言句式寫一段話描述風(fēng)景?!?/p>
輸出:“The grass was green.The mountains were blue.The river was purple.The grass was brown.”(草是綠色的。山是藍(lán)色的。河流是紫色的。草是棕色的。)
- 與提示矛盾。句子與生成該句子的提示詞矛盾。
?提示:“給我侄女寫一張生日賀卡?!?/p>
輸出:“周年紀(jì)念快樂,爸爸媽媽!”
- 與事實(shí)矛盾。將虛構(gòu)信息呈現(xiàn)為事實(shí)。
?提示:“說出美國的三個(gè)城市。”
輸出:“紐約、洛杉磯、多倫多?!?/p>
- 不相關(guān)或隨機(jī)性。生成與輸入或輸出無關(guān)的隨機(jī)信息。
?提示:“請(qǐng)描述下倫敦?!?/p>
輸出:“倫敦是英國的一座城市。貓每天至少需要喂一次。”
值得一提的是,生成式AI這件事兒的難點(diǎn),不光在文字生成,同樣也存在于一開始的圖像生成領(lǐng)域。
對(duì)抗AI幻覺,從GAN就已經(jīng)開始
2017年前后,GenAI使用最多的算法還不是GPT,而是對(duì)抗生成網(wǎng)絡(luò)GAN(Generative Adversarial Networks)。即讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互PK,從給定的訓(xùn)練數(shù)據(jù)集生成更接近人類真實(shí)的圖像。當(dāng)年你看到過的,生成漫畫臉/表情、人體姿勢(shì)生成、風(fēng)景合成、老照片修復(fù)等場(chǎng)景,都應(yīng)用自GAN的不同變種。
但此算法有個(gè)問題,由于是根據(jù)給定數(shù)據(jù)集,生成的內(nèi)容只會(huì)模仿,無限接近于真實(shí),無法真正突破。
GAN的缺點(diǎn)被后來的擴(kuò)散化模型Diffusion克服。其原理類似于給照片去噪點(diǎn),通過學(xué)習(xí)去噪過程來理解一張有意義的圖像是如何生成的,因此Diffusion模型生成的圖片相比GAN模型精度更高,更符合人類視覺和審美邏輯,同時(shí)隨著樣本數(shù)量和深度學(xué)習(xí)時(shí)長(zhǎng)的積累,模型展示出對(duì)藝術(shù)風(fēng)格較好的模仿能力。
從Disco Diffusion,到2023年大火的Stable Diffusion、DALL-E2、MidJourney等,都是基于Diffusion改造而來,為圖生圖或文生圖應(yīng)用的典型代表。
最近,OpenAI提出了對(duì)抗AI“幻覺”的新策略,即獎(jiǎng)勵(lì)每個(gè)正確的推理步驟,而不是簡(jiǎn)單地獎(jiǎng)勵(lì)正確的最終答案。這種方法被稱為“過程監(jiān)督”,旨在操縱模型提示分解為步驟的方法。
導(dǎo)致AI模型產(chǎn)生幻覺有若干因素,其中包括訓(xùn)練數(shù)據(jù)有偏見、訓(xùn)練數(shù)據(jù)量不足、訓(xùn)練數(shù)據(jù)過度擬合、上下文理解有限、領(lǐng)域知識(shí)缺乏等等。
解決大模型的幻覺問題,其實(shí)一直是擺在明面的問題。鈦媒體梳理了目前正在應(yīng)用或研發(fā)的企業(yè)公開的不同解法。
- 數(shù)據(jù)增強(qiáng)
從源頭上,對(duì)訓(xùn)練數(shù)據(jù)抓起,是多數(shù)企業(yè)在嘗試的事情。原因在于,數(shù)據(jù)質(zhì)量包括源數(shù)據(jù)存在偏見或錯(cuò)誤信息,或訓(xùn)練數(shù)據(jù)量不足,會(huì)導(dǎo)致模型對(duì)其所訪問的數(shù)據(jù)理解有限而導(dǎo)致幻覺。高質(zhì)量的訓(xùn)練數(shù)據(jù)或添加領(lǐng)域知識(shí),可有助于阻止模型生成不準(zhǔn)確或誤導(dǎo)性的結(jié)果。
- 用戶理解增強(qiáng)
同時(shí),對(duì)上下文缺乏理解。如果輸入提示詞不清楚、不一致或有矛盾的描述,也可能會(huì)產(chǎn)生脫離上下文或不相關(guān)的內(nèi)容。用戶也可以不斷完善,通過使用清晰且具體的提示詞,以及多shot提示,即提供所需輸出格式或上下文示例,進(jìn)一步引導(dǎo)模型達(dá)到預(yù)期結(jié)果,或者增加過濾和排名策略,調(diào)整參數(shù),控制輸出結(jié)果的隨機(jī)性。
- 檢索增強(qiáng)
大模型所需要的知識(shí)并不能只在用戶提示詞階段獲取。傳統(tǒng)方式上,AI神經(jīng)網(wǎng)絡(luò)是通過微調(diào)模型來適應(yīng)特定上下文場(chǎng)景或?qū)S蓄I(lǐng)域信息。盡管基于指令數(shù)據(jù)的微調(diào)技術(shù)很有效,但對(duì)計(jì)算的消耗非常大,且需要匹配實(shí)時(shí)專業(yè)知識(shí),以適應(yīng)不斷變化的輸出,這種方式其實(shí)靈活性不高。
2020年,F(xiàn)acebook AI部門自然語言處理研究員Lewis等人在論文中提出的檢索增強(qiáng)生成(RAG),將生成器與外掛知識(shí)庫用檢索器結(jié)合起來,從而更易獲取實(shí)時(shí)信息。這個(gè)過程不影響底層模型的推理能力,在訓(xùn)練期間習(xí)得的知識(shí)以神經(jīng)網(wǎng)絡(luò)權(quán)重保存,一些非參數(shù)知識(shí)則保存在向量數(shù)據(jù)庫等外掛知識(shí)庫中。
用個(gè)形象點(diǎn)的比喻,就是讓大模型進(jìn)行開卷考試,可以攜帶課本、筆記等參考資料,用于查找相關(guān)信息答案。開卷考試的理念是,重點(diǎn)測(cè)試學(xué)生的推理能力,而不是記憶特定信息的能力。而用戶查詢和檢索到的信息也被填充到提示模板中,幫助Prompt提供更強(qiáng)的上下文答案。
大模型的產(chǎn)業(yè)實(shí)踐,機(jī)會(huì)先行
值得關(guān)注的是,目前大模型已經(jīng)在走入一些傳統(tǒng)行業(yè),這其中就包括工業(yè)制造領(lǐng)域。且不論制造業(yè)數(shù)據(jù)基礎(chǔ)和應(yīng)用場(chǎng)景的準(zhǔn)備不足,由于制造業(yè)對(duì)于決策的解釋和可解釋性要求較高,特別是在關(guān)鍵決策和質(zhì)量控制方面,大模型通常被認(rèn)為是黑箱模型,難以解釋其決策過程和推理邏輯。這可能并不符合制造業(yè)的要求。
某電力自動(dòng)化全球企業(yè)最近分享的實(shí)踐是,將運(yùn)籌求解+深度學(xué)習(xí)結(jié)合起來進(jìn)行使用,首先在智能排產(chǎn)環(huán)節(jié),不只是在用運(yùn)籌優(yōu)化求解器的算法,甚至包括一些啟發(fā)式的算法。把優(yōu)化求解類的問題,會(huì)通過深度學(xué)習(xí)求一個(gè)初始解,然后再給到求解器做一個(gè)精確解。
受制于基礎(chǔ)模型,大模型無法自我排查錯(cuò)誤,幻覺問題在當(dāng)前解決還無法根本消除。但產(chǎn)業(yè)界的嘗試已經(jīng)在說明,人工智能應(yīng)用的成長(zhǎng),也需要先找場(chǎng)景,再根據(jù)技術(shù)的發(fā)展修正模型。