來源:機器之心
圖片來源:由無界 AI生成
嘿 Siri、你好小娜、小愛同學(xué)、小藝小藝、OK Google、小布小布……
想必這些喚醒詞中至少有一個曾被你的嘴發(fā)出并成功呼喚出了一個能給你導(dǎo)航、講笑話、添加日程、設(shè)置鬧鐘、撥打電話的智能個人助理(IPA)??梢哉f IPA 已經(jīng)成了現(xiàn)代智能手機不可或缺的標(biāo)配,近期的一篇綜述論文更是認(rèn)為「個人 LLM 智能體會成為 AI 時代個人計算的主要軟件范式」。
這篇個人 LLM 智能體綜述論文來自國內(nèi)多所高校和企業(yè)研究所,包括清華大學(xué)、小米、華為、歡太、vivo、云米、理想汽車、北京郵電大學(xué)、蘇州大學(xué)。
文中不僅梳理了個人 LLM 智能體所需的能力、效率和安全問題,還收集并整理了領(lǐng)域?qū)<业囊娊猓硗膺€開創(chuàng)性地提出了個人 LLM 智能體的 5 級智能水平分級法。該團隊也在 GitHub 上創(chuàng)建了一個文獻(xiàn)庫,發(fā)布了相關(guān)文獻(xiàn),同時也可供 IPA 社區(qū)共同維護(hù),更新最新研發(fā)進(jìn)展。
- 論文地址:https://arxiv.org/abs/2401.05459
- 文獻(xiàn)庫:https://github.com/MobileLLM/Personal_LLM_Agents_Survey
- 論文標(biāo)題:Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security
機器之心整理了這篇綜述論文的內(nèi)容主干,以饗讀者。
科幻描繪了很多亮眼的智能個人助理(IPA),即可以增強個人能力、完成復(fù)雜任務(wù)甚至滿足情感需求的軟件智能體。這些智能體可以代表大多數(shù)人對人工智能(AI)的幻想。
隨著智能手機、智能家居設(shè)備、電動車等個人設(shè)備的廣泛普及和機器學(xué)習(xí)技術(shù)的進(jìn)步,這種幻想正在逐漸變成現(xiàn)實?,F(xiàn)在,很多移動設(shè)備都內(nèi)嵌了 IPA 軟件,比如 Siri、Google Assistant、Alexa 等。這些智能體與用戶密切相關(guān),可以讀取用戶數(shù)據(jù)和傳感器數(shù)據(jù)、控制各種個人設(shè)備、使用與個人賬戶關(guān)聯(lián)的個性化服務(wù)。
但是,當(dāng)今的智能個人助理的靈活性和可擴展性都還有限。它們的智能水平還遠(yuǎn)遠(yuǎn)不夠,在理解用戶意圖、推理和任務(wù)執(zhí)行等方面尤其明顯?,F(xiàn)如今大多數(shù)智能個人助理都只能執(zhí)行受限范圍內(nèi)的任務(wù)(比如內(nèi)置應(yīng)用的簡單功能)。一旦用戶的任務(wù)請求超出了這些范圍,智能體就無法準(zhǔn)確理解和執(zhí)行這些動作。
要改變這種情況,就必須顯著提升智能體的能力,使其支持范圍更廣、更靈活的任務(wù)。但是,當(dāng)前的 IPA 產(chǎn)品很難支持大范圍的任務(wù)。當(dāng)今大多數(shù) IPA 都需要遵循特定的預(yù)定義規(guī)則,比如開發(fā)者定義的規(guī)則或用戶演示的步驟。因此,除了定義任務(wù)執(zhí)行的觸發(fā)器和步驟之外,開發(fā)者或用戶還必須明確指定他們希望支持哪些功能。本質(zhì)上講,這種方法會限制這些應(yīng)用被用于更廣泛的任務(wù),因為支持更多任務(wù)需要大量時間和勞動力成本。
某些方法在嘗試通過監(jiān)督學(xué)習(xí)或強化學(xué)習(xí)實現(xiàn)自動化學(xué)習(xí),從而支持更多任務(wù)。但是,這些方法也需要大量人工演示和 / 或定義獎勵函數(shù)的工作。
近些年出現(xiàn)的大型語言模型(LLM)為 IPA 的開發(fā)帶來了全新的機會,其展現(xiàn)出了解決智能個人助理可擴展性問題的潛力。
相比于傳統(tǒng)方法,ChatGPT 和 Claude 等大型語言模型已經(jīng)展現(xiàn)出了指令遵從、常識推理和零樣本泛化等特有能力。這些能力的實現(xiàn)基于在大規(guī)模語料庫(超過 1.4 萬億詞)上進(jìn)行無監(jiān)督學(xué)習(xí)以及后續(xù)通過人類反饋進(jìn)行微調(diào)。利用這些能力,研究者已經(jīng)成功采用大型語言模型來驅(qū)動自動智能體(即 LLM 智能體),其目標(biāo)是通過自動進(jìn)行規(guī)劃和使用搜索引擎、代碼解釋器和第三方 API 等工具來解決復(fù)雜問題。
IPA 是一類特殊的智能體,有望通過 LLM 實現(xiàn)變革,畢竟 LLM 具備顯著增強的可擴展性、能力和有用性。我們可以把 LLM 驅(qū)動的智能個人助理稱為個人 LLM 智能體(Personal LLM Agents)。
相比于普通 LLM 智能體,個人 LLM 智能體會更深度地參與個人數(shù)據(jù)和移動設(shè)備,并且它們也有更明確的設(shè)計目的:輔助人類而非取代人類。
具體而言,輔助用戶的主要方式是減少他們?nèi)粘I钪兄貜?fù)、乏味、低價值的勞動,讓用戶能專注于更有趣、更有價值的事情,從而提高工作和生活的效率和質(zhì)量。個人 LLM 智能體可基于現(xiàn)有軟件棧(例如移動應(yīng)用、網(wǎng)站等)構(gòu)建,同時還能通過無處不在的智能自動化能力帶來令人耳目一新的用戶體驗。
因此,該團隊預(yù)計個人 LLM 智能體會成為 AI 時代個人計算的主要軟件范式,如圖 1 所示。
盡管個人 LLM 智能體未來潛力巨大,但相關(guān)研究仍處于起步階段,仍有許多錯綜復(fù)雜的問題和挑戰(zhàn)有待解決。
這篇綜述論文率先討論了實現(xiàn)個人 LLM 智能體方面的路線圖、設(shè)計選擇、主要挑戰(zhàn)和可能解決方案。
具體來說,這篇論文主要關(guān)注的是個人 LLM 智能體中與「個人」相關(guān)的部分,其中包括分析和利用用戶個人數(shù)據(jù)、使用個人資源、在個人設(shè)備上部署以及提供個性化服務(wù)。將 LLM 的通用語言能力簡單直接地整合進(jìn) IPA 不在本文的討論范圍內(nèi)。
首先,該團隊對個人 LLM 智能體領(lǐng)域的專家做了一番調(diào)研。他們邀請了業(yè)內(nèi)領(lǐng)先公司、研發(fā)用在個人設(shè)備上的 IPA 和 / 或 LLM 的 25 位首席架構(gòu)師、管理者和 / 或資深工程師 / 研究者他們讓這些專家談了談將 LLM 整合進(jìn)面向消費者的產(chǎn)品的機遇和挑戰(zhàn)。基于對這些專家意見的理解和分析,該團隊總結(jié)了一套簡單又普適的個人 LLM 智能體架構(gòu),其中最重要的部分是對個人數(shù)據(jù)(用戶背景信息、環(huán)境狀態(tài)、行為歷史記錄、個人特征)和個人資源(移動應(yīng)用、傳感器、智能家居設(shè)備)的智能管理和使用。
另外,管理和使用這些個人事項的能力不同于個人 LLM 智能體的智能水平。該團隊從自動駕駛的 1-5 級智能分級獲得靈感,提出了個人 LLM 智能體的 5 個智能等級。
另外,該團隊的這項研究還突出強調(diào)了實現(xiàn)這類個人 LLM 智能體的一些主要技術(shù)挑戰(zhàn);他們將這些挑戰(zhàn)分成了三類:基本能力、效率、安全和隱私。他們也詳細(xì)解釋了這三方面的挑戰(zhàn)并全面總結(jié)了可能的解決方案。具體來說,對于每個技術(shù)方面,他們會簡要解釋其與個人 LLM 智能體的相關(guān)性以及對個人 LLM 智能體的重要性,然后再具體討論其中的主要研究問題。
這篇論文的主要內(nèi)容和貢獻(xiàn)可以總結(jié)如下:
- 總結(jié)了產(chǎn)業(yè)界和學(xué)術(shù)界中智能個人助理的當(dāng)前現(xiàn)狀,同時分析了它們的主要局限和 LLM 時代的未來趨勢。
- 收集了 LLM 和個人智能體領(lǐng)域資深專家的見解、提出了一個普適的系統(tǒng)架構(gòu)并定義了個人 LLM 智能體的智能水平。
- 總結(jié)了個人 LLM 智能體三個重要技術(shù)方面的文獻(xiàn),包括基本能力、效率、安全和隱私。
智能個人助理簡史
智能個人助理發(fā)展時間線
智能個人助理(IPA)的發(fā)展史已經(jīng)很長。圖 2 給出了 IPA 歷史的大致時間線。其發(fā)展過程可以分為四個階段,圖中采用了不同的顏色標(biāo)記。
第 1 階段是從 1950 年代到 1980 年代末,這一時期的重點是開發(fā)語音識別技術(shù)。
第 2 階段是從 1990 年代到 2000 年代末,此時語音識別已經(jīng)開始被整合進(jìn)一些軟件實現(xiàn)一些高級功能。
第 3 階段始于 2010 年代初。這時候,智能手機和個人計算機等移動設(shè)備上開始出現(xiàn)總是開啟的虛擬助手服務(wù)。2011 年,Siri 被集成到了 iPhone 4S 中,也被廣泛認(rèn)為是首個安裝在現(xiàn)代智能手機上的智能個人助理。
第 4 階段則是始于近期 ——LLM 開始贏得世界矚目?,F(xiàn)在已經(jīng)出現(xiàn)了很多基于 LLM 的智能聊天機器人(如 ChatGPT),還有一些安裝在個人設(shè)備上的 LLM 驅(qū)動的 IPA 軟件(如 Copilot)。
從技術(shù)角度看智能個人助理發(fā)展史
在觀察智能個人助理時,我們可以選擇很多不同視角,這里作者選擇重點關(guān)注其最重要的一項能力,即任務(wù)自動化的能力(遵從指令并完成任務(wù))。下面將介紹四種用于在 IPA 中實現(xiàn)智能任務(wù)自動化的主要技術(shù)。
基于模板的編程:大多數(shù) IPA 商業(yè)產(chǎn)品都是通過基于模板的編程來實現(xiàn)任務(wù)自動化。這種方法是把要自動化的功能預(yù)定義成模板;通常來說,模板中會包含任務(wù)描述、相關(guān)動作、要匹配的示例查詢、需要填充的可用參數(shù)等。用戶給出指令后,智能體首先會將指令映射到最相關(guān)的模板,然后再按照預(yù)定義的步驟完成任務(wù)。其工作流程如圖 3 所示。
監(jiān)督學(xué)習(xí)方法:監(jiān)督學(xué)習(xí)是一種實現(xiàn)任務(wù)自動化的直接方法,其做法是基于任務(wù)輸入和當(dāng)前狀態(tài)預(yù)測后續(xù)的動作和狀態(tài)。這方面的主要研究問題包括如何學(xué)習(xí)軟件 GUI 的表征以及如何訓(xùn)練交互模型。
強化學(xué)習(xí)方法:不同于需要大量訓(xùn)練樣本的基于監(jiān)督學(xué)習(xí)的任務(wù)自動化方法,基于強化學(xué)習(xí)(RL)的方法允許智能體通過與目標(biāo)接口持續(xù)交互來獲得任務(wù)自動化的能力。在交互過程中,智能體會獲得指示任務(wù)完成進(jìn)度的獎勵反饋,并逐漸學(xué)習(xí)如何通過最大化獎勵回報來自動化任務(wù)。
對基礎(chǔ)模型的早期使用:近年來,以大型語言模型(LLM)為代表的預(yù)訓(xùn)練大型基礎(chǔ)模型發(fā)展迅速,為個人助理帶來了新機會。
個人 LLM 智能體:定義和見解
我們正在見證基于 LLM 的智能個人助理的巨大潛力,也能看到學(xué)術(shù)界和產(chǎn)業(yè)界對這一技術(shù)的廣泛興趣。該團隊通過這個研究項目率先系統(tǒng)性地討論了與這一方向相關(guān)的機會、挑戰(zhàn)和技術(shù)。
他們首先對個人 LLM 智能體(Personal LLM Agents)進(jìn)行了定義:一類深度整合了個人數(shù)據(jù)、個人設(shè)備和個人服務(wù)的基于 LLM 的特殊智能體。
個人 LLM 智能體的主要目標(biāo)是輔助終端用戶,幫助他們減少重復(fù)性和繁瑣的工作,讓他們能更關(guān)注更有趣和更重要的事務(wù)。
按照這一定義,通用的自動化方法(prompt 設(shè)計、規(guī)劃、自我反思等)類似于普通的基于 LLM 的智能體。這里重點關(guān)注的是與「個人」相關(guān)的部分,比如個人數(shù)據(jù)管理、對智能手機應(yīng)用的使用情況以及部署到資源有限的個人設(shè)備等等。
該團隊預(yù)計:在 LLM 時代,個人 LLM 智能體將成為個人設(shè)備的一個主要軟件范式。但是,個人 LLM 智能體的軟件棧和生態(tài)系統(tǒng)仍處于非常早期的階段。與系統(tǒng)設(shè)計和實現(xiàn)相關(guān)的許多重要問題尚不明晰。
因此,為了了解這些問題,該團隊做了一番調(diào)研,收集并整理了 25 位該領(lǐng)域?qū)<业囊娊狻_@ 25 位專家是來自 8 家研發(fā) IPA 相關(guān)產(chǎn)品的領(lǐng)先公司的首席架構(gòu)師、管理者或高級工程師 / 研究者。他們分享了對個人 LLM 智能體的看法,并解答了一些從應(yīng)用場景到部署挑戰(zhàn)等方面的常見問題?;谶@些討論和收集到的答案,該團隊將這些見解分成了三個方面,包括個人 LLM 智能體的關(guān)鍵組件、智能水平分級、有關(guān)常見問題的專家意見。
關(guān)鍵組件
基于對個人 LLM 智能體所需功能的討論,該團隊總結(jié)了支持這些功能的主要組件,如圖 4 所示。
個人 LLM 智能體的智能水平
個人 LLM 智能體應(yīng)具備的功能需要不同的能力。受自動駕駛 6 個等級的啟發(fā),該團隊將個人 LLM 智能體的智能水平分成了 1 級到 5 級共 5 個層級,如圖 5 所示。
下表 1 列出了每一級的關(guān)鍵特征和代表性用例。
對常見問題的看法
接下來報告的是該團隊收集整理的對一些常見問題的專家意見。這些問題包括部署個人 LLM 智能體的設(shè)計選擇和潛在挑戰(zhàn),如表 2 所示。
該團隊分析了所得答案,并總結(jié)出以下關(guān)鍵見解。
意見 1(將 LLM 部署在哪里):將 LLM 在邊緣 - 云(本地 - 遠(yuǎn)程)協(xié)同部署是首選,而現(xiàn)有的純云(僅遠(yuǎn)程,例如 ChatGPT)并不是一個被廣泛接受的解決方案。
意見 2(如何定制智能體):在定制化方面,人們最接受的方法是組合使用微調(diào)和上下文學(xué)習(xí)。
意見 3(使用哪些模態(tài)):個人 LLM 智能體最需要的是多模態(tài) LLM,尤其是文本和視覺模態(tài)。
意見 4(哪些 LLM 能力對 IPA 產(chǎn)品最重要):專家認(rèn)為最重要的 LLM 能力是語言理解,而最不重要的能力是處理長上下文的能力。
意見 5(如何與智能體交互):基于語音的交互是最受歡迎的方式。
意見 6(需要開發(fā)哪些智能體能力):對于個人 LLM 智能體的未來開發(fā),參與專家認(rèn)為最重要的功能是「更智能和更自動化的決策能力」。
意見 7(理想的 IPA 需要哪些功能):根據(jù)參與專家的回答,可以總結(jié)出理想智能體應(yīng)具備的六大關(guān)鍵功能:高效的數(shù)據(jù)管理和搜索,工作和生活輔助,個性化服務(wù)和推薦,自動化任務(wù)規(guī)劃和完成,情感支持和社交互動,作為用戶的數(shù)字代表等。
意見 8(最緊迫的技術(shù)挑戰(zhàn)有哪些):根據(jù)參與專家的回答,可將最緊迫的技術(shù)挑戰(zhàn)分為以下類別:智能(包括多模態(tài)支持、上下文理解和情境感知型行動、增強輕量級 LLM 在特定領(lǐng)域的能力);性能(有效的 LLM 壓縮或緊湊架構(gòu)、實用的本地 - 遠(yuǎn)程協(xié)作架構(gòu));安全和隱私(數(shù)據(jù)安全和隱私保護(hù)、推理準(zhǔn)確度和無害性);個性化和存儲;傳統(tǒng)操作系統(tǒng)支持。
基本能力
為了讓個人 LLM 智能體支持各種不同的功能,需要讓其具備一些基本能力。除了普通 LLM 智能體都有的基本功能之外,這里重點關(guān)注的是個人助理應(yīng)具備的三項基本能力:任務(wù)執(zhí)行、情境感知、記憶。圖 8 給出了這些基本能力之間的關(guān)系。
任務(wù)執(zhí)行
個人 LLM 智能體的任務(wù)執(zhí)行能力讓其可以響應(yīng)用戶請求并執(zhí)行指定的任務(wù)。在該團隊設(shè)想的場景中,智能體需要與智能手機、計算機和物聯(lián)網(wǎng)設(shè)備等各種個人設(shè)備交互并控制它們來自動執(zhí)行用戶指令。
任務(wù)執(zhí)行功能的一項基本需求是智能體有能力準(zhǔn)確理解用戶下達(dá)的任務(wù)。通常來說,任務(wù)可能來自用戶口頭或書面下達(dá)的指令,智能體可以從中解讀出用戶的意圖。隨著語音識別技術(shù)的成熟,現(xiàn)在已經(jīng)能非常方便地將語音信息轉(zhuǎn)換成文本。
在將用戶命令轉(zhuǎn)換成文本后,個人 LLM 智能體應(yīng)該能自動進(jìn)行規(guī)劃和采取行動。盡管規(guī)劃對傳統(tǒng) DNN 來說很困難,但基于 LLM 的智能體在這方面卻表現(xiàn)很好。之前已有一些綜述論文討論了 LLM 智能體的規(guī)劃和推理能力。這篇論文關(guān)注的重點是操作個人數(shù)據(jù)以及與個人設(shè)備交互。一個需要考慮的重點是個人 LLM 智能體交互的應(yīng)用或系統(tǒng)可能缺乏全面的 API 支持。因此,可以探索將用戶界面(UI)作為個人智能體的重要工具,以在 API 受限的場景中實現(xiàn)有效交互。
情境感知
情境感知是指智能體感知用戶或環(huán)境的狀態(tài)的過程,如此一來便可提供更定制化的服務(wù)。
這篇論文對情境感知采用了更廣義的定義,把一般的信息收集過程都視為感知?;谟布母兄裱瓊鹘y(tǒng)的感知概念,其中涉及到通過各種傳感器、可穿戴設(shè)備、邊緣設(shè)備等數(shù)據(jù)源。另一方面,基于軟件的感知則有各種各樣的數(shù)據(jù)獲取方式。舉個例子,分析用戶的打字習(xí)慣和常用短語就是一種基于軟件的感知。
在個人 LLM 智能體中,情境感知能力有多種作用:實現(xiàn)對感知型任務(wù)的支持、補充情境信息、觸發(fā)情境感知型服務(wù)、增強智能體的記憶。
記憶
記憶是指記錄、管理和使用歷史數(shù)據(jù)的能力。該能力讓智能體可以跟蹤用戶、學(xué)習(xí)過去的經(jīng)驗、提取有用知識以及使用這些知識來進(jìn)一步提升服務(wù)質(zhì)量。相關(guān)的研究工作主要是想解答兩個問題:如何獲取記憶以及如何使用記憶。
效率
由于許多個人設(shè)備的硬件資源和能源供應(yīng)有限,因此提升個人 LLM 智能體在部署階段的效率是非常重要的。之前討論的任務(wù)執(zhí)行、情境感知和記憶等個人 LLM 智能體的基本能力都還有更基礎(chǔ)的過程,主要包括 LLM 智能體的推理、定制化和記憶檢索,見圖 9。這些過程都需要針對效率進(jìn)行精心的優(yōu)化。
LLM 的推理能力是智能體的各種能力的基礎(chǔ)。因此,LLM 推理可能成為個人 LLM 智能體的性能瓶頸,需要仔細(xì)優(yōu)化其效率。
定制化也是個人 LLM 智能體用于滿足不同用戶需求的重要過程。由于定制化的需求很大,因此該過程可能會給系統(tǒng)的計算和存儲資源帶來較大壓力。
記憶操作也是一個高成本過程。為了提供更好的服務(wù),智能體可能需要訪問更長的上下文或外部記憶,比如環(huán)境感知數(shù)據(jù)、用戶配置文件、交互歷史、數(shù)據(jù)文件等。
圖 10 總結(jié)了可用于提升 LLM 智能體效率的技術(shù)。
高效推理
為了提升 LLM 的推理效率,人們已經(jīng)提出了很多模型或系統(tǒng)層面的方法,其中包括:
模型壓縮:直接降低模型大小或減少計算量,從而降低 LLM 在計算、內(nèi)存和能量方面的需求,進(jìn)而提升推理效率。模型壓縮技術(shù)可以進(jìn)一步分類:量化、剪枝(稀疏化)、蒸餾和低秩分解。
推理加速:除了下面會提到的讓模型更緊湊之外,還有一些用于加速 LLM 推理過程的技術(shù)。LLM 與傳統(tǒng)非 Transformer 模型的一大關(guān)鍵差異是注意力機制。由于注意力的計算成本會隨上下文長度而近二次增長,因此增強模型在長上下文推理方面的計算效率就格外重要了。為了更好地支持長上下文推理,現(xiàn)有的研究工作主要集中于降低上下文長度和優(yōu)化注意力核。
減少內(nèi)存用量:LLM 推理不僅計算成本高,而且內(nèi)存需求也大,這也是部署個人 LLM 智能體的一大挑戰(zhàn)。KV 緩存和模型權(quán)重是內(nèi)存開銷的兩個主要原因。研究者已經(jīng)針對這兩方面提出了一些優(yōu)化方法,包括通過量化或剪枝技術(shù)來壓縮 KV 緩存。
能耗優(yōu)化:能耗高的智能體不僅會增加部署成本和碳足跡,而且還會因為溫度升高和潛在的熱節(jié)流而損害體驗質(zhì)量(QoE)。由于計算和內(nèi)存訪問(主要是權(quán)重加載)是高能耗的兩個主要原因,因此有很多旨在優(yōu)化這兩個方面的研究,其中既有軟件方面的研究,也有硬件方面的研究。
高效定制化
個人 LLM 智能體可能需要使用同一個基礎(chǔ) LLM 為不同用戶提供服務(wù),在不同場景中執(zhí)行不同的任務(wù),因此這需要針對每種情況進(jìn)行高效的定制化。
定制化 LLM 行為的方法主要有兩種:一是為 LLM 提供不同的上下文 prompt 供其上下文學(xué)習(xí),二是使用特定領(lǐng)域的數(shù)據(jù)微調(diào) LLM。因此,定制化效率的主要決定因素是上下文加載效率和 LLM 微調(diào)效率。
上下文加載效率:提升上下文加載效率的方法有很多。一種簡單的方法是去掉冗余的 token,縮短上下文長度。另一種方法是降低上下文數(shù)據(jù)傳輸過程中的帶寬消耗。
微調(diào)效率:這方面的技術(shù)大致可以分為這些類別:參數(shù)高效型微調(diào)技術(shù)、高效的優(yōu)化器設(shè)計和訓(xùn)練數(shù)據(jù)組織管理。
高效操作記憶
為了給出明智的決策,個人 LLM 智能體需要頻繁地檢索內(nèi)部或外部記憶。在 LLM 推理階段,內(nèi)部記憶會表示成上下文 token 并以 KV 緩存的形式存儲。內(nèi)部記憶的檢索是由 Transformer 架構(gòu)中的自注意力模塊隱式處理的。這就需要 LLM 在執(zhí)行推理時,在長上下文上執(zhí)行更高效的計算,同時盡力最小化內(nèi)存足跡。這些問題與之前討論的 LLM 的推理效率類似。因此,這一小節(jié)主要關(guān)注的是操作外部記憶(可被動態(tài)檢索并添加到上下文中)的效率。
考慮到外部記憶數(shù)據(jù)的多樣性,比如用戶配置文件、交互歷史和本地原始文件(圖像、視頻等),常見做法是使用嵌入模型將記憶數(shù)據(jù)表示成一種統(tǒng)一格式的高維向量。向量之間的距離表示對應(yīng)數(shù)據(jù)之間的語義相似度。對于每一次查詢,智能體都需要在外部記憶存儲中找到最相關(guān)的部分。這個過程以及對向量的維護(hù)工作可以通過向量軟件庫(如 Faiss 和 SCaNN)、向量數(shù)據(jù)庫或某種定制的記憶結(jié)構(gòu)完成。不管這些系統(tǒng)的功能有何差異,他們的效率優(yōu)化目標(biāo)基本都集中于兩個方面:搜索和檢索。
安全和隱私
個人 LLM 智能體不同于普通 LLM 智能體,會使用大量敏感的個人數(shù)據(jù)和安全性至關(guān)重要的個人工具。因此,保護(hù)個人 LLM 智能體用戶的數(shù)據(jù)隱私和服務(wù)安全就成了一個至關(guān)重要的問題。在個人 LLM 智能體語境中有三大安全原則:保密性、完整性和可靠性;如圖 11 所示。
保密性
這一小節(jié)討論的是在使用個人 LLM 智能體時保護(hù)用戶隱私的可能方法。前面已經(jīng)提到,由于個人助理有權(quán)訪問大量敏感的用戶數(shù)據(jù),因此確保用戶隱私至關(guān)重要。
不同于用戶需要明確輸入文本的傳統(tǒng) LLM 聊天機器人,個人 LLM 智能體有可能在用戶不知情的情況下自發(fā)啟動查詢,其中可能包含有關(guān)用戶的敏感信息。另外,智能體也可能將用戶信息暴露給其它智能體或服務(wù)。因此,保護(hù)用戶隱私就變得更加重要了。
增強保密性的方法有很多,包括本地數(shù)據(jù)處理、同態(tài)加密、數(shù)據(jù)脫敏、訪問權(quán)限控制等。
完整性
完整性是指讓個人 LLM 智能體有能力確保正確輸出用戶期望的內(nèi)容,即便在面臨各種類型的攻擊時也能做到。
由于個人 LLM 智能體必定會和不同類型的數(shù)據(jù)、應(yīng)用及其它智能體交互,所以它有可能遇到惡意第三方的攻擊,這些攻擊的目的通常是通過非常規(guī)手段竊取用戶數(shù)據(jù)和資產(chǎn)或破壞系統(tǒng)的正常功能。
因此,系統(tǒng)必須有能力抵御各種類型的攻擊。通過加密、權(quán)限控制、硬件隔離等措施,可以防御模型參數(shù)修改、竊取、篡改本地數(shù)據(jù)等傳統(tǒng)攻擊方式。但是,除了防御傳統(tǒng)的攻擊方法外,還應(yīng)該關(guān)注 LLM 智能體可能遇到的新型攻擊:對抗攻擊、后門攻擊和 prompt 注入攻擊。
可靠性
使用個人 LLM 智能體時,許多關(guān)鍵操作是由 LLM 決定的,包括一些敏感操作,例如修改和刪除用戶信息、采購服務(wù)、發(fā)送消息等。因此,確保智能體決策過程的可靠性至關(guān)重要。
該團隊從三個方面探討了 LLM 的可靠性,包括問題(即 LLM 的可靠性問題體現(xiàn)在哪里?)、改進(jìn)(即如何讓 LLM 的回答更可靠?)和檢查(即如何處理 LLM 可能輸出的不可靠結(jié)果?)。
更多技術(shù)細(xì)節(jié)請參閱原論文。