首頁(yè) > 區(qū)塊鏈 > 基礎(chǔ)模型+機(jī)器人：現(xiàn)在已經(jīng)走到哪一步了

基礎(chǔ)模型+機(jī)器人：現(xiàn)在已經(jīng)走到哪一步了

時(shí)間：2024-01-01 15:34:00

來(lái)源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #基礎(chǔ)模型+機(jī)器人：現(xiàn)在已經(jīng)走到哪一步了#】

機(jī)器人是一種擁有無(wú)盡可能性的技術(shù)，尤其是當(dāng)搭配了智能技術(shù)時(shí)。近段時(shí)間創(chuàng)造了許多變革性應(yīng)用的大模型有望成為機(jī)器人的智慧大腦，幫助機(jī)器人感知和理解這個(gè)世界并制定決策和進(jìn)行規(guī)劃。近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）領(lǐng)導(dǎo)的一個(gè)聯(lián)合團(tuán)隊(duì)發(fā)布了一篇綜述報(bào)告，介紹了基礎(chǔ)模型在機(jī)器人領(lǐng)域的應(yīng)用和發(fā)展情況。

原文來(lái)源：機(jī)器之心

圖片來(lái)源：由無(wú)界 AI生成

開(kāi)發(fā)能自主適應(yīng)不同環(huán)境的機(jī)器人是人類(lèi)一直以來(lái)的一個(gè)夢(mèng)想，但這卻是一條漫長(zhǎng)且充滿(mǎn)挑戰(zhàn)的道路。

之前，利用傳統(tǒng)深度學(xué)習(xí)方法的機(jī)器人感知系統(tǒng)通常需要大量有標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練監(jiān)督學(xué)習(xí)模型，而如果通過(guò)眾包方式來(lái)標(biāo)注大型數(shù)據(jù)集，成本又非常高。

此外，由于經(jīng)典監(jiān)督學(xué)習(xí)方法的泛化能力有限，為了將這些模型部署到具體的場(chǎng)景或任務(wù)，這些訓(xùn)練得到的模型通常還需要精心設(shè)計(jì)的領(lǐng)域適應(yīng)技術(shù)，而這又通常需要進(jìn)一步的數(shù)據(jù)收集和標(biāo)注步驟。類(lèi)似地，經(jīng)典的機(jī)器人規(guī)劃和控制方法通常需要仔細(xì)地建模世界、智能體自身的動(dòng)態(tài)和 / 或其它智能體的動(dòng)態(tài)。這些模型通常針對(duì)各個(gè)具體環(huán)境或任務(wù)構(gòu)建，而當(dāng)情況有變時(shí)，就需要重新構(gòu)建模型。這說(shuō)明經(jīng)典模型的遷移性能也有限。

事實(shí)上，對(duì)于很多用例，構(gòu)建有效模型的成本要么太高，要么完全無(wú)法辦到。盡管基于深度（強(qiáng)化）學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃和控制方法有助于緩解這些問(wèn)題，但它們?nèi)耘f會(huì)受到分布移位（distribution shift）和泛化能力降低的影響。

雖然在開(kāi)發(fā)通用型機(jī)器人系統(tǒng)上正面臨諸多挑戰(zhàn)，但自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺(jué)（CV）領(lǐng)域近來(lái)卻進(jìn)展迅猛，其中包括用于 NLP 的大型語(yǔ)言模型（LLM）、用于高保真圖像生成的擴(kuò)散模型、用于零樣本 / 少樣本生成等 CV 任務(wù)的能力強(qiáng)大的視覺(jué)模型和視覺(jué)語(yǔ)言模型。

所謂的「基礎(chǔ)模型（foundation model）」其實(shí)就是大型預(yù)訓(xùn)練模型（LPTM）。它們具備強(qiáng)大的視覺(jué)和語(yǔ)言能力。近來(lái)這些模型也已經(jīng)在機(jī)器人領(lǐng)域得到應(yīng)用，并有望賦予機(jī)器人系統(tǒng)開(kāi)放世界感知、任務(wù)規(guī)劃甚至運(yùn)動(dòng)控制能力。除了將現(xiàn)有的視覺(jué)和 / 或語(yǔ)言基礎(chǔ)模型用于機(jī)器人領(lǐng)域，也有研究團(tuán)隊(duì)正針對(duì)機(jī)器人任務(wù)開(kāi)發(fā)基礎(chǔ)模型，比如用于操控的動(dòng)作模型或用于導(dǎo)航的運(yùn)動(dòng)規(guī)劃模型。這些機(jī)器人基礎(chǔ)模型展現(xiàn)出了強(qiáng)大的泛化能力，能適應(yīng)不同的任務(wù)甚至具身方案。

也有研究者直接將視覺(jué) / 語(yǔ)言基礎(chǔ)模型用于機(jī)器人任務(wù)，這展現(xiàn)出了將不同機(jī)器人模塊融合成單一統(tǒng)一模型的可能性。

盡管視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域前景可期，全新的機(jī)器人基礎(chǔ)模型也正在開(kāi)發(fā)中，但機(jī)器人領(lǐng)域仍有許多挑戰(zhàn)難以解決。

從實(shí)際部署角度看，模型往往是不可復(fù)現(xiàn)的，無(wú)法泛化到不同的機(jī)器人形態(tài)（多具身泛化）或難以準(zhǔn)確理解環(huán)境中的哪些行為是可行的（或可接受的）。此外大多數(shù)研究使用的都是基于 Transformer 的架構(gòu)，關(guān)注的重點(diǎn)是對(duì)物體和場(chǎng)景的語(yǔ)義感知、任務(wù)層面的規(guī)劃、控制。而機(jī)器人系統(tǒng)的其它部分則少有人研究，比如針對(duì)世界動(dòng)態(tài)的基礎(chǔ)模型或可以執(zhí)行符號(hào)推理的基礎(chǔ)模型。這些都需要跨領(lǐng)域泛化能力。

最后，我們也需要更多大型真實(shí)世界數(shù)據(jù)以及支持多樣化機(jī)器人任務(wù)的高保真度模擬器。

這篇綜述論文總結(jié)了機(jī)器人領(lǐng)域使用的基礎(chǔ)模型，目標(biāo)是理解基礎(chǔ)模型能以怎樣的方式幫助解決或緩解機(jī)器人領(lǐng)域的核心挑戰(zhàn)。

論文地址：https://arxiv.org/pdf/2312.08782.pdf

在這篇綜述中，研究者使用的「用于機(jī)器人的基礎(chǔ)模型（foundation models for robotics）」這一術(shù)語(yǔ)涵蓋兩個(gè)方面：(1) 用于機(jī)器人的現(xiàn)有的（主要）視覺(jué)和語(yǔ)言模型，主要是通過(guò)零樣本和上下文學(xué)習(xí)；(2) 使用機(jī)器人生成的數(shù)據(jù)專(zhuān)門(mén)開(kāi)發(fā)和利用機(jī)器人基礎(chǔ)模型，以解決機(jī)器人任務(wù)。他們總結(jié)了用于機(jī)器人的基礎(chǔ)模型的相關(guān)論文中的方法，并對(duì)這些論文的實(shí)驗(yàn)結(jié)果進(jìn)行了元分析（meta-analysis）。

圖 1 展示了這篇綜述報(bào)告的主要組成部分。

圖 2 給出了這篇綜述的整體結(jié)構(gòu)。

預(yù)備知識(shí)

為了幫助讀者更好地理解這篇綜述的內(nèi)容，該團(tuán)隊(duì)首先給出了一節(jié)預(yù)備知識(shí)內(nèi)容。

他們首先將介紹機(jī)器人學(xué)的基礎(chǔ)知識(shí)以及當(dāng)前最佳技術(shù)。這里主要聚焦于基礎(chǔ)模型時(shí)代之前機(jī)器人領(lǐng)域使用的方法。這里簡(jiǎn)單說(shuō)明一下，詳情參閱原論文。?

機(jī)器人的主要組件可分為感知、決策和規(guī)劃、動(dòng)作生成三大部分。

該團(tuán)隊(duì)將機(jī)器人感知分為被動(dòng)感知、主動(dòng)感知和狀態(tài)估計(jì)。

在機(jī)器人決策和規(guī)劃部分，研究者分經(jīng)典規(guī)劃方法和基于學(xué)習(xí)的規(guī)劃方法進(jìn)行了介紹。

機(jī)器的動(dòng)作生成也有經(jīng)典控制方法和基于學(xué)習(xí)的控制方法。

接下來(lái)該團(tuán)隊(duì)又會(huì)介紹基礎(chǔ)模型并主要集中在 NLP 和 CV 領(lǐng)域，涉及的模型包括：LLM、VLM、視覺(jué)基礎(chǔ)模型、文本條件式圖像生成模型。

機(jī)器人領(lǐng)域面臨的挑戰(zhàn)

這一節(jié)總結(jié)了典型機(jī)器人系統(tǒng)的不同模塊所面臨的五大核心挑戰(zhàn)。圖 3 給出了這五大挑戰(zhàn)的分類(lèi)情況。

泛化

機(jī)器人系統(tǒng)往往難以準(zhǔn)確地感知和理解其環(huán)境。它們也沒(méi)有能力將在一個(gè)任務(wù)上的訓(xùn)練成果泛化到另一個(gè)任務(wù)，這會(huì)進(jìn)一步限制它們?cè)谡鎸?shí)世界中的實(shí)用性。此外，由于機(jī)器人硬件不同，將模型遷移用于不同形態(tài)的機(jī)器人也很困難。通過(guò)將基礎(chǔ)模型用于機(jī)器人，可以部分地解決泛化問(wèn)題。

而在不同機(jī)器人形態(tài)上泛化這樣更進(jìn)一步的問(wèn)題還有待解答。

數(shù)據(jù)稀缺

為了開(kāi)發(fā)出可靠的機(jī)器人模型，大規(guī)模的高質(zhì)量數(shù)據(jù)至關(guān)重要。人們已經(jīng)在努力嘗試從現(xiàn)實(shí)世界收集大規(guī)模數(shù)據(jù)集，包括自動(dòng)價(jià)值、機(jī)器人操作軌跡等。并且從人類(lèi)演示收集機(jī)器人數(shù)據(jù)的成本很高。而由于任務(wù)和環(huán)境的多樣性，在現(xiàn)實(shí)世界收集足夠且廣泛的數(shù)據(jù)的過(guò)程還會(huì)更加復(fù)雜。此外，在現(xiàn)實(shí)世界收集數(shù)據(jù)還會(huì)有安全方面的疑慮。

為了解決這些挑戰(zhàn)，許多研究工作都嘗試了在模擬環(huán)境中生成合成數(shù)據(jù)。這些模擬能提供真實(shí)感很強(qiáng)的虛擬世界，讓機(jī)器人可以在接近真實(shí)的場(chǎng)景中學(xué)習(xí)和使用自己的技能。但是，使用模擬環(huán)境也有局限性，尤其是在物體的多樣性方面，這使得所學(xué)到的技能難以直接用于真實(shí)世界情況。

另外，在現(xiàn)實(shí)世界中，大規(guī)模收集數(shù)據(jù)非常困難，而要收集到訓(xùn)練基礎(chǔ)模型所使用的互聯(lián)網(wǎng)規(guī)模級(jí)的圖像 / 文本數(shù)據(jù)，那就更困難了。

一種頗具潛力的方法是協(xié)作式數(shù)據(jù)收集，即將不同實(shí)驗(yàn)室環(huán)境和機(jī)器人類(lèi)型的數(shù)據(jù)收集到一起，如圖 4a 所示。但是，該團(tuán)隊(duì)深度研究了 Open-X Embodiment Dataset，發(fā)現(xiàn)在數(shù)據(jù)類(lèi)型可用性方面還存在一些局限性。

模型和原語(yǔ)要求

經(jīng)典的規(guī)劃和控制方法通常需要精心設(shè)計(jì)的環(huán)境和機(jī)器人模型。之前的基于學(xué)習(xí)的方法（如模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)）是以端到端的方式訓(xùn)練策略，也就是直接根據(jù)感官輸入獲取控制輸出，這樣能避免構(gòu)建和使用模型。這些方法能部分解決依賴(lài)明確模型的問(wèn)題，但它們往往難以泛化用于不同的環(huán)境和任務(wù)。

這就引出了兩個(gè)問(wèn)題：(1) 怎么學(xué)習(xí)能很好泛化的與模型無(wú)關(guān)的策略？(2) 怎么學(xué)習(xí)好的世界模型，以便應(yīng)用經(jīng)典的基于模型的方法？

任務(wù)規(guī)范

為了得到通用型智能體，一大關(guān)鍵挑戰(zhàn)是理解任務(wù)規(guī)范并將其根植于機(jī)器人對(duì)世界的當(dāng)前理解中。通常而言，這些任務(wù)規(guī)范由用戶(hù)提供，但用戶(hù)只能有限地理解機(jī)器人的認(rèn)知和物理能力的局限性。這會(huì)帶來(lái)很多問(wèn)題，不僅包括能為這些任務(wù)規(guī)范提供什么樣的最佳實(shí)踐，而且還有起草這些規(guī)范是否足夠自然和簡(jiǎn)單?；跈C(jī)器人對(duì)自身能力的理解，理解和解決任務(wù)規(guī)范中的模糊性也充滿(mǎn)挑戰(zhàn)。

不確定性和安全性

為了在現(xiàn)實(shí)世界中部署機(jī)器人，一大關(guān)鍵挑戰(zhàn)是處理環(huán)境和任務(wù)規(guī)范中固有的不確定性。根據(jù)來(lái)源的不同，不確定性可以分為認(rèn)知不確定性（由缺乏知識(shí)導(dǎo)致不確定）和偶然不確定性（環(huán)境中固有的噪聲）。

不確定性量化（UQ）的成本可能會(huì)高得讓研究和應(yīng)用難以為繼，也可能讓下游任務(wù)無(wú)法被最優(yōu)地解決。有鑒于基礎(chǔ)模型大規(guī)模過(guò)度參數(shù)化的性質(zhì)，為了在不犧牲模型泛化性能的同時(shí)實(shí)現(xiàn)可擴(kuò)展性，提供能保留訓(xùn)練方案同時(shí)又盡可能不改變底層架構(gòu)的 UQ 方法至關(guān)重要。設(shè)計(jì)能提供對(duì)自身行為的可靠置信度估計(jì)，并反過(guò)來(lái)智能地請(qǐng)求清晰說(shuō)明反饋的機(jī)器人仍然是一個(gè)尚未解決的挑戰(zhàn)。

近來(lái)雖有一些進(jìn)展，但要確保機(jī)器人有能力學(xué)習(xí)經(jīng)驗(yàn)，從而在全新環(huán)境中微調(diào)自己的策略并確保安全，這一點(diǎn)依然充滿(mǎn)挑戰(zhàn)。

當(dāng)前研究方法概況

這一節(jié)總結(jié)了用于機(jī)器人的基礎(chǔ)模型的當(dāng)前研究方法。該團(tuán)隊(duì)將機(jī)器人領(lǐng)域使用的基礎(chǔ)模型分成了兩大類(lèi)：用于機(jī)器人的基礎(chǔ)模型和機(jī)器人基礎(chǔ)模型（RFM）。

用于機(jī)器人的基礎(chǔ)模型主要是指以零樣本的方式將視覺(jué)和語(yǔ)言基礎(chǔ)模型用于機(jī)器人，也就是說(shuō)無(wú)需額外的微調(diào)或訓(xùn)練。機(jī)器人基礎(chǔ)模型則可能使用視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練初始化來(lái)進(jìn)行熱啟動(dòng)和 / 或直接在機(jī)器人數(shù)據(jù)集上訓(xùn)練模型。

圖 5 給出了分類(lèi)詳情。

用于機(jī)器人的基礎(chǔ)模型

這一小節(jié)關(guān)注的是視覺(jué)和語(yǔ)言基礎(chǔ)模型在機(jī)器人領(lǐng)域的零樣本應(yīng)用。這主要包括將 VLM 以零樣本方式部署到機(jī)器人感知應(yīng)用中，將 LLM 的上下文學(xué)習(xí)能力用于任務(wù)層面和運(yùn)動(dòng)層面的規(guī)劃以及動(dòng)作生成。圖 6 展示了一些代表性的研究工作。

機(jī)器人基礎(chǔ)模型（RFM）

隨著包含來(lái)自真實(shí)機(jī)器人的狀態(tài) - 動(dòng)作對(duì)的機(jī)器人數(shù)據(jù)集的增長(zhǎng)，機(jī)器人基礎(chǔ)模型（RFM）類(lèi)別同樣變得越來(lái)越有可能成功。這些模型的特點(diǎn)是使用了機(jī)器人數(shù)據(jù)來(lái)訓(xùn)練模型解決機(jī)器人任務(wù)。

這一小節(jié)將總結(jié)和討論不同類(lèi)型的 RFM。首先是能在單一機(jī)器人模塊中執(zhí)行一類(lèi)任務(wù)的 RFM，這也被稱(chēng)為單目標(biāo)機(jī)器人基礎(chǔ)模型。比如能生成控制機(jī)器人的低層級(jí)動(dòng)作的 RFM 或可以生成更高層運(yùn)動(dòng)規(guī)劃的模型。

之后會(huì)介紹能在多個(gè)機(jī)器人模塊中執(zhí)行任務(wù)的 RFM，也就是能執(zhí)行感知、控制甚至非機(jī)器人任務(wù)的通用模型。

基礎(chǔ)模型能怎樣幫助解決機(jī)器人挑戰(zhàn)？

前面列出了機(jī)器人領(lǐng)域面臨的五大挑戰(zhàn)。這一小節(jié)將介紹基礎(chǔ)模型可以怎樣幫助解決這些挑戰(zhàn)。

所有與視覺(jué)信息相關(guān)的基礎(chǔ)模型（如 VFM、VLM 和 VGM）都可用于機(jī)器人的感知模塊。而 LLM 的功能更多樣，可用于規(guī)劃和控制。機(jī)器人基礎(chǔ)模型（RFM）通常用于規(guī)劃和動(dòng)作生成模塊。表 1 總結(jié)了解決不同機(jī)器人挑戰(zhàn)的基礎(chǔ)模型。

從表中可以看到，所有基礎(chǔ)模型都擅長(zhǎng)泛化各種機(jī)器人模塊的任務(wù)。LLM 尤其擅長(zhǎng)任務(wù)規(guī)范。另一方面，RFM 擅長(zhǎng)應(yīng)對(duì)動(dòng)態(tài)模型的挑戰(zhàn)，因?yàn)榇蠖鄶?shù) RFM 都是無(wú)模型方法。對(duì)于機(jī)器人感知來(lái)說(shuō)，泛化能力和模型的挑戰(zhàn)是相互耦合的，因?yàn)槿绻兄Ｐ鸵呀?jīng)具有很好的泛化能力，就不需要獲取更多數(shù)據(jù)來(lái)執(zhí)行領(lǐng)域適應(yīng)或額外微調(diào)。

另外，在安全挑戰(zhàn)方面還缺乏研究，這會(huì)是一個(gè)重要的未來(lái)研究方向。

當(dāng)前的實(shí)驗(yàn)和評(píng)估概況

這一節(jié)總結(jié)了當(dāng)前研究成果的數(shù)據(jù)集、基準(zhǔn)和實(shí)驗(yàn)。

數(shù)據(jù)集和基準(zhǔn)

僅依靠從語(yǔ)言和視覺(jué)數(shù)據(jù)集學(xué)到的知識(shí)是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無(wú)法僅通過(guò)這些模態(tài)輕松學(xué)習(xí)到。

因此，為了讓機(jī)器人智能體能更好地理解世界，研究社區(qū)不僅在適應(yīng)來(lái)自語(yǔ)言和視覺(jué)領(lǐng)域的基礎(chǔ)模型，也在推進(jìn)開(kāi)發(fā)用于訓(xùn)練和微調(diào)這些模型的大型多樣化多模態(tài)機(jī)器人數(shù)據(jù)集。

目前這些工作分為兩大方向：從現(xiàn)實(shí)世界收集數(shù)據(jù)以及從模擬世界收集數(shù)據(jù)再將其遷移到現(xiàn)實(shí)世界。每個(gè)方向都各有優(yōu)劣。其中從現(xiàn)實(shí)世界收集的數(shù)據(jù)集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。

對(duì)當(dāng)前方法的評(píng)估分析

該團(tuán)隊(duì)的另一大貢獻(xiàn)是對(duì)本綜述報(bào)告中提到的論文中的實(shí)驗(yàn)進(jìn)行了元分析，這可以幫助作者理清以下問(wèn)題：

1. 人們研究解決的是哪些任務(wù)？

2. 訓(xùn)練模型使用了哪些數(shù)據(jù)集或模擬器？測(cè)試用的機(jī)器人平臺(tái)有哪些？

3. 研究社區(qū)使用了哪些基礎(chǔ)模型？解決任務(wù)的效果如何？

4. 這些方法中更常使用哪些基礎(chǔ)模型？

表 2-7 和圖 11 給出了分析結(jié)果。

該團(tuán)隊(duì)從中總結(jié)出了一些關(guān)鍵趨勢(shì)：