原文來源:GenAI新世界
作者|油醋
圖片來源:由無界 AI?生成
從OpenAI的GPT-4V到谷歌的Gemini,逼著AI寫詩的人少了,多模態(tài)大模型(MLLM)成了新的香餑餑。一篇關(guān)于多模態(tài)大模型的綜述很好的概括了其相比于LLM的優(yōu)越:
- MLLM更符合人類感知世界的方式。作者人類自然地接受多感官輸入,這些輸入往往是互補和合作的。因此,多模態(tài)信息有望使MLLM更加智能;
- MLLM提供了一個更用戶友好的界面。得益于多模態(tài)輸入的支持,用戶可以以更靈活的方式與智能助手進(jìn)行交互和交流;
- MLLM是一個更全面的任務(wù)解決者。雖然LLM通??梢詧?zhí)行NLP任務(wù),但MLLM通??梢灾С指蠓秶娜蝿?wù)。
于是相比于純粹的Coding能力,人們更期待AI能直接把一個白板上的數(shù)學(xué)公式變成代碼,能拆解一張復(fù)雜的電路圖并且變成一份組裝說明,甚至能自己給一段足球視頻配上解說。
近日,智源研究院發(fā)布了新一代的多模態(tài)基礎(chǔ)模型——Emu2。
以智源人工智能研究院的總工程師林詠華的話來說,這個矚目的開源項目是智源視覺大模型團(tuán)隊的“年度壓軸”。
今年8月,智源研究院提出了一種新的多模態(tài)大模型訓(xùn)練范式,發(fā)布并開源了首個打通從多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)預(yù)訓(xùn)練模型Emu。Emu發(fā)布4個月,在GitHub上積累了720顆星,而此次Emu2發(fā)布不到一周就收獲了300顆星,這個項目現(xiàn)在的星標(biāo)已經(jīng)過千。
圖源:GitHub
相較2023年7月發(fā)布(8月開源)的第一代「多模態(tài)to多模態(tài)」Emu模型,Emu2使用了更簡單的建??蚣?,訓(xùn)練了從編碼器語義空間重建圖像的解碼器、并把模型規(guī)?;?7B參數(shù)實現(xiàn)模型能力和通用性上的突破。
值得一提的是,Emu2是目前最大參數(shù)的開源生成式多模態(tài)模型。
它在大規(guī)模多模態(tài)序列上延續(xù)采用大量圖、文、視頻的序列,進(jìn)行了統(tǒng)一的自回歸目標(biāo)訓(xùn)練,將圖像、視頻等模態(tài)的token序列直接和文本token序列交錯在一起輸入到模型中訓(xùn)練。從模型表現(xiàn)上來看,Emu2展示了強大的多模態(tài)上下文學(xué)習(xí)能力,甚至能夠解決需要即時推理的任務(wù),如視覺提示和基于對象的生成。在少樣本設(shè)置下,Emu2在多個多模態(tài)理解任務(wù)中創(chuàng)造了新的記錄。
圖源:智源研究院
智源研究院的測試結(jié)果顯示,Emu2在少樣本多模態(tài)理解任務(wù)上大幅超越Flamingo-80B、IDEFICS-80B等主流多模態(tài)預(yù)訓(xùn)練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在內(nèi)的多項少樣本理解、視覺問答、主體驅(qū)動圖像生成等任務(wù)上取得最優(yōu)性能。
而當(dāng)根據(jù)特定指令進(jìn)行調(diào)整時,Emu2在大型多模態(tài)模型的問題回答基準(zhǔn)測試和開放式主題驅(qū)動生成等具有挑戰(zhàn)性的任務(wù)上進(jìn)一步實現(xiàn)了新的最佳狀態(tài)。
基于Emu2微調(diào)的Emu2-Chat和Emu2-Gen模型分別是目前開源的性能最強的視覺理解模型和能力最廣的視覺生成模型。Emu2-Chat可以精準(zhǔn)理解圖文指令,實現(xiàn)更好的信息感知、意圖理解和決策規(guī)劃。Emu2-Gen可接受圖像、文本、位置交錯的序列作為輸入,實現(xiàn)靈活、可控、高質(zhì)量的圖像和視頻生成。
這些成就表明Emu2可以作為基礎(chǔ)模型和通用接口,服務(wù)于廣泛的多模態(tài)任務(wù)。代碼和模型已公開,以促進(jìn)未來的研究。目前Emu2的模型、代碼均已開源,并提供Demo試用。
強勢的理解和生成能力
通過對多模態(tài)理解和生成能力的定量評測,Emu2在包括少樣本理解、視覺問答、主體驅(qū)動圖像生成在內(nèi)的多個任務(wù)上取得最優(yōu)性能。在少樣本評測上,Emu2在各個場景下顯著超過Flamingo-80B,例如在16-shot TextVQA上較Flamingo-80B 超過12.7個點。
圖源:智源研究院
經(jīng)過指令微調(diào)的Emu2可以對圖像和視頻輸入進(jìn)行自由問答,以統(tǒng)一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余個圖像和視頻問答評測集上取得最優(yōu)性能。
圖源:智源研究院
在零樣本的DreamBench主體驅(qū)動圖像生成測試上,Emu2在較此前方法取得顯著提升,在視覺上更接近于真實圖像,以及在主題和風(fēng)格上的多樣性和創(chuàng)造性。例如比Salesforce的BLIP-Diffusion的CLIP-I分?jǐn)?shù)高7.1%, 比微軟的Kosmos-G的DINO分?jǐn)?shù)高7.2%。
DreamBench是一個用于評估文本到圖像生成模型的基準(zhǔn)測試,它包含了多種類型的圖像編輯任務(wù),如重新上下文化、風(fēng)格化、修改、區(qū)域可控生成和多實體組合等。
Emu2-Gen在DreamBench上展示了其在零樣本設(shè)置下的多模態(tài)生成能力。它能夠接受文本、位置和圖像的混合輸入,并在上下文中生成圖像。Emu2-Gen在DreamBench上的表現(xiàn)表明了其在多模態(tài)生成任務(wù)中的優(yōu)越性能,比如它能夠根據(jù)單一圖像輸入重建主體,并在零樣本設(shè)置下通過強大的視覺解碼能力展示出色的主體忠實度。
主體忠實度(subject fidelity)是一個衡量圖像生成模型在生成圖像時保持輸入圖像中主體特征準(zhǔn)確性的指標(biāo)。在圖像編輯或生成任務(wù)中,如果模型能夠準(zhǔn)確地保留或重現(xiàn)輸入圖像中的主體元素,如人物、動物、物體等,那么就可以認(rèn)為模型具有高主體忠實度。
圖源:智源研究院
多模態(tài)上下文學(xué)習(xí)
上下文學(xué)習(xí)能力是LLM涌現(xiàn)出的重要能力之一,而當(dāng)我們談?wù)摱嗄B(tài)大模型時,ICL也就擴展到了多模態(tài)ICL(M-ICL)。
生成式預(yù)訓(xùn)練完成后,Emu2 具備全面且強大的多模態(tài)上下文學(xué)習(xí)能力。關(guān)于Emu2的論文中展示了幾個例子,模型可以照貓畫虎的完成對應(yīng)理解和生成任務(wù)。例如在上下文中描述圖像、在上下文中理解視覺提示(覆蓋圖像上的紅圈)、在上下文中生成類似風(fēng)格的圖像、在上下文中生成對應(yīng)主體的圖像等。
App Agent看上去很棒
值得一提的是,在訓(xùn)練過程中Emu2使用了多樣化的數(shù)據(jù)集,包括圖像-文本對、視頻-文本對和交錯的圖像-文本數(shù)據(jù)。這種數(shù)據(jù)的多樣性有助于模型學(xué)習(xí)到更廣泛的多模態(tài)表示,并提高其在不同任務(wù)上的適應(yīng)性。而通過平均池化將圖像分割成小塊并與文本標(biāo)記交錯的方法,Emu2的模型結(jié)構(gòu)得以簡化,并提高了效率。
強大的看圖說話能力
下面來談?wù)凟mu2-Chat。
Emu2-Chat的設(shè)計目標(biāo)是成為一個能夠進(jìn)行多模態(tài)對話的智能體,也是目前我們能夠理解的最熟悉的多模態(tài)大模型的形態(tài)。經(jīng)過對話數(shù)據(jù)指令微調(diào)的Emu2-Chat,可以精準(zhǔn)理解圖文指令、更好的完成多模態(tài)理解任務(wù)。
比如它可以分辨多邊形:
圖源:智源研究院
讀機場指引:
圖源:智源研究院
甚至可以評估一場車禍的嚴(yán)重程度:
圖源:智源研究院
Emu2-Gen的圖像生成有驚喜
經(jīng)過高質(zhì)量圖像微調(diào)的Emu2-Gen,可以接受圖像、文本、位置交錯的序列作為輸入,生成對應(yīng)的高質(zhì)量圖像,這樣的靈活性帶來高可控性。例如,生成指定位置、指定主體的熊和向日葵:
圖源:智源研究院
生成指定位置、指定主體、指定風(fēng)格的寵物狗和小鴯鹋的合影圖像:
圖源:智源研究院
更多的根據(jù)圖文序列生成的例子:
圖源:智源研究院
甚至可以生成視頻了
進(jìn)一步的,Emu2支持基于任意prompt序列的視頻生成。
具體來說,Emu2通過訓(xùn)練一個基于擴散模型的視頻解碼器來生成視頻。這個解碼器是在一個擴散模型框架內(nèi)進(jìn)行訓(xùn)練的,它能夠?qū)⒁曈X編碼器處理圖像后得到的連續(xù)向量表示解碼為視頻幀序列,這種訓(xùn)練方法允許模型在不依賴語言模型的情況下,學(xué)習(xí)如何將視覺信息轉(zhuǎn)換為連續(xù)的視頻幀。
基于文本、圖文交錯、圖文位置交錯的序列,Emu2可以生成對應(yīng)的高質(zhì)量視頻。
圖源:智源研究院
這份新年禮物,AI愛好者們覺得怎么樣呢?
*參考資料:
Generative Multimodal Models are In-Context Learnershttps ,arxiv.org/abs/2312.13286
《Emu2:新一代生成式多模態(tài)模型》,智源研究院