【#區(qū)塊鏈# #智源的壓軸模型:370億參數(shù)“開源版Gemini”,能理解亂序圖文輸入,還能生成視頻#】
原文來源:GenAI新世界
作者|油醋
圖片來源:由無界 AI?生成
從OpenAI的GPT-4V到谷歌的Gemini,逼著AI寫詩的人少了,多模態(tài)大模型(MLLM)成了新的香餑餑。一篇關于多模態(tài)大模型的綜述很好的概括了其相比于LLM的優(yōu)越:
于是相比于純粹的Coding能力,人們更期待AI能直接把一個白板上的數(shù)學公式變成代碼,能拆解一張復雜的電路圖并且變成一份組裝說明,甚至能自己給一段足球視頻配上解說。
近日,智源研究院發(fā)布了新一代的多模態(tài)基礎模型——Emu2。
以智源人工智能研究院的總工程師林詠華的話來說,這個矚目的開源項目是智源視覺大模型團隊的“年度壓軸”。
今年8月,智源研究院提出了一種新的多模態(tài)大模型訓練范式,發(fā)布并開源了首個打通從多模態(tài)輸入到多模態(tài)輸出的統(tǒng)一多模態(tài)預訓練模型Emu。Emu發(fā)布4個月,在GitHub上積累了720顆星,而此次Emu2發(fā)布不到一周就收獲了300顆星,這個項目現(xiàn)在的星標已經過千。
圖源:GitHub
相較2023年7月發(fā)布(8月開源)的第一代「多模態(tài)to多模態(tài)」Emu模型,Emu2使用了更簡單的建??蚣?,訓練了從編碼器語義空間重建圖像的解碼器、并把模型規(guī)?;?7B參數(shù)實現(xiàn)模型能力和通用性上的突破。
值得一提的是,Emu2是目前最大參數(shù)的開源生成式多模態(tài)模型。
它在大規(guī)模多模態(tài)序列上延續(xù)采用大量圖、文、視頻的序列,進行了統(tǒng)一的自回歸目標訓練,將圖像、視頻等模態(tài)的token序列直接和文本token序列交錯在一起輸入到模型中訓練。從模型表現(xiàn)上來看,Emu2展示了強大的多模態(tài)上下文學習能力,甚至能夠解決需要即時推理的任務,如視覺提示和基于對象的生成。在少樣本設置下,Emu2在多個多模態(tài)理解任務中創(chuàng)造了新的記錄。
圖源:智源研究院
智源研究院的測試結果顯示,Emu2在少樣本多模態(tài)理解任務上大幅超越Flamingo-80B、IDEFICS-80B等主流多模態(tài)預訓練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在內的多項少樣本理解、視覺問答、主體驅動圖像生成等任務上取得最優(yōu)性能。
而當根據(jù)特定指令進行調整時,Emu2在大型多模態(tài)模型的問題回答基準測試和開放式主題驅動生成等具有挑戰(zhàn)性的任務上進一步實現(xiàn)了新的最佳狀態(tài)。
基于Emu2微調的Emu2-Chat和Emu2-Gen模型分別是目前開源的性能最強的視覺理解模型和能力最廣的視覺生成模型。Emu2-Chat可以精準理解圖文指令,實現(xiàn)更好的信息感知、意圖理解和決策規(guī)劃。Emu2-Gen可接受圖像、文本、位置交錯的序列作為輸入,實現(xiàn)靈活、可控、高質量的圖像和視頻生成。
這些成就表明Emu2可以作為基礎模型和通用接口,服務于廣泛的多模態(tài)任務。代碼和模型已公開,以促進未來的研究。目前Emu2的模型、代碼均已開源,并提供Demo試用。
通過對多模態(tài)理解和生成能力的定量評測,Emu2在包括少樣本理解、視覺問答、主體驅動圖像生成在內的多個任務上取得最優(yōu)性能。在少樣本評測上,Emu2在各個場景下顯著超過Flamingo-80B,例如在16-shot TextVQA上較Flamingo-80B 超過12.7個點。
圖源:智源研究院
經過指令微調的Emu2可以對圖像和視頻輸入進行自由問答,以統(tǒng)一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余個圖像和視頻問答評測集上取得最優(yōu)性能。
圖源:智源研究院
在零樣本的DreamBench主體驅動圖像生成測試上,Emu2在較此前方法取得顯著提升,在視覺上更接近于真實圖像,以及在主題和風格上的多樣性和創(chuàng)造性。例如比Salesforce的BLIP-Diffusion的CLIP-I分數(shù)高7.1%, 比微軟的Kosmos-G的DINO分數(shù)高7.2%。
DreamBench是一個用于評估文本到圖像生成模型的基準測試,它包含了多種類型的圖像編輯任務,如重新上下文化、風格化、修改、區(qū)域可控生成和多實體組合等。
Emu2-Gen在DreamBench上展示了其在零樣本設置下的多模態(tài)生成能力。它能夠接受文本、位置和圖像的混合輸入,并在上下文中生成圖像。Emu2-Gen在DreamBench上的表現(xiàn)表明了其在多模態(tài)生成任務中的優(yōu)越性能,比如它能夠根據(jù)單一圖像輸入重建主體,并在零樣本設置下通過強大的視覺解碼能力展示出色的主體忠實度。
主體忠實度(subject fidelity)是一個衡量圖像生成模型在生成圖像時保持輸入圖像中主體特征準確性的指標。在圖像編輯或生成任務中,如果模型能夠準確地保留或重現(xiàn)輸入圖像中的主體元素,如人物、動物、物體等,那么就可以認為模型具有高主體忠實度。
圖源:智源研究院
上下文學習能力是LLM涌現(xiàn)出的重要能力之一,而當我們談論多模態(tài)大模型時,ICL也就擴展到了多模態(tài)ICL(M-ICL)。
生成式預訓練完成后,Emu2 具備全面且強大的多模態(tài)上下文學習能力。關于Emu2的論文中展示了幾個例子,模型可以照貓畫虎的完成對應理解和生成任務。例如在上下文中描述圖像、在上下文中理解視覺提示(覆蓋圖像上的紅圈)、在上下文中生成類似風格的圖像、在上下文中生成對應主體的圖像等。
App Agent看上去很棒
值得一提的是,在訓練過程中Emu2使用了多樣化的數(shù)據(jù)集,包括圖像-文本對、視頻-文本對和交錯的圖像-文本數(shù)據(jù)。這種數(shù)據(jù)的多樣性有助于模型學習到更廣泛的多模態(tài)表示,并提高其在不同任務上的適應性。而通過平均池化將圖像分割成小塊并與文本標記交錯的方法,Emu2的模型結構得以簡化,并提高了效率。
下面來談談Emu2-Chat。
Emu2-Chat的設計目標是成為一個能夠進行多模態(tài)對話的智能體,也是目前我們能夠理解的最熟悉的多模態(tài)大模型的形態(tài)。經過對話數(shù)據(jù)指令微調的Emu2-Chat,可以精準理解圖文指令、更好的完成多模態(tài)理解任務。
比如它可以分辨多邊形:
圖源:智源研究院
讀機場指引:
圖源:智源研究院
甚至可以評估一場車禍的嚴重程度:
圖源:智源研究院
經過高質量圖像微調的Emu2-Gen,可以接受圖像、文本、位置交錯的序列作為輸入,生成對應的高質量圖像,這樣的靈活性帶來高可控性。例如,生成指定位置、指定主體的熊和向日葵:
圖源:智源研究院
生成指定位置、指定主體、指定風格的寵物狗和小鴯鹋的合影圖像:
圖源:智源研究院
更多的根據(jù)圖文序列生成的例子:
圖源:智源研究院
進一步的,Emu2支持基于任意prompt序列的視頻生成。
具體來說,Emu2通過訓練一個基于擴散模型的視頻解碼器來生成視頻。這個解碼器是在一個擴散模型框架內進行訓練的,它能夠將視覺編碼器處理圖像后得到的連續(xù)向量表示解碼為視頻幀序列,這種訓練方法允許模型在不依賴語言模型的情況下,學習如何將視覺信息轉換為連續(xù)的視頻幀。
基于文本、圖文交錯、圖文位置交錯的序列,Emu2可以生成對應的高質量視頻。
圖源:智源研究院
這份新年禮物,AI愛好者們覺得怎么樣呢?
*參考資料:
Generative Multimodal Models are In-Context Learnershttps ,arxiv.org/abs/2312.13286
《Emu2:新一代生成式多模態(tài)模型》,智源研究院
小編推薦下載
相關文章
更多>>資訊排行
同類軟件下載
熱門標簽