hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 全球最強(qiáng)「開源版Gemini」誕生!全能多模態(tài)模型Emu2登熱榜,多項(xiàng)任務(wù)刷新SOTA

全球最強(qiáng)「開源版Gemini」誕生!全能多模態(tài)模型Emu2登熱榜,多項(xiàng)任務(wù)刷新SOTA

時(shí)間:2023-12-27 14:01:00
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #全球最強(qiáng)「開源版Gemini」誕生!全能多模態(tài)模型Emu2登熱榜,多項(xiàng)任務(wù)刷新SOTA#】

原文來源:新智元

圖片來源:由無界 AI?生成

最強(qiáng)的全能多模態(tài)模型來了!就在近日,智源研究院重磅發(fā)布了開源界的「Gemini」——Emu2,一口氣刷新多項(xiàng)SOTA。

過去的18個(gè)月里,我們見證了AI領(lǐng)域許多重要的時(shí)刻。

Llama、Alpaca等眾多開源模型競(jìng)相發(fā)布,不僅與閉源模型的性能相媲美,同時(shí)為每個(gè)人提供了投身AI的機(jī)會(huì):

- 2022年8月,Stable Diffusion問世,讓DALL·E的神秘光環(huán)不再遙不可及,每個(gè)人都能夠召喚出自己的數(shù)字達(dá)芬奇;

- 2023年2月,Meta的Llama及其后續(xù)的語言模型大軍,讓ChatGPT的獨(dú)角戲成為群星爭(zhēng)輝;

- 2023年12月6日,Google DeepMind揭開多模態(tài)巨星Gemini的面紗。

僅僅兩周后,智源研究院便發(fā)布了最新一代生成式多模態(tài)開源模型——Emu2。

很快,這一開源多模態(tài)領(lǐng)域的工作便引起了國(guó)際社區(qū)的廣泛關(guān)注,并登上了HN熱榜第三。

Emu2在HackerNews榜單上引發(fā)關(guān)注

HuggingFace?大V AK轉(zhuǎn)發(fā)

據(jù)悉,這一模型即將推出更輕量的版本,讓技術(shù)玩家也在本地運(yùn)行。

Emu2,通過大規(guī)模自回歸生成式多模態(tài)預(yù)訓(xùn)練,顯著推動(dòng)了多模態(tài)上下文學(xué)習(xí)能力的突破。

Emu2在少樣本多模態(tài)理解任務(wù)上大幅超越Flamingo-80B、IDEFICS-80B等主流多模態(tài)預(yù)訓(xùn)練大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在內(nèi)的多項(xiàng)少樣本理解、視覺問答、主體驅(qū)動(dòng)圖像生成等任務(wù)上取得最優(yōu)性能。

Emu2模型和Flamingo、GPT-4V、Gemini等模型能力對(duì)比情況一覽

「開源版Gemini」來襲

相較2023年7月發(fā)布的第一代「多模態(tài)to多模態(tài)」Emu模型,Emu2使用了更簡(jiǎn)單的建??蚣埽?xùn)練了從編碼器語義空間重建圖像的解碼器、并把模型規(guī)?;?7B參數(shù)實(shí)現(xiàn)模型能力和通用性上的突破。
與此同時(shí),依然采用大量圖、文、視頻的序列,建立基于統(tǒng)一自回歸建模的多模態(tài)預(yù)訓(xùn)練框架,將圖像、視頻等模態(tài)的token序列直接和文本token序列交錯(cuò)在一起輸入到模型中訓(xùn)練。
值得一提的是,Emu2是目前最大的開源生成式多模態(tài)模型,基于Emu2微調(diào)的Emu2-Chat和Emu2-Gen模型分別是目前開源的性能最強(qiáng)的視覺理解模型和能力最廣的視覺生成模型:
- Emu2-Chat可以精準(zhǔn)理解圖文指令,實(shí)現(xiàn)更好的信息感知、意圖理解和決策規(guī)劃。
- Emu2-Gen可以接受圖像、文本、位置交錯(cuò)的序列作為輸入,實(shí)現(xiàn)靈活、可控、高質(zhì)量的圖像和視頻生成。
現(xiàn)在,Emu2的模型、代碼均已開源,并提供Demo試用。


項(xiàng)目:https://baaivision.github.io/emu2/

模型:https://huggingface.co/BAAI/Emu2
代碼:https://github.com/baaivision/Emu/tree/main/Emu2
Demo:https://huggingface.co/spaces/BAAI/Emu2
論文:https://arxiv.org/abs/2312.13286

多項(xiàng)性能刷新SOTA


通過對(duì)多模態(tài)理解和生成能力的定量評(píng)測(cè),Emu2在包括少樣本理解、視覺問答、主體驅(qū)動(dòng)圖像生成在內(nèi)的多個(gè)任務(wù)上取得最優(yōu)性能。
在少樣本評(píng)測(cè)上,Emu2在各個(gè)場(chǎng)景下顯著超過Flamingo-80B,例如在16-shot TextVQA上較Flamingo-80B 超過12.7個(gè)點(diǎn)。


經(jīng)過指令微調(diào)的Emu2可以對(duì)圖像和視頻輸入進(jìn)行自由問答,以統(tǒng)一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余個(gè)圖像和視頻問答評(píng)測(cè)集上取得最優(yōu)性能。


在零樣本的DreamBench主體驅(qū)動(dòng)圖像生成測(cè)試上,較此前方法取得顯著提升,例如比Salesforce的BLIP-Diffusion的CLIP-I分?jǐn)?shù)高7.1%, 比微軟的Kosmos-G的DINO分?jǐn)?shù)高7.2%。



多模態(tài)上下文學(xué)習(xí)

生成式預(yù)訓(xùn)練完成后,Emu2具備全面且強(qiáng)大的多模態(tài)上下文學(xué)習(xí)能力?;趲讉€(gè)例子,模型可以照貓畫虎的完成對(duì)應(yīng)理解和生成任務(wù)。

例如在上下文中描述圖像、在上下文中理解視覺提示(覆蓋圖像上的紅圈)、在上下文中生成類似風(fēng)格的圖像、在上下文中生成對(duì)應(yīng)主體的圖像等。



強(qiáng)大的多模態(tài)理解

經(jīng)過對(duì)話數(shù)據(jù)指令微調(diào)的Emu2-Chat,可以精準(zhǔn)理解圖文指令、更好的完成多模態(tài)理解任務(wù)。

例如推理圖像中的要素、讀指示牌提供引導(dǎo)、按要求提取和估計(jì)指定屬性、回答簡(jiǎn)單的專業(yè)學(xué)科問題等。?



基于任意prompt序列的圖像生成

經(jīng)過高質(zhì)量圖像微調(diào)的Emu2-Gen,可以接受圖像、文本、位置交錯(cuò)的序列作為輸入,生成對(duì)應(yīng)的高質(zhì)量圖像,這樣的靈活性帶來高可控性。

例如生成指定位置、指定主體的熊和向日葵:?


生成指定位置、指定主體、指定風(fēng)格的寵物狗和小鴯鹋的合影圖像:


更多的根據(jù)圖文序列生成的例子:



基于任意prompt序列的視頻生成

進(jìn)一步的,Emu2支持基于任意prompt序列的視頻生成。

基于文本、圖文交錯(cuò)、圖文位置交錯(cuò)的序列,可以生成對(duì)應(yīng)的高質(zhì)量視頻。?


統(tǒng)一的生成式預(yù)訓(xùn)練

Emu2的訓(xùn)練方法是在多模態(tài)序列中進(jìn)行生成式預(yù)訓(xùn)練。

使用統(tǒng)一的自回歸建模方式,根據(jù)當(dāng)前已生成的 token 預(yù)測(cè)下一個(gè)視覺或文本token。

相比Emu1,Emu2使用了更簡(jiǎn)單的建??蚣?、訓(xùn)練了更好的從特征重建原圖的解碼器、并把模型規(guī)?;?7B參數(shù)。

參考資料:

https://baaivision.github.io/emu2/

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載