hao86下載站:值得大家信賴的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 即插即用,完美兼容:SD社區(qū)的圖生視頻插件I2V-Adapter來(lái)了

即插即用,完美兼容:SD社區(qū)的圖生視頻插件I2V-Adapter來(lái)了

時(shí)間:2024-01-14 13:42:07
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #即插即用,完美兼容:SD社區(qū)的圖生視頻插件I2V-Adapter來(lái)了#】

原文來(lái)源:機(jī)器之心

圖片來(lái)源:由無(wú)界 AI生成

圖像到視頻生成(I2V)任務(wù)旨在將靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻,這是計(jì)算機(jī)視覺(jué)領(lǐng)域的一大挑戰(zhàn)。其難點(diǎn)在于從單張圖像中提取并生成時(shí)間維度的動(dòng)態(tài)信息,同時(shí)確保圖像內(nèi)容的真實(shí)性和視覺(jué)上的連貫性。大多數(shù)現(xiàn)有的 I2V 方法依賴于復(fù)雜的模型架構(gòu)和大量的訓(xùn)練數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目標(biāo)。

近期,由快手主導(dǎo)的一項(xiàng)新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發(fā)布,該研究引入了一個(gè)創(chuàng)新的圖像到視頻轉(zhuǎn)換方法,提出了一種輕量級(jí)適配器模塊,即 I2V-Adapter,它能夠在不需要改變現(xiàn)有文本到視頻生成(T2V)模型原始結(jié)構(gòu)和預(yù)訓(xùn)練參數(shù)的情況下,將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)視頻。

  • 論文地址:https://arxiv.org/pdf/2312.16693.pdf
  • 項(xiàng)目主頁(yè):https://i2v-adapter.github.io/index.html
  • 代碼地址:https://github.com/I2V-Adapter/I2V-Adapter-repo

相比于現(xiàn)有方法,I2V-Adapter 大幅減少了可訓(xùn)練參數(shù)(最低可達(dá) 22M,為主流方案例如 Stable Video Diffusion [1] 的 1%),同時(shí)具備與 Stable Diffusion [2] 社區(qū)開(kāi)發(fā)的定制化 T2I 模型(DreamBooth [3]、Lora [4])與控制工具(ControlNet [5])的兼容性。通過(guò)實(shí)驗(yàn),研究者證明了 I2V-Adapter 在生成高質(zhì)量視頻內(nèi)容方面的有效性,為 I2V 領(lǐng)域的創(chuàng)意應(yīng)用開(kāi)辟了新的可能性。

方法介紹

Temporal modeling with Stable Diffusion

相較于圖像生成,視頻生成的獨(dú)特挑戰(zhàn)在于建模視頻幀間的時(shí)序連貫性?,F(xiàn)有大多數(shù)方案都基于預(yù)訓(xùn)練的 T2I 模型(例如 Stable Diffusion 和 SDXL [6])加入時(shí)序模塊對(duì)視頻中的時(shí)序信息進(jìn)行建模。受到 AnimateDiff [7] 的啟發(fā),這是一個(gè)最初為定制化 T2V 任務(wù)而設(shè)計(jì)的模型,它通過(guò)引入與 T2I 模型解耦的時(shí)序模塊建模了時(shí)序信息并且保留了原始 T2I 模型的能力,能夠結(jié)合定制化 T2I 模型生成流暢的視頻。于是,研究者相信預(yù)訓(xùn)練時(shí)序模塊可以看作是通用時(shí)序表征并能夠應(yīng)用于其他視頻生成場(chǎng)景,例如 I2V 生成,且無(wú)需任何微調(diào)。因此,研究者直接利用預(yù)訓(xùn)練 AnimateDiff 的時(shí)序模塊并保持其參數(shù)固定。

Adapter for attention layers

I2V 任務(wù)的另一難點(diǎn)在于保持輸入圖像的 ID 信息,現(xiàn)有方案大多使用一個(gè)預(yù)訓(xùn)練的圖像編碼器對(duì)輸入圖像進(jìn)行編碼,并將此編碼后的特征通過(guò) cross attention 注入至模型中引導(dǎo)去噪的過(guò)程;或在輸入端將圖像與 noised input 在 channel 維度拼接后一并輸入給后續(xù)的網(wǎng)絡(luò)。前者由于圖像編碼器難以捕獲底層信息會(huì)導(dǎo)致生成視頻的 ID 變化,而后者往往需要改變 T2I 模型的結(jié)構(gòu)與參數(shù),訓(xùn)練代價(jià)大且兼容性較差。

為了解決上述問(wèn)題,研究者提出了 I2V-Adapter。具體來(lái)說(shuō),研究者將輸入圖像與 noised input 并行輸入給網(wǎng)絡(luò),在模型的 spatial block 中,所有幀都會(huì)額外查詢一次首幀信息,即 key,value 特征都來(lái)自于不加噪的首幀,輸出結(jié)果與原始模型的 self attention 相加。此模塊中的輸出映射矩陣使用零初始化并且只訓(xùn)練輸出映射矩陣與 query 映射矩陣。為了進(jìn)一步加強(qiáng)模型對(duì)輸入圖像語(yǔ)義信息的理解,研究者引入了預(yù)訓(xùn)練的 content adapter(本文使用的是 IP-Adapter [8])注入圖像的語(yǔ)義特征。

Frame Similarity Prior

為了進(jìn)一步增強(qiáng)生成結(jié)果的穩(wěn)定性,研究者提出了幀間相似性先驗(yàn),用于在生成視頻的穩(wěn)定性和運(yùn)動(dòng)強(qiáng)度之間取得平衡。其關(guān)鍵假設(shè)是,在相對(duì)較低的高斯噪聲水平上,帶噪聲的第一幀和帶噪聲的后續(xù)幀足夠接近,如下圖所示:

于是,研究者假設(shè)所有幀結(jié)構(gòu)相似,并在加入一定量的高斯噪聲后變得難以區(qū)分,因此可以把加噪后的輸入圖像作為后續(xù)幀的先驗(yàn)輸入。為了排除高頻信息的誤導(dǎo),研究者還使用了高斯模糊算子和隨機(jī)掩碼混合。具體來(lái)說(shuō),運(yùn)算由下式給出:

實(shí)驗(yàn)結(jié)果

定量結(jié)果

本文計(jì)算了四種定量指標(biāo)分別是 DoverVQA (美學(xué)評(píng)分)、CLIPTemp (首幀一致性)、FlowScore (運(yùn)動(dòng)幅度) 以及 WarppingError (運(yùn)動(dòng)誤差) 用于評(píng)價(jià)生成視頻的質(zhì)量。表 1 顯示 I2V-Adapter 得到了最高的美學(xué)評(píng)分,在首幀一致性上也超過(guò)了所有對(duì)比方案。此外,I2V-Adapter 生成的視頻有著最大的運(yùn)動(dòng)幅度,并且相對(duì)較低的運(yùn)動(dòng)誤差,表明此模型的能夠生成更加動(dòng)態(tài)的視頻并且同時(shí)保持時(shí)序運(yùn)動(dòng)的準(zhǔn)確性。

定性結(jié)果

Image Animation(左為輸入,右為輸出):

w/ Personalized T2Is(左為輸入,右為輸出):

w/ ControlNet(左為輸入,右為輸出):

總結(jié)

本文提出了 I2V-Adapter,一種即插即用的輕量級(jí)模塊,用于圖像到視頻生成任務(wù)。該方法保留原始 T2V 模型的 spatial block 與 motion block 結(jié)構(gòu)與參數(shù)固定,并行輸入不加噪的第一幀與加噪的后續(xù)幀,通過(guò)注意力機(jī)制允許所有幀與無(wú)噪聲的第一幀交互,從而產(chǎn)生時(shí)序連貫且與首幀一致的視頻。研究者們通過(guò)定量與定性實(shí)驗(yàn)證明了該方法在 I2V 任務(wù)上的有效性。此外,其解耦設(shè)計(jì)使得該方案能夠直接結(jié)合 DreamBooth、Lora 與 ControlNet 等模塊,證明了該方案的兼容性,也促進(jìn)了定制化與可控圖像到視頻生成的研究。

引用

[1] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

[2] High-Resolution Image Synthesis with Latent Diffusion Models

[3] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

[4] LoRA: Low-Rank Adaptation of Large Language Models

[5] Adding Conditional Control to Text-to-Image Diffusion Models

[6] Improving Latent Diffusion Models for High-Resolution Image Synthesis

[7] Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

[8] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載