當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 即插即用，完美兼容：SD社區(qū)的圖生視頻插件I2V-Adapter來(lái)了

即插即用，完美兼容：SD社區(qū)的圖生視頻插件I2V-Adapter來(lái)了

更新時(shí)間：2024-01-14 13:42:07 | 作者：佚名

原文來(lái)源：機(jī)器之心圖片來(lái)源：由無(wú)界AI生成圖像到視頻生成（I2V）任務(wù)旨在將靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻，這是計(jì)算機(jī)視覺(jué)領(lǐng)域的一大挑戰(zhàn)。其難點(diǎn)在于從單張圖像中提取并生成時(shí)間維度的動(dòng)態(tài)信息，同時(shí)確保圖像內(nèi)容的真實(shí)性和視覺(jué)上的連貫性。大多數(shù)現(xiàn)有的I2V方法依賴(lài)于復(fù)雜的模型架構(gòu)和大量的訓(xùn)練數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目標(biāo)。近期，由快手主導(dǎo)的一項(xiàng)新研究成果《I2V-Adapte...

原文來(lái)源：機(jī)器之心

圖片來(lái)源：由無(wú)界 AI生成

圖像到視頻生成（I2V）任務(wù)旨在將靜態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻，這是計(jì)算機(jī)視覺(jué)領(lǐng)域的一大挑戰(zhàn)。其難點(diǎn)在于從單張圖像中提取并生成時(shí)間維度的動(dòng)態(tài)信息，同時(shí)確保圖像內(nèi)容的真實(shí)性和視覺(jué)上的連貫性。大多數(shù)現(xiàn)有的 I2V 方法依賴(lài)于復(fù)雜的模型架構(gòu)和大量的訓(xùn)練數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目標(biāo)。

近期，由快手主導(dǎo)的一項(xiàng)新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發(fā)布，該研究引入了一個(gè)創(chuàng)新的圖像到視頻轉(zhuǎn)換方法，提出了一種輕量級(jí)適配器模塊，即 I2V-Adapter，它能夠在不需要改變現(xiàn)有文本到視頻生成（T2V）模型原始結(jié)構(gòu)和預(yù)訓(xùn)練參數(shù)的情況下，將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)視頻。

論文地址：https://arxiv.org/pdf/2312.16693.pdf
項(xiàng)目主頁(yè)：https://i2v-adapter.github.io/index.html
代碼地址：https://github.com/I2V-Adapter/I2V-Adapter-repo

相比于現(xiàn)有方法，I2V-Adapter 大幅減少了可訓(xùn)練參數(shù)（最低可達(dá) 22M，為主流方案例如 Stable Video Diffusion [1] 的 1%），同時(shí)具備與 Stable Diffusion [2] 社區(qū)開(kāi)發(fā)的定制化 T2I 模型（DreamBooth [3]、Lora [4]）與控制工具（ControlNet [5]）的兼容性。通過(guò)實(shí)驗(yàn)，研究者證明了 I2V-Adapter 在生成高質(zhì)量視頻內(nèi)容方面的有效性，為 I2V 領(lǐng)域的創(chuàng)意應(yīng)用開(kāi)辟了新的可能性。

方法介紹

Temporal modeling with Stable Diffusion

相較于圖像生成，視頻生成的獨(dú)特挑戰(zhàn)在于建模視頻幀間的時(shí)序連貫性?，F(xiàn)有大多數(shù)方案都基于預(yù)訓(xùn)練的 T2I 模型（例如 Stable Diffusion 和 SDXL [6]）加入時(shí)序模塊對(duì)視頻中的時(shí)序信息進(jìn)行建模。受到 AnimateDiff [7] 的啟發(fā)，這是一個(gè)最初為定制化 T2V 任務(wù)而設(shè)計(jì)的模型，它通過(guò)引入與 T2I 模型解耦的時(shí)序模塊建模了時(shí)序信息并且保留了原始 T2I 模型的能力，能夠結(jié)合定制化 T2I 模型生成流暢的視頻。于是，研究者相信預(yù)訓(xùn)練時(shí)序模塊可以看作是通用時(shí)序表征并能夠應(yīng)用于其他視頻生成場(chǎng)景，例如 I2V 生成，且無(wú)需任何微調(diào)。因此，研究者直接利用預(yù)訓(xùn)練 AnimateDiff 的時(shí)序模塊并保持其參數(shù)固定。

Adapter for attention layers

I2V 任務(wù)的另一難點(diǎn)在于保持輸入圖像的 ID 信息，現(xiàn)有方案大多使用一個(gè)預(yù)訓(xùn)練的圖像編碼器對(duì)輸入圖像進(jìn)行編碼，并將此編碼后的特征通過(guò) cross attention 注入至模型中引導(dǎo)去噪的過(guò)程；或在輸入端將圖像與 noised input 在 channel 維度拼接后一并輸入給后續(xù)的網(wǎng)絡(luò)。前者由于圖像編碼器難以捕獲底層信息會(huì)導(dǎo)致生成視頻的 ID 變化，而后者往往需要改變 T2I 模型的結(jié)構(gòu)與參數(shù)，訓(xùn)練代價(jià)大且兼容性較差。

為了解決上述問(wèn)題，研究者提出了 I2V-Adapter。具體來(lái)說(shuō)，研究者將輸入圖像與 noised input 并行輸入給網(wǎng)絡(luò)，在模型的 spatial block 中，所有幀都會(huì)額外查詢(xún)一次首幀信息，即 key，value 特征都來(lái)自于不加噪的首幀，輸出結(jié)果與原始模型的 self attention 相加。此模塊中的輸出映射矩陣使用零初始化并且只訓(xùn)練輸出映射矩陣與 query 映射矩陣。為了進(jìn)一步加強(qiáng)模型對(duì)輸入圖像語(yǔ)義信息的理解，研究者引入了預(yù)訓(xùn)練的 content adapter（本文使用的是 IP-Adapter [8]）注入圖像的語(yǔ)義特征。

Frame Similarity Prior

為了進(jìn)一步增強(qiáng)生成結(jié)果的穩(wěn)定性，研究者提出了幀間相似性先驗(yàn)，用于在生成視頻的穩(wěn)定性和運(yùn)動(dòng)強(qiáng)度之間取得平衡。其關(guān)鍵假設(shè)是，在相對(duì)較低的高斯噪聲水平上，帶噪聲的第一幀和帶噪聲的后續(xù)幀足夠接近，如下圖所示：

于是，研究者假設(shè)所有幀結(jié)構(gòu)相似，并在加入一定量的高斯噪聲后變得難以區(qū)分，因此可以把加噪后的輸入圖像作為后續(xù)幀的先驗(yàn)輸入。為了排除高頻信息的誤導(dǎo)，研究者還使用了高斯模糊算子和隨機(jī)掩碼混合。具體來(lái)說(shuō)，運(yùn)算由下式給出：

實(shí)驗(yàn)結(jié)果

定量結(jié)果

本文計(jì)算了四種定量指標(biāo)分別是 DoverVQA (美學(xué)評(píng)分)、CLIPTemp (首幀一致性)、FlowScore (運(yùn)動(dòng)幅度) 以及 WarppingError (運(yùn)動(dòng)誤差) 用于評(píng)價(jià)生成視頻的質(zhì)量。表 1 顯示 I2V-Adapter 得到了最高的美學(xué)評(píng)分，在首幀一致性上也超過(guò)了所有對(duì)比方案。此外，I2V-Adapter 生成的視頻有著最大的運(yùn)動(dòng)幅度，并且相對(duì)較低的運(yùn)動(dòng)誤差，表明此模型的能夠生成更加動(dòng)態(tài)的視頻并且同時(shí)保持時(shí)序運(yùn)動(dòng)的準(zhǔn)確性。

定性結(jié)果

Image Animation（左為輸入，右為輸出）：

w/ Personalized T2Is（左為輸入，右為輸出）：

w/ ControlNet（左為輸入，右為輸出）：

總結(jié)

本文提出了 I2V-Adapter，一種即插即用的輕量級(jí)模塊，用于圖像到視頻生成任務(wù)。該方法保留原始 T2V 模型的 spatial block 與 motion block 結(jié)構(gòu)與參數(shù)固定，并行輸入不加噪的第一幀與加噪的后續(xù)幀，通過(guò)注意力機(jī)制允許所有幀與無(wú)噪聲的第一幀交互，從而產(chǎn)生時(shí)序連貫且與首幀一致的視頻。研究者們通過(guò)定量與定性實(shí)驗(yàn)證明了該方法在 I2V 任務(wù)上的有效性。此外，其解耦設(shè)計(jì)使得該方案能夠直接結(jié)合 DreamBooth、Lora 與 ControlNet 等模塊，證明了該方案的兼容性，也促進(jìn)了定制化與可控圖像到視頻生成的研究。

引用

[1] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

[2] High-Resolution Image Synthesis with Latent Diffusion Models

[3] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

[4] LoRA: Low-Rank Adaptation of Large Language Models

[5] Adding Conditional Control to Text-to-Image Diffusion Models

[6] Improving Latent Diffusion Models for High-Resolution Image Synthesis

[7] Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

[8] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。