原文來源:AIGC開放社區(qū)
圖片來源:由無界 AI生成
大模型在生成高質(zhì)量圖像方面表現(xiàn)出色,但在生成視頻任務(wù)中,經(jīng)常會面臨視頻不連貫、圖像模糊、掉幀等問題。
這主要是因為生成式抽樣過程中的隨機性,會在視頻序列中引入無法預(yù)測的幀跳動。同時現(xiàn)有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。
為了解決這些難題,新加坡南洋理工大學(xué)的研究人員開發(fā)了一種Upscale-A-Video框架,無需任何訓(xùn)練便能快速集成到大模型中,提供視頻超分辨率、去噪、還原等強大功能。
論文地址:https://arxiv.org/abs/2312.06640?
開源地址:https://github.com/sczhou/Upscale-A-Video?
項目地址:https://shangchenzhou.com/projects/upscale-a-video/?
Upscale-A-Video主要借鑒了圖像模型中的擴散方法,設(shè)計了一種無需大規(guī)模訓(xùn)練即可快速遷移的框架。
該框架融合了局部和全局兩種策略來維持時間的一致性。局部層,模型通過 3D 卷積和時序注意力層增強特征提取網(wǎng)絡(luò)U-Net在短視頻片段內(nèi)的一致性。
全局層,則通過光流指導(dǎo)的循環(huán)潛碼傳播功能,提供跨視頻片段強化更長時間尺度下的連貫性。
除了時間一致性,Upscale-A-Video還可以通過文本提示指導(dǎo)細節(jié)紋理的生成,不同的提示詞可產(chǎn)生不同風(fēng)格、質(zhì)量。
時序U-Net
U-Net作為特征提取網(wǎng)絡(luò),對視頻質(zhì)量起決定性作用。傳統(tǒng)只考慮空間信息的U-Net在處理視頻時往往會引入高頻誤差,表現(xiàn)為抖動和閃爍。
Upscale-A-Video通過向U-Net中插入3D卷積塊和時序自注意力層,增強其對時間維度的建模能力。這使U-Net可以學(xué)習(xí)視頻數(shù)據(jù)中幀與幀之間的依賴,從而在局部序列內(nèi)實現(xiàn)一致的超分辨重建。
另一方面,研究人員選擇固定U-Net中的空間層參數(shù),只對新增時序?qū)舆M行調(diào)優(yōu)。這種策略的優(yōu)點是可以避免從頭大規(guī)模預(yù)訓(xùn)練,充分利用圖像模型中提取的豐富特征。同時也縮短了網(wǎng)絡(luò)收斂的時間,起到事半功倍的效果。
循環(huán)潛碼
時序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性。而視頻抖動和質(zhì)量波動往往都是長時間范圍內(nèi)的現(xiàn)象。
為解決這一問題,Upscale-A-Video設(shè)計了一個基于光流的循環(huán)潛碼傳播模塊。
該模塊可以在不增加訓(xùn)練參數(shù)的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴大模型感知的時間范圍。
具體來說,該模塊利用預(yù)先估計的光流場,進行逐幀傳播與融合。它根據(jù)光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區(qū)域進行特征傳播。
而超出閾值的區(qū)域則保留當(dāng)前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯誤的累積。
文本提示增強指導(dǎo)
Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據(jù)實際情況,引導(dǎo)模型生成不同風(fēng)格和質(zhì)量的結(jié)果。
文本提示可以指導(dǎo)模型合成更逼真的細節(jié),如動物皮毛、油畫筆觸等。噪聲水平的調(diào)整也提供了在還原與生成間權(quán)衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補充更豐富的細節(jié)。
這種可控制的生成能力進一步增強了Upscale-A-Video處理復(fù)雜真實場景的魯棒性
實驗數(shù)據(jù)
研究人員從定量和定性兩個方面全面驗證了Upscale-A-Video的性能。在四個合成低質(zhì)量視頻基準(zhǔn)上,皆取得了最高的峰值信號噪聲比和最低的流式感知損失。
流式驗證集和AI生成視頻上, Upscale-A-Video的非參考畫質(zhì)評分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質(zhì)量上的優(yōu)勢。
從生成效果對比來看,Upscale-A-Video重建的視頻展現(xiàn)了更高實際分辨率下的細節(jié)層次;運動軌跡更加連貫自然,沒有明顯的抖動和裂縫。這得益于強大的擴散先驗和時空一致性優(yōu)化。
相比之下,卷積神經(jīng)網(wǎng)絡(luò)和擴散等方法會出現(xiàn)模糊不清,失真等效果,無法達到同等水準(zhǔn)。