hao86下載站:值得大家信賴的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 微軟37頁(yè)論文逆向工程Sora,得到了哪些結(jié)論?

微軟37頁(yè)論文逆向工程Sora,得到了哪些結(jié)論?

時(shí)間:2024-03-01 15:07:41
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #微軟37頁(yè)論文逆向工程Sora,得到了哪些結(jié)論?#】

報(bào)道:



圖片來(lái)源:由無(wú)界AI生成

文章來(lái)源:機(jī)器之心

作者:機(jī)器之心編輯部


一篇論文回顧 Sora 文生視頻技術(shù)的背景、技術(shù)和應(yīng)用。

追趕 Sora,成為了很多科技公司當(dāng)下階段的新目標(biāo)。研究者們好奇的是:Sora 是如何被 OpenAI 發(fā)掘出來(lái)的?未來(lái)又有哪些演進(jìn)和應(yīng)用方向?

Sora 的技術(shù)報(bào)告披露了一些技術(shù)細(xì)節(jié),但遠(yuǎn)遠(yuǎn)不足以窺其全貌。

在最近的一篇文章中,微軟研究院和理海大學(xué)的研究者根據(jù)已發(fā)表的技術(shù)報(bào)告和逆向工程,首次全面回顧了 Sora 的背景、相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前局限和未來(lái)機(jī)遇。


  • 論文標(biāo)題:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
  • 論文鏈接:https://arxiv.org/pdf/2402.17177.pdf


背景

在分析 Sora 之前,研究者首先盤點(diǎn)了視覺(jué)內(nèi)容生成技術(shù)的沿襲。

在深度學(xué)習(xí)革命之前,傳統(tǒng)的圖像生成技術(shù)依賴于基于手工創(chuàng)建特征的紋理合成和紋理映射等方法。這些方法在生成復(fù)雜而生動(dòng)的圖像方面能力有限。

如圖 3 所示,在過(guò)去十年中,視覺(jué)類的生成模型經(jīng)歷了多樣化的發(fā)展路線。

生成對(duì)抗網(wǎng)絡(luò)(GAN)和變分自動(dòng)編碼器(VAE)的引入標(biāo)志著一個(gè)重要的轉(zhuǎn)折點(diǎn),因?yàn)樗诟鞣N應(yīng)用中都具有非凡的能力。隨后的發(fā)展,如流模型和擴(kuò)散模型,進(jìn)一步增強(qiáng)了圖像生成的細(xì)節(jié)和質(zhì)量。人工智能生成內(nèi)容(AIGC)技術(shù)的最新進(jìn)展實(shí)現(xiàn)了內(nèi)容創(chuàng)建的民主化,使用戶能夠通過(guò)簡(jiǎn)單的文本指令生成所需的內(nèi)容。

在 BERT 和 GPT 成功將 Transformer 架構(gòu)應(yīng)用于 NLP 之后,研究人員嘗試將其遷移到 CV 領(lǐng)域,比如 Transformer 架構(gòu)與視覺(jué)組件相結(jié)合,使其能夠應(yīng)用于下游 CV 任務(wù),包括 Vision Transformer (ViT) 和 Swin Transformer ,從而進(jìn)一步發(fā)展了這一概念。在 Transformer 取得成功的同時(shí),擴(kuò)散模型也在圖像和視頻生成領(lǐng)域取得了長(zhǎng)足進(jìn)步。擴(kuò)散模型為利用 U-Nets 將噪聲轉(zhuǎn)換成圖像提供了一個(gè)數(shù)學(xué)上合理的框架,U-Nets 通過(guò)學(xué)習(xí)在每一步預(yù)測(cè)和減輕噪聲來(lái)促進(jìn)這一過(guò)程。

自 2021 年以來(lái),能夠解釋人類指令的生成語(yǔ)言和視覺(jué)模型,即所謂的多模態(tài)模型,成為了人工智能領(lǐng)域的熱門議題。

CLIP 是一種開(kāi)創(chuàng)性的視覺(jué)語(yǔ)言模型,它將 Transformer 架構(gòu)與視覺(jué)元素相結(jié)合,便于在大量文本和圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過(guò)從一開(kāi)始就整合視覺(jué)和語(yǔ)言知識(shí),CLIP 可以在多模態(tài)生成框架內(nèi)充當(dāng)圖像編碼器。

另一個(gè)值得注意的例子是 Stable Diffusion,它是一種多用途文本到圖像人工智能模型,以其適應(yīng)性和易用性而著稱。它采用 Transformer 架構(gòu)和潛在擴(kuò)散技術(shù)來(lái)解碼文本輸入并生成各種風(fēng)格的圖像,進(jìn)一步說(shuō)明了多模態(tài)人工智能的進(jìn)步。

ChatGPT 2022 年 11 月發(fā)布之后,2023 年出現(xiàn)了大量文本到圖像的商業(yè)化產(chǎn)品,如 Stable Diffusion、Midjourney、DALL-E 3。這些工具能讓用戶通過(guò)簡(jiǎn)單的文字提示生成高分辨率和高質(zhì)量的新圖像,展示了人工智能在創(chuàng)意圖像生成方面的潛力。

然而,由于視頻的時(shí)間復(fù)雜性,從文本到圖像到文本到視頻的過(guò)渡具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了許多努力,但大多數(shù)現(xiàn)有的視頻生成工具,如 Pika 和 Gen-2 ,都僅限于生成幾秒鐘的短視頻片段。

在這種情況下,Sora 是一項(xiàng)重大突破,類似于 ChatGPT 在 NLP 領(lǐng)域的影響。Sora 是第一個(gè)能夠根據(jù)人類指令生成長(zhǎng)達(dá)一分鐘視頻的模型,同時(shí)保持較高的視覺(jué)質(zhì)量和引人注目的視覺(jué)連貫性,從第一幀到最后一幀都具有漸進(jìn)感和視覺(jué)連貫性。

這是一個(gè)里程碑,對(duì)生成式 AI 的研究和發(fā)展產(chǎn)生了深遠(yuǎn)影響。

如圖 2 所示,Sora 在準(zhǔn)確解讀和執(zhí)行復(fù)雜的人類指令方面表現(xiàn)出非凡的能力。該模型可以生成包含多個(gè)角色的詳細(xì)場(chǎng)景,這些角色在錯(cuò)綜復(fù)雜的背景下執(zhí)行特定的動(dòng)作。研究人員認(rèn)為,Sora 不僅能熟練處理用戶生成的文本提示,還能辨別場(chǎng)景中各種元素之間復(fù)雜的相互作用。

此外,Sora 的進(jìn)步還體現(xiàn)在它能夠生成具有細(xì)微運(yùn)動(dòng)和交互描繪的擴(kuò)展視頻序列,克服了早期視頻生成模型所特有的短片段和簡(jiǎn)單視覺(jué)渲染的限制。這種能力代表了人工智能驅(qū)動(dòng)的創(chuàng)意工具的飛躍,使用戶能夠?qū)⑽淖謹(jǐn)⑹鲛D(zhuǎn)換成豐富的視覺(jué)故事。

總之,這些進(jìn)步顯示了 Sora 作為世界模擬器的潛力,它可以提供對(duì)所描繪場(chǎng)景的物理和背景動(dòng)態(tài)的細(xì)微洞察。

為了方便讀者查閱視覺(jué)生成模型的最新進(jìn)展,研究者在論文附錄匯編了近期的代表性工作成果。

技術(shù)推演

Sora 的核心是一個(gè)預(yù)訓(xùn)練的擴(kuò)散 Transformer。事實(shí)證明,Transformer 模型在許多自然語(yǔ)言任務(wù)中都具有可擴(kuò)展性和有效性。與 GPT-4 等強(qiáng)大的大型語(yǔ)言模型(LLM)類似,Sora 可以解析文本并理解復(fù)雜的用戶指令。為了提高視頻生成的計(jì)算效率,Sora 采用了時(shí)空潛在 patch 作為其構(gòu)建模塊。

具體來(lái)說(shuō),Sora 會(huì)將原始輸入視頻壓縮為潛在時(shí)空表示。然后,從壓縮視頻中提取一系列潛在時(shí)空 patch,以囊括短暫時(shí)間間隔內(nèi)的視覺(jué)外觀和運(yùn)動(dòng)動(dòng)態(tài)。這些片段類似于語(yǔ)言模型中的詞 token,為 Sora 提供了詳細(xì)的視覺(jué)短語(yǔ),可用于構(gòu)建視頻。Sora 的文本到視頻生成由擴(kuò)散 Transformer 模型完成。從充滿視覺(jué)噪音的幀開(kāi)始,該模型會(huì)對(duì)圖像進(jìn)行迭代去噪,并根據(jù)提供的文本提示引入特定細(xì)節(jié)。本質(zhì)上講,生成的視頻是通過(guò)多步完善過(guò)程產(chǎn)生的,每一步都會(huì)對(duì)視頻進(jìn)行完善,使其更加符合所需的內(nèi)容和質(zhì)量。

如圖 4 所示,Sora 的核心本質(zhì)是一個(gè)具有靈活采樣維度的擴(kuò)散 Transformer。它由三部分組成:(1)時(shí)空壓縮器首先將原始視頻映射到潛在空間。(2) 然后,ViT 處理 token 化的潛在表示,并輸出去噪潛在表示。(3) 類似 CLIP 的調(diào)節(jié)機(jī)制接收 LLM 增強(qiáng)的用戶指令和潛在的視覺(jué)提示,引導(dǎo)擴(kuò)散模型生成風(fēng)格化或主題化的視頻。經(jīng)過(guò)許多去噪步驟后,生成視頻的潛在表示被獲取,然后通過(guò)相應(yīng)的解碼器映射回像素空間。

在本節(jié)中,研究者對(duì) Sora 所使用的技術(shù)進(jìn)行了逆向工程,并討論了一系列相關(guān)工作。

數(shù)據(jù)預(yù)處理

Sora 的一個(gè)顯著特征是它能夠訓(xùn)練、理解和生成原始尺寸的視頻和圖像,如圖 5 所示。而傳統(tǒng)方法通常會(huì)調(diào)整視頻大小、裁剪或調(diào)整視頻的長(zhǎng)寬比以適應(yīng)統(tǒng)一的視頻和圖像。利用擴(kuò)散 Transformer 架構(gòu),Sora 是第一個(gè)擁抱視覺(jué)數(shù)據(jù)多樣性的模型,可以以多種視頻和圖像格式進(jìn)行采樣,范圍從寬屏 1920x1080p 視頻到垂直 1080x1920p 視頻以及介于兩者之間的視頻,而不影響其原始尺寸。

如圖 6 所示,Sora 生成的視頻能夠更好的展現(xiàn)主題,從而確保在場(chǎng)景中完全捕捉到拍攝對(duì)象,而其他視頻有時(shí)會(huì)導(dǎo)致視圖被截?cái)嗷虿眉?,?dǎo)致拍攝對(duì)象脫離畫(huà)面。

統(tǒng)一視覺(jué)表示。為了有效處理不同持續(xù)時(shí)間、分辨率和高寬比的圖像和視頻,關(guān)鍵在于將所有形式的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示。

Sora 處理的過(guò)程是這樣的:首先將視頻壓縮到低維潛在空間,然后將表示分解為時(shí)空 patch 來(lái)對(duì)視頻進(jìn)行 patch 化(patchifies)。但是回看 Sora 技術(shù)報(bào)告,他們僅僅提出了一個(gè)高層次的想法,這給研究界的復(fù)現(xiàn)帶來(lái)了挑戰(zhàn)。在接下來(lái)的章節(jié)中,本文嘗試對(duì) Sora 的技術(shù)路徑進(jìn)行逆向工程,并且借鑒現(xiàn)有文獻(xiàn),討論可以復(fù)現(xiàn) Sora 的可行替代方案。

首先是視頻壓縮網(wǎng)絡(luò)。Sora 的視頻壓縮網(wǎng)絡(luò)(或視覺(jué)編碼器)旨在降低輸入數(shù)據(jù)(尤其是原始視頻)的維度,并輸出在時(shí)間和空間上壓縮過(guò)的潛在表示,如圖 7 所示。根據(jù)技術(shù)報(bào)告中的參考文獻(xiàn), Sora 壓縮網(wǎng)絡(luò)是基于 VAE 或 VQ-VAE 技術(shù)的。

然而,如果不像技術(shù)報(bào)告中對(duì)視頻和圖像調(diào)整大小和裁剪,那么 VAE 將任何大小的視覺(jué)數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間挑戰(zhàn)巨大。本文總結(jié)了兩種不同的實(shí)現(xiàn)來(lái)解決這個(gè)問(wèn)題:

空間 patch 壓縮:涉及將視頻幀轉(zhuǎn)換為固定大小的 patch,類似于 ViT 和 MAE 中使用的方法(見(jiàn)圖 8),然后將其編碼到潛在空間中,這種方法對(duì)于適應(yīng)不同分辨率和寬高比的視頻特別有效。隨后,將這些空間 token 按時(shí)間序列組織在一起,以創(chuàng)建時(shí)間 - 空間潛在表征。

時(shí)間 - 空間 patch 壓縮:該技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時(shí)間維度,從而提供全面的表示。該技術(shù)不僅僅分析靜態(tài)幀,還考慮幀間的運(yùn)動(dòng)和變化,從而捕獲視頻的動(dòng)態(tài)信息。3D 卷積的利用成為實(shí)現(xiàn)這種集成的一種簡(jiǎn)單而有效的方法。

圖 9 描繪了不同視頻壓縮方式的比較。與空間 patch 壓縮類似,使用具有預(yù)定卷積核參數(shù)(例如固定內(nèi)核大小、步幅和輸出通道)的時(shí)間 - 空間 patch 壓縮會(huì)導(dǎo)致潛在空間維度也不同。為了緩解這一挑戰(zhàn),空間修補(bǔ)(spatial patchification)所采用的方法在這種情況下同樣適用和有效。

總的來(lái)說(shuō),本文基于 VAE 或其變體如 VQ-VQE 逆向工程了兩種 patch 級(jí)壓縮方法,因?yàn)?patch 對(duì)處理不同類型的視頻更加靈活。由于 Sora 旨在生成高保真視頻,因此使用了較大尺寸的 patch 或內(nèi)核尺寸以實(shí)現(xiàn)高效壓縮。這里,本文期望使用固定大小的 patch,以簡(jiǎn)化操作、擴(kuò)展性和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的 patch,以使整個(gè)幀或視頻在潛在空間中的尺寸保持一致。然而,這可能導(dǎo)致位置編碼無(wú)效,并且給解碼器生成具有不同大小潛在 patch 的視頻帶來(lái)挑戰(zhàn)。

壓縮網(wǎng)絡(luò)部分還有一個(gè)關(guān)鍵問(wèn)題:在將 patch 送入擴(kuò)散 Transformer 的輸入層之前,如何處理潛在空間維度的變化(即不同視頻類型的潛在特征塊或 patch 的數(shù)量)。這里討論了幾種解決方案:

根據(jù) Sora 的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn),patch n' pack(PNP)很可能是一種解決方案。如圖 10 所示,PNP 將來(lái)自不同圖像的多個(gè) patch 打包在一個(gè)序列中。這種方法的靈感來(lái)源于自然語(yǔ)言處理中使用的樣本打包,它通過(guò)丟棄 token 來(lái)實(shí)現(xiàn)對(duì)不同長(zhǎng)度輸入的高效訓(xùn)練。在這里,patch 化和 token 嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成,但 Sora 可能會(huì)像 Diffusion Transformer(擴(kuò)散 Transformer)那樣,為 Transformer token 進(jìn)一步 patch 化。

無(wú)論是否有第二輪修補(bǔ),都需要解決兩個(gè)問(wèn)題:如何以緊湊的方式打包這些 token,以及如何控制哪些 token 應(yīng)該被丟棄。

對(duì)于第一個(gè)問(wèn)題,研究者采用了簡(jiǎn)單的「貪心」算法,即在第一個(gè)序列中添加足夠剩余空間的樣本。一旦沒(méi)有樣本可以容納,序列就會(huì)被填充 token 填滿,從而產(chǎn)生批處理操作所需的固定序列長(zhǎng)度。這種簡(jiǎn)單的打包算法可能會(huì)導(dǎo)致大量填充,這取決于輸入長(zhǎng)度的分布情況。另一方面,可以控制采樣的分辨率和幀數(shù),通過(guò)調(diào)整序列長(zhǎng)度和限制填充來(lái)確保高效打包。

對(duì)于第二個(gè)問(wèn)題,直觀的方法是丟棄相似的 token,或者像 PNP 一樣,使用丟棄率調(diào)度器。不過(guò),值得注意的是,三維一致性是 Sora 的優(yōu)良特性之一。在訓(xùn)練過(guò)程中,丟棄 token 可能會(huì)忽略細(xì)粒度的細(xì)節(jié)。因此,研究者認(rèn)為 OpenAI 很可能會(huì)使用超長(zhǎng)的上下文窗口并打包視頻中的所有 token,盡管這樣做的計(jì)算成本很高,例如,多頭注意力算子在序列長(zhǎng)度上表現(xiàn)出二次成本。具體來(lái)說(shuō),一個(gè)長(zhǎng)時(shí)間視頻中的時(shí)空潛在 patch 可以打包到一個(gè)序列中,而多個(gè)短時(shí)間視頻中的時(shí)空潛在 patch 則會(huì)串聯(lián)到另一個(gè)序列中。


建模

  • 圖像 DiT

傳統(tǒng)的擴(kuò)散模型主要利用包含下采樣和上采樣塊的卷積 U-Net 作為去噪網(wǎng)絡(luò)骨干。然而,最近的研究表明,U-Net 架構(gòu)對(duì)擴(kuò)散模型的良好性能并非至關(guān)重要。

通過(guò)采用更靈活的 Transformer 架構(gòu),基于 Transformer 的擴(kuò)散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這一思路,DiT 和 U-ViT 是第一批將視覺(jué) Transformer 用于潛在擴(kuò)散模型的作品。

與 ViT 一樣,DiT 也采用了多頭自注意力層和層范數(shù)和縮放層交錯(cuò)的逐點(diǎn)前饋網(wǎng)絡(luò)。如圖 11 所示,DiT 還通過(guò) AdaLN 進(jìn)行調(diào)節(jié),并增加了一個(gè)用于零初始化的 MLP 層,將每個(gè)殘差塊初始化為一個(gè)恒等函數(shù),從而大大穩(wěn)定了訓(xùn)練過(guò)程。DiT 的可擴(kuò)展性和靈活性得到了經(jīng)驗(yàn)驗(yàn)證。

在 U-ViT 中,如圖 11 所示,將包括時(shí)間、條件和噪聲圖像片段在內(nèi)的所有輸入都視為 token,并在淺層和深層 Transformer 層之間提出了長(zhǎng)跳躍連接。結(jié)果表明,基于 CNN 的 U-Net 中的下采樣和升采樣算子并非總是必要的,U-ViT 在圖像和文本到圖像生成方面取得了破紀(jì)錄的 FID 分?jǐn)?shù)。

與掩蔽自編碼器(MAE)一樣,掩蔽擴(kuò)散 Transformer(MDT)也在擴(kuò)散過(guò)程中加入了掩碼潛在模型,以明確增強(qiáng)圖像合成中對(duì)象語(yǔ)義部分之間的上下文關(guān)系學(xué)習(xí)。

具體來(lái)說(shuō),如圖 12 所示,MDT 在訓(xùn)練過(guò)程中使用邊緣插值(side-interpolated)進(jìn)行額外的掩蔽 token 重建任務(wù),以提高訓(xùn)練效率,并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入進(jìn)行推理。與 DiT 相比,MDT 實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。Hatamizadeh et al. 沒(méi)有使用 AdaLN(即移位和縮放)進(jìn)行時(shí)間條件建模,而是引入了 Diffusion Vision Transformers (DiffiT),它使用與時(shí)間相關(guān)的自注意力(TMSA)模塊對(duì)采樣時(shí)間步長(zhǎng)內(nèi)的動(dòng)態(tài)去噪行為進(jìn)行建模。此外,DiffiT 采用兩種混合分層架構(gòu),分別在像素空間和潛在空間進(jìn)行高效去噪,并在各種生成任務(wù)中取得了新的先進(jìn)成果。總之,這些研究表明,利用視覺(jué) Transformer 進(jìn)行圖像潛在擴(kuò)散取得了可喜的成果,為面向其他模態(tài)的研究鋪平了道路。

  • 視頻 DiT

在文本到圖像(T2I)擴(kuò)散模型的基礎(chǔ)上,一些近期研究專注于發(fā)揮擴(kuò)散 Transformer 在文本到視頻(T2V)生成任務(wù)中的潛力。由于視頻的時(shí)空特性,在視頻領(lǐng)域應(yīng)用 DiT 所面臨的主要挑戰(zhàn)是:i) 如何將視頻從空間和時(shí)間上壓縮到潛在空間,以實(shí)現(xiàn)高效去噪;ii) 如何將壓縮潛在空間轉(zhuǎn)換為 patch,并將其輸入 Transformer ;iii) 如何處理長(zhǎng)序列時(shí)空依賴性,并確保內(nèi)容一致性。

這里將討論基于 Transformer 的去噪網(wǎng)絡(luò)架構(gòu)(該架構(gòu)旨在時(shí)空壓縮的潛在空間中運(yùn)行)下文詳細(xì)回顧了 OpenAI Sora 技術(shù)報(bào)告參考文獻(xiàn)列表中介紹的兩項(xiàng)重要工作(Imagen Video 和 Video LDM)。

Imagen Video 是谷歌研究院開(kāi)發(fā)的文本到視頻生成系統(tǒng),它利用級(jí)聯(lián)擴(kuò)散模型(由 7 個(gè)子模型組成,分別執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率)將文本提示轉(zhuǎn)化為高清視頻。

如圖 13 所示,首先,凍結(jié)的 T5 文本編碼器會(huì)根據(jù)輸入的文本提示生成上下文嵌入。這些嵌入對(duì)于將生成的視頻與文本提示對(duì)齊至關(guān)重要,除了基礎(chǔ)模型外,它們還被注入級(jí)聯(lián)中的所有模型。隨后,嵌入信息被注入基礎(chǔ)模型,用于生成低分辨率視頻,然后由級(jí)聯(lián)擴(kuò)散模型對(duì)其進(jìn)行細(xì)化以提高分辨率?;A(chǔ)視頻和超分辨率模型采用時(shí)空可分離的 3D U-Net 架構(gòu)。該架構(gòu)將時(shí)間注意力層和卷積層與空間對(duì)應(yīng)層結(jié)合在一起,以有效捕捉幀間依賴關(guān)系。它采用 v 預(yù)測(cè)參數(shù)化來(lái)實(shí)現(xiàn)數(shù)值穩(wěn)定性和條件增強(qiáng),以促進(jìn)跨模型的并行訓(xùn)練。

這一過(guò)程包括對(duì)圖像和視頻進(jìn)行聯(lián)合訓(xùn)練,將每幅圖像視為一幀,以利用更大的數(shù)據(jù)集,并使用無(wú)分類器引導(dǎo)來(lái)提高提示保真度。漸進(jìn)式蒸餾法用于簡(jiǎn)化采樣過(guò)程,在保持感知質(zhì)量的同時(shí)大大減少了計(jì)算負(fù)荷。將這些方法和技術(shù)相結(jié)合,Imagen Video 不僅能生成高保真視頻,而且還具有出色的可控性,這體現(xiàn)在它能生成多樣化的視頻、文本動(dòng)畫(huà)和各種藝術(shù)風(fēng)格的內(nèi)容。

Blattmann et al. 建議將二維潛在擴(kuò)散模型轉(zhuǎn)化為視頻潛在擴(kuò)散模型(Video LDM)。為此,他們?cè)?U-Net 主干網(wǎng)和 VAE 解碼器的現(xiàn)有空間層中添加了一些臨時(shí)時(shí)間層,以學(xué)習(xí)如何對(duì)齊單個(gè)幀。這些時(shí)間層在編碼視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,而空間層則保持固定,從而使模型能夠利用大型圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。LDM 的解碼器可進(jìn)行微調(diào),以實(shí)現(xiàn)像素空間的時(shí)間一致性和時(shí)間對(duì)齊擴(kuò)散模型上采樣器,從而提高空間分辨率。

為了生成超長(zhǎng)視頻,作者對(duì)模型進(jìn)行了訓(xùn)練,以預(yù)測(cè)未來(lái)幀的上下文幀數(shù),從而在采樣過(guò)程中實(shí)現(xiàn)無(wú)分類器引導(dǎo)。為實(shí)現(xiàn)高時(shí)間分辨率,作者將視頻合成過(guò)程分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。在級(jí)聯(lián) LDM 之后,使用 DM 將視頻 LDM 輸出進(jìn)一步放大 4 倍,確保高空間分辨率的同時(shí)保持時(shí)間一致性。這種方法能以高效的計(jì)算方式生成全局一致的長(zhǎng)視頻。此外,作者還展示了將預(yù)先訓(xùn)練好的圖像 LDM(如穩(wěn)定擴(kuò)散)轉(zhuǎn)化為文本到視頻模型的能力,只需訓(xùn)練時(shí)間對(duì)齊層,即可實(shí)現(xiàn)分辨率高達(dá) 1280 × 2048 的視頻合成。

語(yǔ)言指令跟隨

為了提高文本到視頻模型遵循文本指令的能力,Sora 采用了與 DALL?E 3 類似的方法。

DALL?E 3 中的指令跟隨是通過(guò)一種描述改進(jìn)方法來(lái)解決的,其假設(shè)是模型所訓(xùn)練的文本 - 圖像對(duì)的質(zhì)量決定了最終文本 - 圖像模型的性能。數(shù)據(jù)質(zhì)量差,尤其是普遍存在的噪聲數(shù)據(jù)和省略了大量視覺(jué)信息的簡(jiǎn)短標(biāo)題,會(huì)導(dǎo)致許多問(wèn)題,如忽略關(guān)鍵詞和詞序,以及誤解用戶意圖等。描述改進(jìn)方法通過(guò)為現(xiàn)有圖像重新添加詳細(xì)的描述性描述來(lái)解決這些問(wèn)題。該方法首先訓(xùn)練圖像描述器(視覺(jué)語(yǔ)言模型),以生成精確的描述性圖像描述。然后,描述器生成的描述性圖像描述將用于微調(diào)文本到圖像模型。

具體來(lái)說(shuō),DALL?E 3 采用對(duì)比式描述器(CoCa),聯(lián)合訓(xùn)練具有 CLIP 架構(gòu)和語(yǔ)言模型目標(biāo)的圖像描述器。該圖像描述器包含一個(gè)圖像編碼器、一個(gè)用于提取語(yǔ)言信息的單模態(tài)文本編碼器和一個(gè)多模態(tài)文本解碼器。它首先在單模態(tài)圖像和文本嵌入之間采用對(duì)比損失,然后對(duì)多模態(tài)解碼器的輸出采用描述損失。由此產(chǎn)生的圖像描述器將根據(jù)對(duì)圖像的高度詳細(xì)描述進(jìn)行進(jìn)一步微調(diào),其中包括主要對(duì)象、周圍環(huán)境、背景、文本、風(fēng)格和色彩。通過(guò)這一步驟,圖像描述器就能為圖像生成詳細(xì)的描述性描述。文本到圖像模型的訓(xùn)練數(shù)據(jù)集由圖像描述生成器生成的重新描述數(shù)據(jù)集和真實(shí)人工編寫(xiě)數(shù)據(jù)混合而成,以確保模型捕捉到用戶輸入。

這種圖像描述改進(jìn)方法帶來(lái)了一個(gè)潛在問(wèn)題:實(shí)際用戶提示與訓(xùn)練數(shù)據(jù)中的描述性圖像描述不匹配。DALL?E 3 通過(guò)上采樣解決了這一問(wèn)題,即使用 LLM 將簡(jiǎn)短的用戶提示改寫(xiě)成詳細(xì)而冗長(zhǎng)的說(shuō)明。這確保了模型在推理時(shí)接收到的文本輸入與模型訓(xùn)練時(shí)的文本輸入保持一致。

為了提高指令跟蹤能力,Sora 采用了類似的描述改進(jìn)方法。這種方法是通過(guò)首先訓(xùn)練一個(gè)能夠?yàn)橐曨l制作詳細(xì)說(shuō)明的視頻描述器來(lái)實(shí)現(xiàn)的。然后,將該視頻描述器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,生成高質(zhì)量的(視頻、描述性描述)對(duì),用于微調(diào) Sora,以提高其指令跟隨能力。

Sora 的技術(shù)報(bào)告沒(méi)有透露視頻描述器是如何訓(xùn)練的細(xì)節(jié)。鑒于視頻描述器是一個(gè)視頻到文本的模型,因此有很多方法來(lái)構(gòu)建它:


一種直接的方法是利用 CoCa 架構(gòu)來(lái)制作視頻描述,方法是獲取視頻的多個(gè)幀,并將每個(gè)幀輸入圖像編碼器,即 VideoCoCa。VideoCoCa 以 CoCa 為基礎(chǔ),重新使用圖像編碼器預(yù)訓(xùn)練的權(quán)重,并將其獨(dú)立應(yīng)用于采樣視頻幀。由此產(chǎn)生的幀 token 嵌入會(huì)被扁平化,并連接成一長(zhǎng)串視頻表示。然后,生成式池化層和對(duì)比池化層會(huì)對(duì)這些扁平化的幀 token 進(jìn)行處理,二者是用對(duì)比損失和描述損失聯(lián)合訓(xùn)練的。

其他可用于構(gòu)建視頻描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。

最后,為確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性描述格式一致,Sora 還執(zhí)行了額外的提示擴(kuò)展步驟,即使用 GPT-4V 將用戶輸入擴(kuò)展為詳細(xì)的描述性提示。

然而,Sora 訓(xùn)練描述器的數(shù)據(jù)收集過(guò)程尚不清楚,而且很可能需要大量人力,因?yàn)檫@可能需要對(duì)視頻進(jìn)行詳細(xì)描述。此外,描述性視頻描述可能會(huì)對(duì)視頻的重要細(xì)節(jié)產(chǎn)生幻覺(jué)。本文作者認(rèn)為,如何改進(jìn)視頻描述器值得進(jìn)一步研究,這對(duì)提高文本到圖像模型的指令跟蹤能力至關(guān)重要。


提示工程

  • 文本提示

文本提示工程對(duì)于指導(dǎo)文本視頻模型制作出既具有視覺(jué)沖擊力又能精確滿足用戶規(guī)格的視頻至關(guān)重要。這就需要制作詳細(xì)的描述來(lái)指導(dǎo)模型,以有效彌合人類創(chuàng)造力與人工智能執(zhí)行能力之間的差距。

Sora 的提示涵蓋了廣泛的場(chǎng)景。近期的作品(如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然語(yǔ)言理解能力來(lái)解碼復(fù)雜指令,并將其呈現(xiàn)為連貫、生動(dòng)和高質(zhì)量的視頻敘事。

如圖 15 所示,「一個(gè)時(shí)髦的女人走在霓虹燈閃爍的東京街頭...... 」就是這樣一個(gè)精心制作的文本提示,它確保 Sora 生成的視頻與預(yù)期的視覺(jué)效果非常吻合。提示工程的質(zhì)量取決于對(duì)詞語(yǔ)的精心選擇、所提供細(xì)節(jié)的具體性以及對(duì)其對(duì)模型輸出影響的理解。例如,圖 15 中的提示詳細(xì)說(shuō)明了動(dòng)作、設(shè)置、角色出場(chǎng),甚至是所期望的場(chǎng)景情緒和氛圍。


  • 圖像提示

圖像提示為即將生成的視頻內(nèi)容和其他元素(如人物、場(chǎng)景和情緒)提供了視覺(jué)錨點(diǎn)。此外,文字提示還可以指示模型將這些元素動(dòng)畫(huà)化,例如,添加動(dòng)作、互動(dòng)和敘事進(jìn)展等層次,使靜態(tài)圖像栩栩如生。通過(guò)使用圖像提示,Sora 可以利用視覺(jué)和文本信息將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)的、由敘事驅(qū)動(dòng)的視頻。

圖 16 展示了人工智能生成的視頻:「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個(gè)獨(dú)特的怪物家族」、「一朵云組成了 SORA 一詞」以及「沖浪者在一座歷史悠久的大廳內(nèi)駕馭潮汐」。這些例子展示了通過(guò) DALL?E 生成的圖像提示 Sora 可以實(shí)現(xiàn)哪些功能。


  • 視頻提示

視頻提示也可用于視頻生成。最近的研究(如 Moonshot 和 Fast-Vid2Vid)表明,好的視頻提示需要「具體」而「靈活」。這樣既能確保模型在特定目標(biāo)(如特定物體和視覺(jué)主題的描繪)上獲得明確的指導(dǎo),又能在最終輸出中允許富有想象力的變化。

例如,在視頻擴(kuò)展任務(wù)中,提示可以指定擴(kuò)展的方向(時(shí)間向前或向后)和背景或主題。在圖 17 (a) 中,視頻提示指示 Sora 向后延伸一段視頻,以探索導(dǎo)致原始起點(diǎn)的事件。如圖 17(b)所示,在通過(guò)視頻提示執(zhí)行視頻到視頻的編輯時(shí),模型需要清楚地了解所需的轉(zhuǎn)換,例如改變視頻的風(fēng)格、場(chǎng)景或氛圍,或改變燈光或情緒等微妙的方面。在圖 17 (c) 中,提示指示 Sora 連接視頻,同時(shí)確保視頻中不同場(chǎng)景中的物體之間平滑過(guò)渡。

雖然以前關(guān)于提示工程的研究主要集中在 LLM 和 LVM 的文本和圖像提示上,但預(yù)計(jì)研究者們對(duì)視頻生成模型的視頻提示的興趣會(huì)越來(lái)越大。


應(yīng)用

隨著以 Sora 為代表的視頻擴(kuò)散模型技術(shù)取得突破,其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。

本文作者指出,這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了單純的視頻創(chuàng)作,為從自動(dòng)內(nèi)容生成到復(fù)雜決策過(guò)程的各種任務(wù)提供了變革潛力。

在論文的第四章中,全面探討了視頻擴(kuò)散模型的當(dāng)前應(yīng)用,希望為實(shí)際部署方案提供一個(gè)廣闊的視角(圖 18):

  • 提高模擬能力:對(duì) Sora 進(jìn)行大規(guī)模訓(xùn)練,是因?yàn)樗軌虺錾啬M物理世界的各個(gè)方面。盡管沒(méi)有明確的三維建模,但 Sora 通過(guò)動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)和遠(yuǎn)距離連貫性表現(xiàn)出三維一致性,包括物體持久性和模擬與世界的簡(jiǎn)單交互。此外,Sora 還能模擬類似 Minecraft 的數(shù)字環(huán)境,在保持視覺(jué)保真度的同時(shí)由基本策略控制,這一點(diǎn)非常有趣。這些新出現(xiàn)的能力表明,可擴(kuò)展視頻模型可以有效地創(chuàng)建人工智能模型,以模擬物理和數(shù)字世界的復(fù)雜性。
  • 提高創(chuàng)造力:想象一下,通過(guò)文字勾勒出一個(gè)概念,無(wú)論是一個(gè)簡(jiǎn)單的物體還是一個(gè)完整的場(chǎng)景,都能在幾秒鐘內(nèi)呈現(xiàn)出逼真或高度風(fēng)格化的視頻。Sora 可以加速設(shè)計(jì)過(guò)程,更快地探索和完善創(chuàng)意,從而大大提高藝術(shù)家、電影制作人和設(shè)計(jì)師的創(chuàng)造力。
  • 推動(dòng)教育創(chuàng)新:長(zhǎng)期以來(lái),視覺(jué)輔助工具一直是教育領(lǐng)域理解重要概念不可或缺的工具。有了 Sora,教育工作者可以輕松地將課堂計(jì)劃從文字變成視頻,吸引學(xué)生的注意力,提高學(xué)習(xí)效率。從科學(xué)模擬到歷史劇,可能性是無(wú)限的。
  • 增強(qiáng)可訪問(wèn)性:提高視覺(jué)領(lǐng)域的可訪問(wèn)性至關(guān)重要。Sora 通過(guò)將文字描述轉(zhuǎn)換為可視內(nèi)容,提供了一種創(chuàng)新的解決方案。這種功能使包括視覺(jué)障礙者在內(nèi)的所有人都能積極參與內(nèi)容創(chuàng)建,并以更有效的方式與他人互動(dòng)。因此,它可以創(chuàng)造一個(gè)更具包容性的環(huán)境,讓每個(gè)人都有機(jī)會(huì)通過(guò)視頻表達(dá)自己的想法。
  • 促進(jìn)新興應(yīng)用:Sora 的應(yīng)用領(lǐng)域非常廣泛。例如,營(yíng)銷人員可以用它來(lái)制作針對(duì)特定受眾描述的動(dòng)態(tài)廣告。游戲開(kāi)發(fā)商可以利用它根據(jù)玩家的敘述生成定制的視覺(jué)效果甚至角色動(dòng)作。

具體而言,以下幾個(gè)行業(yè)將面臨變革:


影視

傳統(tǒng)上,創(chuàng)作電影是一個(gè)艱巨而昂貴的過(guò)程,往往需要數(shù)十年的努力、尖端的設(shè)備和大量的資金投入。先進(jìn)視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新時(shí)代,從簡(jiǎn)單的文本輸入中自主生成電影的夢(mèng)想正在成為現(xiàn)實(shí)。事實(shí)上,研究人員已經(jīng)涉足電影生成領(lǐng)域,將視頻生成模型擴(kuò)展到電影創(chuàng)作中。

MovieFactory 應(yīng)用擴(kuò)散模型從 ChatGPT 制作的精心腳本中生成電影風(fēng)格的視頻,這是一個(gè)重大飛躍。在后續(xù)研究中,MobileVidFactory 只需用戶提供簡(jiǎn)單的文本,就能自動(dòng)生成垂直移動(dòng)視頻。Vlogger 則讓用戶可以制作長(zhǎng)達(dá)一分鐘的 Vlog。

Sora 能夠毫不費(fèi)力地生成引人入勝的電影內(nèi)容,這是這些發(fā)展的縮影,標(biāo)志著電影制作民主化的關(guān)鍵時(shí)刻。它們讓人們看到了一個(gè)人人都能成為電影制作人的未來(lái),大大降低了電影行業(yè)的準(zhǔn)入門檻,并為電影制作引入了一個(gè)新的維度,將傳統(tǒng)的故事講述方式與人工智能驅(qū)動(dòng)的創(chuàng)造力融為一體。這些技術(shù)的影響不僅僅是簡(jiǎn)單化。它們有望重塑電影制作的格局,使其在面對(duì)不斷變化的觀眾喜好和發(fā)行渠道時(shí),變得更加容易獲得,用途更加廣泛。


游戲

游戲產(chǎn)業(yè)一直在尋求突破逼真度和沉浸感界限的方法,但傳統(tǒng)游戲開(kāi)發(fā)往往受到預(yù)先渲染的環(huán)境和腳本事件的限制。通過(guò)擴(kuò)散模型效果實(shí)時(shí)生成動(dòng)態(tài)、高保真視頻內(nèi)容和逼真音效,有望克服現(xiàn)有的限制,為開(kāi)發(fā)人員提供工具來(lái)創(chuàng)建不斷變化的游戲環(huán)境,對(duì)玩家的行為和游戲事件做出有機(jī)的反應(yīng)。這可能包括生成不斷變化的天氣條件、改變地貌,甚至即時(shí)創(chuàng)建全新的設(shè)置,從而使游戲世界更加身臨其境、反應(yīng)更加靈敏。一些方法還能從視頻輸入中合成逼真的沖擊聲,增強(qiáng)游戲音頻體驗(yàn)。

將 Sora 集成到游戲領(lǐng)域后,就能創(chuàng)造出無(wú)與倫比的身臨其境的體驗(yàn),吸引并吸引玩家。游戲的開(kāi)發(fā)、玩耍和體驗(yàn)方式都將得到創(chuàng)新,并為講故事、互動(dòng)和沉浸式體驗(yàn)帶來(lái)新的可能性。


醫(yī)療

盡管具有生成能力,但視頻擴(kuò)散模型在理解和生成復(fù)雜視頻序列方面表現(xiàn)出色,因此特別適用于識(shí)別人體內(nèi)的動(dòng)態(tài)異常,如早期細(xì)胞凋亡、皮膚病變進(jìn)展和不規(guī)則人體運(yùn)動(dòng),這對(duì)早期疾病檢測(cè)和干預(yù)策略至關(guān)重要。此外,MedSegDiffV2 等模型利用 Transformer 的強(qiáng)大功能,以前所未有的精度分割醫(yī)學(xué)影像,使臨床醫(yī)生能夠在各種成像模式中精確定位感興趣的區(qū)域,提高準(zhǔn)確性。

將 Sora 集成到臨床實(shí)踐中,不僅有望完善診斷流程,還能根據(jù)精確的醫(yī)學(xué)影像分析提供量身定制的治療方案,實(shí)現(xiàn)患者護(hù)理的個(gè)性化。然而,這種技術(shù)整合也帶來(lái)了一系列挑戰(zhàn),包括需要采取強(qiáng)有力的數(shù)據(jù)隱私措施和解決醫(yī)療保健中的倫理問(wèn)題。


機(jī)器人

視頻擴(kuò)散模型目前在機(jī)器人技術(shù)中發(fā)揮著重要作用,它展示了一個(gè)新時(shí)代:機(jī)器人可以生成和解釋復(fù)雜的視頻序列,以增強(qiáng)感知和決策。這些模型釋放了機(jī)器人的新能力,使它們能夠與環(huán)境互動(dòng),以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模擴(kuò)散模型引入機(jī)器人學(xué),展示了利用大規(guī)模模型增強(qiáng)機(jī)器人視覺(jué)和理解能力的潛力。潛在擴(kuò)散模型被用于語(yǔ)言指導(dǎo)的視頻預(yù)測(cè),使機(jī)器人能夠通過(guò)預(yù)測(cè)視頻格式的行動(dòng)結(jié)果來(lái)理解和執(zhí)行任務(wù)。此外,視頻擴(kuò)散模型能夠創(chuàng)建高度逼真的視頻序列,創(chuàng)新性地解決了機(jī)器人研究依賴模擬環(huán)境的問(wèn)題。這樣就能為機(jī)器人生成多樣化的訓(xùn)練場(chǎng)景,緩解真實(shí)世界數(shù)據(jù)匱乏所帶來(lái)的限制。

將 Sora 等技術(shù)整合到機(jī)器人領(lǐng)域有望取得突破性發(fā)展。通過(guò)利用 Sora 的強(qiáng)大功能,未來(lái)的機(jī)器人技術(shù)將取得前所未有的進(jìn)步,機(jī)器人可以無(wú)縫導(dǎo)航并與周圍環(huán)境互動(dòng)。

局限性

最后,研究者指出了 Sora 這項(xiàng)新技術(shù)存在的風(fēng)險(xiǎn)問(wèn)題和局限性。

隨著 ChatGPT 、GPT4-V 和 Sora 等復(fù)雜模型的快速發(fā)展,這些模型的能力得到了顯著提高。這些發(fā)展為提高工作效率和推動(dòng)技術(shù)進(jìn)步做出了重大貢獻(xiàn)。然而,這些進(jìn)步也引發(fā)了人們對(duì)這些技術(shù)可能被濫用的擔(dān)憂,包括假新聞的產(chǎn)生、隱私泄露和道德困境。因此,大模型的可信度問(wèn)題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,成為當(dāng)下研究討論的焦點(diǎn)。

雖然 Sora 的成就凸顯了人工智能的重大進(jìn)步,但挑戰(zhàn)依然存在。在描繪復(fù)雜動(dòng)作或捕捉微妙面部表情方面,該模型還有待改進(jìn)。此外,減少生成內(nèi)容中的偏見(jiàn)和防止有害的視覺(jué)輸出等道德方面的考慮也強(qiáng)調(diào)了開(kāi)發(fā)人員、研究人員和更廣泛的社區(qū)負(fù)責(zé)任使用的重要性。確保 Sora 的輸出始終安全、無(wú)偏見(jiàn)是一項(xiàng)主要挑戰(zhàn)。

但伴隨著視頻生成領(lǐng)域的發(fā)展,學(xué)術(shù)界和工業(yè)界的研究團(tuán)隊(duì)都取得了長(zhǎng)足的進(jìn)步。文本到視頻競(jìng)爭(zhēng)模式的出現(xiàn)表明,Sora 可能很快就會(huì)成為動(dòng)態(tài)生態(tài)系統(tǒng)的一部分。這種合作與競(jìng)爭(zhēng)的環(huán)境促進(jìn)了創(chuàng)新,從而提高了視頻質(zhì)量并開(kāi)發(fā)了新的應(yīng)用,有助于提高工人的工作效率,使人們的生活更具娛樂(lè)性。

小編推薦下載

相關(guān)文章

更多>>

同類軟件下載