當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 專訪｜VideoPoet核心作者：揭秘谷歌革命性視頻生成技術(shù)

專訪｜VideoPoet核心作者：揭秘谷歌革命性視頻生成技術(shù)

更新時(shí)間：2024-01-05 09:38:00 | 作者：佚名

原文來源：深思SenseAI 圖片來源：由無界AI生成在全球新一代AI獨(dú)角獸的競賽中，視頻生成技術(shù)作為最具潛力的領(lǐng)域之一備受關(guān)注。最近，Google推出了名為VideoPoet的大型語言模型，它不僅能夠從文本和圖像生成視頻，還具備風(fēng)格遷移、視頻聲音頻等功能，其動(dòng)作生成的豐富性和流暢度令人印象深刻，被廣泛認(rèn)為是革命性的zero-shot視頻生成工具。本期專...

原文來源：深思SenseAI

圖片來源：由無界 AI生成

在全球新一代 AI 獨(dú)角獸的競賽中，視頻生成技術(shù)作為最具潛力的領(lǐng)域之一備受關(guān)注。最近，Google 推出了名為 VideoPoet 的大型語言模型，它不僅能夠從文本和圖像生成視頻，還具備風(fēng)格遷移、視頻聲音頻等功能，其動(dòng)作生成的豐富性和流暢度令人印象深刻，被廣泛認(rèn)為是革命性的 zero-shot 視頻生成工具。本期專訪特邀 VideoPoet 的核心作者于力軍同學(xué)和 Google 機(jī)器學(xué)習(xí)工程師 Yishuai，與 SenseAI 一同進(jìn)行技術(shù)思考與應(yīng)用探索。

視頻生成的技術(shù)層面是在現(xiàn)有的技術(shù)框架下的規(guī)模化還是會(huì)有更加創(chuàng)新的框架出現(xiàn)，目前是未知的，唯一確定的是，今年的視頻生成技術(shù)還會(huì)有新一輪的迭代，然后走向成熟，最終促使應(yīng)用層的又一輪爆發(fā)。

視頻生成的應(yīng)用層面，是短視頻先行，消費(fèi)側(cè)需求時(shí)長更短，質(zhì)量要求更靈活；同時(shí)供給側(cè)，受制于現(xiàn)有算法架構(gòu)和算力消耗，ROI 還未商業(yè)可行；內(nèi)容品類上，看好動(dòng)漫動(dòng)畫，自然風(fēng)光和教育方向。

未來視頻生成是混合動(dòng)態(tài)的：拍攝不會(huì)被取代，依然是重要素材的來源，但生成是很好的補(bǔ)充、延展、想象具像化。

模型即產(chǎn)品：AI應(yīng)該在人類創(chuàng)作和具像化過程中的每一步去適應(yīng)人類，輔助人類，這個(gè)前提就是模型具備了多模態(tài)輸入能力和下游生成編輯能力的最小單元，和模型的交互是極簡和動(dòng)態(tài)的，在任意時(shí)間維度和生成狀態(tài)中，都可以靈活的輸入和編輯，模型會(huì)自己去理解和生成。

01 背景與研究方向

在本期播客中的嘉賓于力軍，目前是卡內(nèi)基梅隆大學(xué)的人工智能領(lǐng)域的博士生。于博士的學(xué)術(shù)之旅始于北京大學(xué)，專業(yè)為計(jì)算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)。他在 CMU 的研究主要是與?Alexander?Hauptmann?博士合作，聚焦于多媒體的研究。他們的團(tuán)隊(duì)從多媒體檢索起步，逐漸過渡到視頻理解，并最終專注于視頻生成技術(shù)的創(chuàng)新。于博士特別致力于多模態(tài)大型模型的研究，重點(diǎn)是多任務(wù)生成的視角。此外，他與谷歌有著長期的合作關(guān)系，他在谷歌的導(dǎo)師是Jiang Lu老師，他是CMU研究組的畢業(yè)生，目前在谷歌擔(dān)任研究科學(xué)家，專注于視頻生成領(lǐng)域。他們在谷歌的很多重要研究都是圍繞這一主題展開的。

02 技術(shù)架構(gòu) Q&A

SenseAI：基于LLM的視頻生成模型會(huì)不會(huì)在長期比Diffusion 類型的模型更具潛力和優(yōu)勢？LLM的架構(gòu)和 Diffusion 架構(gòu)圖片和視頻生成，未來是否會(huì)到一個(gè)趨勢，就是各自生成的質(zhì)量都非常接近，但是 LLM 架構(gòu)在視頻內(nèi)容和邏輯上會(huì)更突出。還是會(huì)有別的趨勢？

于博士：這是一個(gè)很好的問題，剛才問題當(dāng)中所拋出的這些觀點(diǎn)，我大體上是同意。因?yàn)楝F(xiàn)在在語言領(lǐng)域LLM 發(fā)展的非常好，它有這個(gè)很強(qiáng)的邏輯能力，推理能力，然后同時(shí)，現(xiàn)在又具有這個(gè)非常好的多模態(tài)泛化能力，那么我是相信使用 LLM 作為 backbone 去做這個(gè)視頻生成，在各方面的擴(kuò)展性，這個(gè)邏輯一致性上會(huì)比將來的 Diffusion 模型更好。當(dāng)然這是建立在我們現(xiàn)在的觀測上，也許有一天這個(gè) Diffusion Model 也會(huì)產(chǎn)生一定的進(jìn)步。但視覺質(zhì)量上，將來可能是會(huì)逐漸飽和的，現(xiàn)在我們也看到一些這個(gè)產(chǎn)品出來，已經(jīng)達(dá)到了一定程度上的可能性。而將來我們可能更多是在內(nèi)容上去進(jìn)行推進(jìn)，然后其實(shí)這兩個(gè)技術(shù)路線也不是非此即彼的，我們也可以這個(gè)結(jié)合 LLM作為這個(gè)Latent Model（潛在模型）去利用它的這個(gè)多模態(tài)的zero shot和邏輯性。最后，我們再結(jié)合上一定的 Diffusion 的高質(zhì)量的能力去做最后一步，從Latent space回到Pixel space的過程。將來也可能是一個(gè)混合的架構(gòu)。

SenseAI：介紹一下VideoPoet獨(dú)特的架構(gòu)設(shè)計(jì)

于博士：它是概念上非常簡單的模型。我們就是利用了一個(gè)大語言模型結(jié)構(gòu)的 Causal 的 Transformer。然后這個(gè) Transformer，完全是在 Token Space進(jìn)行操作，那么我們的 Token，包括圖像和視頻 Token，然后也包括音頻 Token，同時(shí)還包括這個(gè)文本的這個(gè)Embedding。那么我們怎么把這些模態(tài)都統(tǒng)一到這個(gè) Token space，我們使用了每一個(gè)模態(tài)特有的 Tokenizer 。這里面圖片和視頻，我們使用了我之前設(shè)計(jì)的 MAGVIT-v2 Tokenizer。我們可以把圖片和任意長度的視頻 Tokenize 到一個(gè)空間里，然后同時(shí)它有很高的重建的效果，所以保證了我們 Video 的生成質(zhì)量。然后音頻部分，我們使用的是 SoundStream 這是一個(gè)已經(jīng)成熟的 Tokenizer。然后文本部分，我們就是使用已有的 T5 去 Embedding，這些模態(tài)混合在一塊兒，然后我們進(jìn)行大量的多模態(tài)，多任務(wù)的預(yù)訓(xùn)練。使得他能夠進(jìn)行文生視頻，圖生視頻、視頻生音頻，風(fēng)格轉(zhuǎn)換以及視頻編輯等等其他各種應(yīng)用。

（參考：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html）

SenseAI：把這個(gè) LLM 的基于一個(gè)多模態(tài)詞匯表進(jìn)行訓(xùn)練，然后能夠生成就您講的高保真、長時(shí)間，而且動(dòng)作的復(fù)雜度很高的這類視頻。我們想了解在里面語音模型它提供怎么樣價(jià)值？我們對(duì)語言模型的選擇會(huì)有很高要求嗎？

于博士：?其實(shí)在這個(gè)里面，language model是比較重要的一個(gè)模型。當(dāng)然我們說這些 tokenizer 也很重要，那 tokenizer 其實(shí)對(duì)每個(gè)模態(tài)進(jìn)行一定比例的壓縮，然后使得 language model 更好的學(xué)習(xí)。而最后，我們把所有的模態(tài)都放上 token ，然后這里面的每一個(gè)生成任務(wù)，都是由這個(gè) language model 它在進(jìn)行學(xué)習(xí)的，然后它在大規(guī)模的預(yù)訓(xùn)練之后，可以進(jìn)行很好的這個(gè) generalization 以及 transfer。對(duì)于model 的選擇有很高的要求，目前來看，我們需要不小的參數(shù)量來放在這個(gè) language model 里面，使得它才能學(xué)習(xí)到我們目前展現(xiàn)出來這些能力。但是你說如果具體到這個(gè)LLaMA、 GPT 還是 PaML 或者 Gemini 這種級(jí)別的 architecture comparison，我覺得目前可能不會(huì)有那么大的影響。它是一個(gè) Causal Language Model這件事很重要。

SenseAI：這樣也可以保證或是幫助我們的模型，隨著 backbone 的進(jìn)化而不斷進(jìn)化對(duì)嗎？

于博士：?對(duì)的，我們可以始終就是利用 language space 最新的這個(gè)研究來提升我們視頻生成以及多模態(tài)的生成質(zhì)量。

SenseAI：明白，因?yàn)榍懊婺阋呀?jīng)提到關(guān)于這個(gè)MAGVIT 的 tokenizer 的使用了，所以我們想了解一下，對(duì)于這個(gè) tokenizer 的選擇上，我們其實(shí)很關(guān)注它的哪些性能，它對(duì)穩(wěn)我們這個(gè)視頻生成的穩(wěn)定性上都提供怎么樣的幫助，未來，我們可能還會(huì)嘗試一些其他的怎么樣的一些 tokenizer？

于博士：?對(duì) tokenizer 其實(shí)是以 transformer 作為backbone的，就是以 language model 的視頻生成模型里面非常重要的一個(gè)模塊，我們很早就開始做這個(gè)系列了，大概去年夏天的時(shí)候。那個(gè)時(shí)候最早我們做了一版這個(gè) 3D tokenizer，當(dāng)時(shí)是市面上最好的。然后我們基于這個(gè) tokenizer 試圖去 scale up這個(gè)事情， transformer 模型做到一定程度之后，我們就會(huì)發(fā)現(xiàn)它仍然被這個(gè)tokenizer bottleneck。

所以今年這個(gè)夏天左右的時(shí)候，我們就開始了這個(gè) MAGVIT-V2 的tokenizer的研究，主要的目標(biāo)有兩個(gè)，一個(gè)是我們希望大幅提升這個(gè)視頻的視覺的質(zhì)量。同時(shí)，我們也希望能夠盡可能利用更多的更大的詞表。這是因?yàn)橹暗囊曈X tokenizer，通常它只有 1000 到 8000的詞表大小。對(duì)于 language model 來說，這其實(shí)是非常小的，不太好發(fā)揮出它現(xiàn)在這么大規(guī)模參數(shù)的能力。而我們常見的語言模型，通常在 200K 左右，那么我們在 MAGVIT-V2 里面通過一個(gè)創(chuàng)新的quantization 辦法，使得我們的詞表也可以 scale 到200K 甚至更大。然后同時(shí)我們在 MAGVIT-V2 里面進(jìn)行了一個(gè)改動(dòng)，就是我們不再用這個(gè)純 3D的model，我們已經(jīng)發(fā)現(xiàn)它比 2D 要很好很多，但是其實(shí)比單純的這個(gè) 3D modeling 更好的一個(gè)變種是causal 3D modeling，就是我們的結(jié)合它視頻在時(shí)間軸上的這個(gè)自然屬性，永遠(yuǎn)只依賴前面的幀。然后這樣的話使得我們第一幀就是單獨(dú)的，使得它可以做圖片和視頻的 joint tokenization。同時(shí)，它可以做視頻的無限長的 tokenization，然后這個(gè)也在結(jié)合causal LLM的時(shí)候，使得我們對(duì)后面的token預(yù)測要簡單很多，因?yàn)樗肋h(yuǎn)是一個(gè)單向的dependency，

在未來的話，tokenizer 我覺得還有很大的提升空間，因?yàn)槟壳皝砜?，它仍然是一個(gè)很小的模型，只有幾百 million 的參數(shù)，相比于我們的這個(gè) VideoPoet的 Transformer 來說是非常小的，然后在 scalability上它可能仍然是一個(gè) bottleneck。然后我們會(huì)去探索如何把這個(gè)模型做大？如何去修改其中目前的一些訓(xùn)練的目標(biāo)，比如說它仍然設(shè)計(jì)了一個(gè)GAN loss，沒有那么穩(wěn)定，那么有沒有可能用 diffusion 或者consistency 進(jìn)行替代，這也是值得一個(gè)研究的課題。

（參考 https://magvit.cs.cmu.edu/v2/）

SenseAI：以后未來任何使用圖片做圖形encoding的地方都能用上這個(gè) tokenizer，如果是這樣情況下，那么 diffusion 類型的模型有沒有可能也能先用MAGVIT 的 tokenizer。有沒有這類的可能？

于博士：?這是非常好的問題，我們是希望未來需要使用圖片 encoder 的地方都可以使用它。然后同時(shí)我們在進(jìn)行 MAGVIT-V2 設(shè)計(jì)的時(shí)候也進(jìn)行了多方面的評(píng)估。首先，我們在標(biāo)準(zhǔn)的這個(gè) benchmark 上獲得了一定效果；然后同時(shí)我們也使用它單純進(jìn)行了video compression，我們發(fā)現(xiàn)它在相同 bandwidth下，它的 compression quality 就是在你重建出來之后，是比目前廠商用的 H265 要更好的。是和下一代的算法叫 H266VVC，是可以打一個(gè)平手的。當(dāng)然目前的 tokenizer，在壓縮和解壓縮過程中，它需要用到 GPU 或者 CPU 可能 cost 還會(huì)更大一點(diǎn)。然后第三點(diǎn)就是我們也進(jìn)行了這個(gè)視頻理解方面的這個(gè)評(píng)測，發(fā)現(xiàn)這個(gè) tokenizer 的 token對(duì)于自監(jiān)督學(xué)習(xí)，然后用于動(dòng)作識(shí)別等等的應(yīng)用也是有幫助的。然后涉及到 diffusion model，這也是一個(gè)非常好的問題。最近也有另一個(gè)工作，它就是使用了MAGVIT-V2 的 encoder 和 decoder，然后在這個(gè)enorder 和 decoder的這個(gè) latent space里面做了一個(gè) latent diffusion，那么 diffusion model一樣可以用我們的 tokenizer 或者更準(zhǔn)確的說，我們這一類tokenizer 目前已經(jīng)測試過幾個(gè) transformer，全都是有非常好的性能。

SenseAI：關(guān)于這個(gè)動(dòng)作的豐富性和合理性，一直是這個(gè)視頻生成的一個(gè)問題。我們跟其他團(tuán)隊(duì)交流過程中，大家也會(huì)提到類似這個(gè)世界模型的這種概念就是對(duì)環(huán)境物體交互基礎(chǔ)理解，可以解決這個(gè)問題，您對(duì)這方面怎么看，在這個(gè)方面上有沒有持續(xù)的優(yōu)化。

于博士：?動(dòng)作的豐富性，我覺得目前就是2023年，已經(jīng)過去了，大家也看到了很多提升。這里面比較關(guān)鍵的點(diǎn)，在一開始的時(shí)候，大家都是從 stable diffusion 之類的模型初始化，它是一個(gè)二級(jí)的模型，然后我們給它稍微加一點(diǎn) temporal attention或者這個(gè) temporal convolution。試圖把它改造成一個(gè)視頻模型。那么這個(gè)過程中，它對(duì)時(shí)間的建模其實(shí)是比較弱的，所以使得我們看到它都不怎么動(dòng)，動(dòng)作的豐富性，這個(gè)幅度都比較差。而這個(gè) MAGVIT 系列就是，包括今年出來的其他一些工作都是使用了原生的 3D 建模。那么 3D 建模就是說我們同時(shí)去學(xué)習(xí)時(shí)間和空間上的這個(gè)變換。那么這樣一來，我們獲得的這個(gè)視頻，它的動(dòng)作幅度就會(huì)更大一些。連貫性會(huì)更好一些，當(dāng)然，我們說局部的動(dòng)作。在更大的范圍內(nèi)，我們怎么能獲得更連貫的，更加豐富的，甚至這個(gè)更加合理的動(dòng)作，可能就要依賴我們中間這個(gè)大模型。隨著它的參數(shù)量提高它能力的增強(qiáng)，就像你說的對(duì)世界的理解的更深刻了，可能它自己學(xué)習(xí)出了這個(gè)世界的物理規(guī)律，那么它生成出來的內(nèi)容也就是遵循我們?nèi)祟惖某ＷR(shí)，看起來就非常合理，我覺得是仍然需要前進(jìn)一段時(shí)間，但是我是相信它的，這可能就是將來我們做多模態(tài)大模型的一條思路，可能語言不是那么必要的，但是我們通過這個(gè)原始世界的自然觀察。把這些規(guī)律學(xué)出來，這對(duì)模型提出了更高的要求，這也是值得未來研究的一個(gè)方向。

SenseAI：關(guān)于有一個(gè)小細(xì)節(jié)，這個(gè)論文的后半還也提到這個(gè) super resolution ，您剛才說到其他的論文中，其實(shí)也都用到了這個(gè)，就我們現(xiàn)在就會(huì)在想，那是不是每一個(gè)視頻生成的模型都需要用到這個(gè)？目前這方面的可探索空間有多大？目前的架構(gòu)是否比較通用，尤其是對(duì) LLM 和 Diffusion 類型，是不是都比較公平？

于博士：?其實(shí)歸根結(jié)底需要 super resolution 的原因是我們的原生的那個(gè)模型，它輸出的這個(gè)分辨率、時(shí)長都比較低，所以我們需要為了能夠獲得更好看的效果。在后面再嫁接一個(gè)模型。最終來說，當(dāng)我們能原生模型能夠輸出比較高的分辨率，像現(xiàn)在一些圖像的工作可能就可以了，那么它就不再需要這個(gè) super resolution。當(dāng)然在現(xiàn)階段，因?yàn)橐曨l是一個(gè)這個(gè)維度比較高的領(lǐng)域，那么它對(duì)效率的要求也更高一些，可能還是需要仍然使用 super resolution 一段時(shí)間，然后架構(gòu)上是否通用，目前我們用的架構(gòu)在里面其實(shí)是一個(gè) mask 的 transformer。然后做 super resolution，因?yàn)樗鼤?huì)更快一些。它又不是 Diffusion，它比 Diffusion 更快一些。而常見的diffusion model，他們會(huì)用這個(gè) diffusion objective 自己去學(xué)一個(gè) super resolution，至少到目前為止，這條 super resolution 上的技術(shù)路線，大家還是沒有很大程度的共享的，我覺得以后可能可以。不過這里面其實(shí)有一個(gè)問題，就是 super resolution，目前當(dāng)然大家都 teacher forcing ，就是我用原始的低分辨率視頻和原始的高分辨率視頻去學(xué)習(xí)，而更好的辦法可能是我用模型就是前一階段模型的輸出，是低分辨率到后面的高分辨率這樣進(jìn)行學(xué)習(xí)，這個(gè)叫 student forcing，它會(huì)使得你這個(gè)distribution shift 更小，而就需要對(duì)每個(gè)模型專門進(jìn)行 super resolution 的訓(xùn)練，這個(gè)可能通用性就會(huì)下降。

SenseAI：?我們對(duì)數(shù)據(jù)這塊兒也很感興趣，就是一直以來數(shù)據(jù)的收集和處理對(duì)視頻生成來說也很關(guān)鍵，也想了解一下在 Videopoets 里面我們做了怎么樣的選擇工作，我們是否有一些大規(guī)模處理數(shù)據(jù)的方法或者工具？?以及現(xiàn)在數(shù)視頻類的數(shù)據(jù)的短缺，我們有沒有注意觀察到有一類可能對(duì)生成效果幫助很大，但是目前還沒有被收集的數(shù)據(jù)類型？

于博士：數(shù)據(jù)的話，現(xiàn)在至少從很多工作來看，這個(gè)是對(duì)模型非常重要的一個(gè)點(diǎn)，但其實(shí)我們這個(gè)工作主要的關(guān)注點(diǎn)在模型這邊，所以對(duì)數(shù)據(jù)處理是比較少的。我們也從其他研究工作中看到，對(duì)于數(shù)據(jù)的篩選，整理和標(biāo)注是這個(gè)模型，特別是審美相關(guān)的生成質(zhì)量影響非常大的一個(gè)點(diǎn)。

SenseAI：除了數(shù)據(jù)以外，其實(shí)這個(gè)論文中也提到，對(duì)于社會(huì)責(zé)任和公平上做了一些分析，這個(gè)也是非常有遠(yuǎn)見的設(shè)計(jì)，就是這方面您能講一講具體上怎么做，怎么去平衡的嗎？

于博士：?對(duì)這個(gè)是我們一些合作者進(jìn)行了model的社會(huì)公平性分析，然后這個(gè)有一些非常有意思的現(xiàn)象，就是我們會(huì)發(fā)現(xiàn)這個(gè)模型的輸出上，當(dāng)我們?nèi)ミx定一組這個(gè) prompt，它會(huì)更偏好這個(gè)年輕人，比如說18到35歲。然后男性以及膚色較淺的人種。我們會(huì)觀測到這樣的現(xiàn)象，同時(shí)會(huì)努力去設(shè)計(jì)一些 prompt 去使得它最后輸出的分布更接近于真實(shí)的分布。但是目前這個(gè)研究還比較早期，我們希望這些觀測可以在這個(gè)。之后模型迭代的時(shí)候，我們從數(shù)據(jù)的角度進(jìn)行優(yōu)化，使得我們做出模型是更加負(fù)責(zé)任的，更加就是具有盡可能小的 Bias。

SenseAI：我們也很好奇 VideoPoet 的下一步會(huì)在哪些地方持續(xù)做優(yōu)化，包括像多模態(tài)的組合輸入，我們這個(gè) language model 內(nèi)部的結(jié)構(gòu)設(shè)計(jì)上會(huì)不會(huì)還有一些創(chuàng)新，而在性能上，我們希望會(huì)在哪些方面持續(xù)做優(yōu)化。

于博士：?確實(shí)，這個(gè)畢竟我們其實(shí)是最早把這個(gè)language model style 的 video generation 做出來，其實(shí)這個(gè)模型還有很大的提升空間。那么language model 給大家?guī)淼南胂罂臻g是很大的，比如說它有很強(qiáng)的 zero shot capability 甚至 in-context learning。那么一個(gè)發(fā)展方向就是我能不能進(jìn)一步去scale這個(gè)model，它在預(yù)訓(xùn)練的時(shí)候可能并沒有什么 task specific design。而是到 inference 的時(shí)候，我給他進(jìn)行少量的 instruction tuning 或者甚至只是給他收幾個(gè) example，然后教會(huì)他進(jìn)行一些新的任務(wù)。比如說我們可以以非常小的代價(jià)讓他學(xué)會(huì) video segmentation。那么這說明我們的模型可能本來就是對(duì)世界有一個(gè)很強(qiáng)的理解了，甚至比較用比較小的代價(jià)，讓它能不能教會(huì)我這個(gè)牛頓定律。這些都是非常有意思的事情，就從科研角度；而從應(yīng)用角度來說，我可以以非常低的代價(jià)去做customized generation。也是非常有意思的應(yīng)用。

從性能上的優(yōu)化來說，現(xiàn)在我們這一類模型，包括其他視頻生成模型可能也一樣。最大的 bottleneck 是我們生成的時(shí)間的長度。以及在固定時(shí)間長度下，我們希望能原生的出盡可能高的 resolution 。那么這些就是回到這個(gè) LLM 的 backbone 上。我們希望它對(duì)這個(gè) long context support 能更強(qiáng)，比如說能到幾百K。然后同時(shí)效率又不會(huì)下降太多，就是在一個(gè)合理的 cost 范圍內(nèi)，使得我們能夠支持這個(gè)更長的更高分辨率的視頻生成，然后同時(shí)它是在 single task 里面把這些東西都學(xué)了，那么它會(huì)對(duì)多模態(tài)的組合內(nèi)容的，邏輯上的合理性都會(huì)有很大的提高。

SenseAI：?我們近期其實(shí)也看到有確實(shí)有一些更多的優(yōu)秀的視頻的生成論文出來，您是否有這種感覺，就視頻生成的文藝復(fù)興時(shí)期要到了，現(xiàn)有架構(gòu)的這種一些 scaling 的解決方案，在短期是不是還有一些新架構(gòu)顛覆的機(jī)會(huì)？

于博士：?對(duì)我們最近也看到非常多的工作，就是視頻生成領(lǐng)域現(xiàn)在在蓬勃發(fā)展，然后我還是很有信心的，我覺得這個(gè)2024年可能這個(gè)視頻生成會(huì)真的走向應(yīng)用。你說到底是現(xiàn)有架構(gòu)下的 scaling，還是會(huì)有新架構(gòu)，我覺得可能再過幾個(gè)月，我們也許看還能看到一輪的技術(shù)迭代，我覺得到年底左右的時(shí)間，可能會(huì)走向成熟。

參考材料

https://magvit.cs.cmu.edu/v2/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。