首頁 > 區(qū)塊鏈 > 開創(chuàng)全新通用3D大模型，VAST將3D生成帶入「秒級」時代

開創(chuàng)全新通用3D大模型，VAST將3D生成帶入「秒級」時代

時間：2023-12-21 15:03:08

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #開創(chuàng)全新通用3D大模型，VAST將3D生成帶入「秒級」時代#】

原文來源：機器之心

圖片來源：由無界 AI生成

生成式 AI 在 3D 領域在很長一段時間內(nèi)都在等待自己的「ChatGPT」時刻。

傳統(tǒng) 3D 建模涉及游戲、影視、建筑等多個行業(yè)，普遍依賴專業(yè)人員手動操作，生產(chǎn)周期短則幾天，多則以月為單位，單個 3D 模型的創(chuàng)建成本至少需要幾千元。生成式 AI 技術在 2D 圖像生成領域的成功經(jīng)驗，讓人們看到了 AI 在變革 3D 建模這件事上的潛力。一個萬億美元級別的賽道似乎從此開啟，但當前市面上的 3D 生成類的 AI 技術仍然存在各種不足，大家都在期待出現(xiàn)一個讓自己眼前一亮的產(chǎn)品。

2021 年 1 月初，OpenAI 發(fā)布 DALL?E，并以輸入文字 prompt「一把牛油果形狀的扶手椅」，豐富的形象、清晰的結構標志著文字生成圖片的技術走向成熟。

MIT 科技評價道：「這把牛油果扶手椅可能是 AI 的未來（This avocado armchair could be the future of AI）」

Prompt（提示詞）：an armchair in the shape of an avocado. 圖源：OpenAI

2023 年 12 月，機器之心體驗了 VAST 自研的 3D 大模型 Tripo，當經(jīng)典的「牛油果手扶椅」以精致的形態(tài)快速絲滑地在眼前生成，我們立刻意識到，生成式 AI 迎來了又一個里程碑時刻。

Prompt（提示詞）：avocado chair. ?圖源 TripoAI

VAST 是誰？

經(jīng)過一番搜索，我們發(fā)現(xiàn)，最近走紅的兩項 3D 生成技術 Wonder3D 和 CSD 都與這家公司有關。

不久前，一個名為 Wonder3D 的開源項目被開發(fā)者發(fā)掘，它能夠在 3 分鐘內(nèi)從單個圖像重建高保真紋理網(wǎng)格。在開源平臺 GitHub 上，這個項目短時間內(nèi)就斬獲了 3.3K Github Star：

體驗鏈接：https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

與此同時，一項利用圖像擴散模型實現(xiàn) 3D 生成的理論突破成果「CSD 」也引發(fā)了眾人關注：

VAST 此前僅有的公開亮相是創(chuàng)始人在圖形學盛會 SIGGRAPH 五十周年慶典中進行的 Keynote 演講。通過當時的報道可以了解到，VAST 是一家專注于通用 3D 大模型的技術研發(fā)及產(chǎn)品落地的初創(chuàng)公司。

作為首位在 SIGGRAPH 發(fā)表主題演講的中國創(chuàng)業(yè)者，VAST 創(chuàng)始人宋亞宸提到，VAST 的目標是減少制作高質(zhì)量 3D 資產(chǎn)和環(huán)境所需的專業(yè)知識和成本，讓 3D 內(nèi)容生成變成一件更容易的事。

「3D 技術代表了下一個前沿方向，開啟了沉浸式表達的新維度，我們相信 AI 可以讓任何人創(chuàng)造出令人驚嘆的 3D 內(nèi)容，且不受制于想象力之外的任何因素?！?/p>

作為一家初創(chuàng)公司，VAST 的創(chuàng)始人為何能夠與業(yè)內(nèi)巨頭英偉達、索尼、Unity 的掌門人同臺演講？它們又是如何推動了 Wonder3D 和 CSD 這樣的技術突破？

帶著這份好奇心，機器之心拜訪了 VAST 在北京的辦公室。

了解過團隊情況后，我們發(fā)現(xiàn) VAST 可以說是「臥虎藏龍」：

算法團隊成員清一色來自海內(nèi)外的頂尖高校和技術大廠，具有豐富的人工智能及圖形學經(jīng)驗。

CTO 梁鼎師從戴瓊海院士，曾擔任商湯通用視覺和語言大模型發(fā)起人和垂類語言大模型負責人，著有論文 40 多篇，引用 7000 次，國內(nèi)專利 100 多項，海外專利 14 項。

首席科學家曹炎培師從胡事民院士，前騰訊 ARC Lab 和 AI Lab 3D 方向?qū)＜?，擁有論?40 多篇，近期在 3D 生成方向的相關成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

還有一位出生于 97 年的青年科學家郭元晨，他是清華大學博士生，師從張松海副教授，也是知名 3D 生成開源項目 threestudio 的發(fā)起者、核心貢獻者。該項目已經(jīng)在 GitHub 社區(qū)收獲了 4.4K 星標，是目前為止功能最完整、使用最廣泛的 3D 生成代碼框架。

threestudio 地址：https://github.com/threestudio-project/threestudio/

隨后，VAST 和機器之心聊了聊他們正在進行的技術探索。

AI 在 3D 生成領域的壁壘，如何打破？

我們聊到的第一個問題是：在 3D 內(nèi)容的生成上，AI 還面臨著哪些挑戰(zhàn)？

要理解這個問題，首先需要理解 3D 內(nèi)容制作的特殊性。

數(shù)字 3D 內(nèi)容起源于 20 世紀 60 年代的計算機圖形學，迄今已衍生出眾多細分領域。一般來說，完整的 3D 生產(chǎn)管線涵蓋概念設計、3D 建模、紋理 / 材質(zhì)、動畫和渲染等多個環(huán)節(jié)。

傳統(tǒng)流程中，3D 數(shù)字內(nèi)容的生成均由積累?時間學習和?作經(jīng)驗的專業(yè)藝術家進行創(chuàng)作，加?了?量的??經(jīng)驗設計，且不同藝術家?作流程不同，沒有絕對統(tǒng)一的標準。對于這些資深的專業(yè) 3D 創(chuàng)作者來說，3D 內(nèi)容生成也是一項非常復雜且耗時的工作。

此外，3D 數(shù)字內(nèi)容表達的多樣性，也為 AI 的學習過程增添了更多挑戰(zhàn)。多邊形?格、細分曲?、?骼動畫、頂點動畫、物理模擬動畫，不同的材質(zhì)涉及不同的渲染管線。表達方式的不統(tǒng)一，導致 3D 內(nèi)容的制作本身比 2D 更具挑戰(zhàn)性。

以我們熟悉的視覺模型和語言模型為例，它們會通過對預訓練數(shù)據(jù)的「學習」來摸索規(guī)律，最終展現(xiàn)出一種非常接近「創(chuàng)造」的能力。實現(xiàn)這種學習能力的前提是圖像、視頻、語音、文字均有比較通用的表示形式。

對于現(xiàn)有的生成式大模型來說，3D 數(shù)字內(nèi)容就像是一種很新的「語言」體系。因此，想讓 AI「學會」生成媲美人類水準的 3D 模型，同時保證速度，并不是一件容易的事。

已取得階段性突破的研究大多遵循 2D 優(yōu)化路線：利用已有生成模型的 2D 生成能力，通過多視角優(yōu)化將生成維度提升到三維。

斬獲了 ECCV 2020 最佳論文榮譽提名的 NeRF（Neural Radiance Fields，神經(jīng)輻射場渲染）在多視圖重建靜態(tài)三維場景方面獲得了重要進展。這項基礎理論的突破開啟了新的一波 3D x AI 熱潮，在此基礎上，有研究者引入了擅長文本到圖像生成的擴散模型，比如 Google 去年發(fā)布的 DreamFusion 算法，提出采用「Score Distillation Sampling」實現(xiàn)從文本到 3D 的生成。DreamFusion 的優(yōu)點是幾乎不需要事先訓練，實現(xiàn)了在沒有 3D 數(shù)據(jù)的情況下生成物體 3D 表示，缺點是速度慢（長達數(shù)個小時）。

OpenAI 在去年同期發(fā)布的 Point-E 則采用了在 3D 數(shù)據(jù)集訓練的方案，還強調(diào)了「可以用單塊 NVIDIA V100 GPU 在一到兩分鐘內(nèi)生成 3D 模型」，但它在從文字到 3D 的轉(zhuǎn)換過程中偶爾還是無法理解文本敘述的內(nèi)容，導致生成的形狀與文本提示不匹配，而且生成結果的精細度不足。

總之，沿襲此路線的后續(xù)研究很多，但始終沒有一個方案能兼顧模型的生成質(zhì)量、速度、多樣性和可控性。

「通用 3D 大模型」的探索之路

知名計算機科學家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中給出過一個論斷：對于 AI 模型的訓練來說，要在短期內(nèi)有所提升，研究人員可以利用專門領域的人類知識。但如果想要長期地獲得提升，更好地利用計算能力才是王道。

正如早期的 CV 領域，普遍認為只要設計出更好的特征描述就可以持續(xù)進步，但后來大獲成功的深度學習方法僅使用卷積或注意力機制就能得到更好的效果。其中 ImageNet 等海量圖像數(shù)據(jù)集、GPU 提供的強大計算能力，以及 CNN、Transformer 等高可擴展性的模型架構起到了至關重要的作用。

VAST 認為，AI 要想在 3D 生成領域獲得長足發(fā)展，同樣需要跳出對人類知識的依賴，憑借更龐大的數(shù)據(jù)和更多的計算「學習」一種「通用方法」。

具體到 3D 領域，讓 AI 突破瓶頸獲得「通用能力」的方法論又是什么呢？

在 VAST 看來，這個目標可以從三個方向的工作入手：表示、模型和數(shù)據(jù)。

充分利?算?的關鍵，最重要正是在于找到合適的「表示」。?如 3D 內(nèi)容制作中常用三??格來模擬復雜物體的表面，這種表示對 GPU 渲染算?友好，但是對深度學習算法來說并不夠友好。

VAST 希望尋找一種更加靈活、利于計算的 3D 統(tǒng)一表示，同時兼容現(xiàn)有的圖形管線。

在最近的論文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》，他們提出了一種新的動態(tài)場景表示方法，通過將場景運動和外觀分解為稀疏控制點和稠密的 3D Gaussians，顯著提高了動態(tài)場景的可編輯性和渲染質(zhì)量，在新視角合成和保持外觀的運動編輯方面均顯著優(yōu)于現(xiàn)有方法。

另外一項研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》則探索了基于三平面（triplane）和高斯?jié)姙R（3D Gaussian Splatting）融合的 3D 表示，利用高度可擴展的 Transformer 架構即可實現(xiàn) 2 秒內(nèi)的高質(zhì)量圖生 3D。

此外，探索「3D tokenizer」也是一種不錯的思路。此前的一項研究表明，在相同的訓練數(shù)據(jù)、模型大小和訓練預算條件下，如果利用良好的視覺 tokenizer，掩碼語言模型在圖像和視頻基準的生成保真度和效率方面同樣可達到與擴散模型相同的水準。對于 3D 生成任務來說，將 3D 表示轉(zhuǎn)化為與語言 token 相近形式的 token 表示，或許有助于將現(xiàn)有的理解和生成大模型應用在 3D 領域。

在「模型」層面，VAST 近期的多項研究都探索了如何充分利用大模型在其他模態(tài)下的先驗、設計準則、訓練經(jīng)驗，以提升模型對 3D 數(shù)據(jù)的學習能力。

比如近段時間爆火的 Wonder3D 就創(chuàng)新地提出了復用強大的 2D 圖像生成模型同步生成多視角一致法向和 RGB 圖，實現(xiàn)了 2 分鐘高質(zhì)量圖生 3D。他們利用多視角法向圖表示 3D 幾何信息，從而可以有效利用大量 2D 數(shù)據(jù)先驗。

此外，VAST 還在最新的一項研究「UniDream」中提出了可輸出具有高質(zhì)量 PBR 材質(zhì)、可重光照 3D 模型的多階段文生 3D 框架。這一框架分為三個組成部分：1. 復用強大的 2D 圖像生成模型，以文字為條件，同步生成解耦的多視角一致的法向和基礎色；2. 結合在大量 3D 數(shù)據(jù)訓練的可泛化 3D 重建模型，從多視角圖片生成基礎 3D 先驗；3. 利用材質(zhì)解耦的 SDS 優(yōu)化方法，得到最終具有高質(zhì)量幾何和 PBR 材質(zhì)的 3D 模型。

「數(shù)據(jù)」層面的挑戰(zhàn)同樣不容忽視。由于優(yōu)質(zhì)、原生、多樣化的 3D 數(shù)據(jù)集資源的稀缺，模型的最終表現(xiàn)受限，導致可以生成的 3D 內(nèi)容有限，泛化能力不足。這也是為什么一部分研究者嘗試過直接用 3D 數(shù)據(jù)集進行訓練和微調(diào)模型，但都沒能取得太理想的效果的原因。

針對這個問題，VAST 自 2023 年初成立以來一直不斷積累在 3D 數(shù)據(jù)上的優(yōu)勢，目前已擁有全世界最大的 3D 高質(zhì)量原生數(shù)據(jù)庫（千萬級別）。

基于千萬 3D 原生數(shù)據(jù)訓練的大模型

已有落地產(chǎn)品

經(jīng)歷了近一年的探索，VAST 在今年 12 月已經(jīng)完成了通用 3D 大模型 Tripo 的研發(fā)。

VASTAI

，贊 11
Tripo AI Fantasy: Launched，與藝術家Rui Huang共創(chuàng)

Tripo 基于海量 3D 高質(zhì)量原生數(shù)據(jù)庫訓練，是一個數(shù)十億參數(shù)級別的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路線上的技術探索，Tripo 在生成的質(zhì)量、速度、成功率上行業(yè)領先。目前，已經(jīng)實現(xiàn) 8 秒鐘生成帶紋理 3D 網(wǎng)格模型，可以進入傳統(tǒng)管線進行二次編輯和調(diào)整。在此基礎上，可以再用5分鐘的時間進行優(yōu)化，優(yōu)化后的 3D 模型可以接近人類手工制作的 3D 模型質(zhì)量，成功率超過 95%。

Tripo 也已經(jīng)在 12 月 21 日正式上線，目前支持「文生 3D」和「圖生 3D」兩種能力。

前往 VAST 官網(wǎng)免費體驗?Tripo 3D 生成能力：www.tripo3d.ai

我們可以觀察到， Tripo 有著較強的泛化能力，不管是寫實、風格化任務，還是結構復雜的幻想生物，也能在短時間內(nèi)完成，展現(xiàn)出了在 3D 創(chuàng)意內(nèi)容方面的巨大潛力。

隨著對高質(zhì)量數(shù)據(jù)集的更深入利用和算法的不斷進步，Tripo 未來有望在極短時間內(nèi)創(chuàng)造出質(zhì)量媲美人工建模水準的作品。

3D 生成，何時迎來「ChatGPT 時刻」？

在與 VAST 技術團隊的交流中，我們發(fā)現(xiàn)，在領先業(yè)界進行通用 3D 大模型的探索之外，這家公司在產(chǎn)業(yè)化探索上同樣做到了「快人一步」。

不到一年時間內(nèi)，VAST 已經(jīng)搭建起了針對國內(nèi)外 B 端和 C 端用戶的端到端產(chǎn)品矩陣，并與數(shù)十家海內(nèi)外游戲、動畫、工業(yè)、云計算等行業(yè)領軍企業(yè)在 3D 數(shù)據(jù)及 3D 內(nèi)容生成等領域建立了戰(zhàn)略合作關系。

放眼未來，VAST 的「野心」不止于此。成立之初，這個團隊已經(jīng)定下目標：讓任何人都可以成為「超級創(chuàng)作者」，充分實現(xiàn)自己的創(chuàng)意。

需要承認的是，目前的 AIGC 3D 技術距離目標還需要一段探索期。但在這次技術浪潮中，VAST 已經(jīng)成為了從 0 到 1 的推動者之一。下一步，VAST 將攻克來自真實世界的更多難題。

在與 VAST 團隊的交流中，我們充分感受到了這種堅定的技術熱情：

「VAST 相信，當通用 3D 大模型的能力逐漸增強，用戶進行 3D 創(chuàng)作的門檻將不斷降低，真正的 3D 內(nèi)容大爆發(fā)時代必然會到來，這就是屬于 VAST 這群年輕人的『OnePiece』。」CEO 宋亞宸表示。

目前，VAST 還在構建一個交互式 3D 內(nèi)容平臺，希望為全世界的專業(yè)人士和業(yè)余愛好者打造一個共享創(chuàng)作、發(fā)現(xiàn)作品和訪問定制 3D 資產(chǎn)的交流中心。

或許在不久之后，3D 賽道也會出現(xiàn)像「ChatGPT」這樣的現(xiàn)象級產(chǎn)品，而 VAST 這家年輕的中國初創(chuàng)公司格外值得期待。