原文來源:機器之心
圖片來源:由無界 AI生成
AI 幫你成為百變星君。
這一次,Yann LeCun 首次躋身「百變大咖」。身穿鋼鐵俠的衣服、戴著酷酷的墨鏡面無表情地注視著你,一身古裝在故宮門前打卡留念……
就連本人也出來轉(zhuǎn)發(fā)并喊話,「左下角這幅文藝復(fù)興時期的畫,是我的最愛?!?/p>
性感女神寡姐身穿紫色巫師服注視著遠方,還可以戴著圣誕帽和你對視:
身穿太空服的奧特曼看起來萌萌的,把頭發(fā)染成紅色也毫無違和感
上述研究便是來自南開大學(xué)、騰訊等機構(gòu)提出 PhotoMaker,這是一種高效的個性化文本到圖像生成方法。相關(guān)論文《PhotoMaker:Customizing Realistic Human Photos via Stacked ID Embedding 》于去年 12 月放出,剛剛,項目也已經(jīng)開源。不到一天時間,星標(biāo)量高達 650+。
項目地址:https://github.com/TencentARC/PhotoMaker?continueFlag=98363d6ac1beafe515190e50d2c40427
PhotoMaker 除了生成逼真的人像,還能進行其他風(fēng)格的生成,如草圖、漫畫、動畫等。
不同人物身份也能進行混合,創(chuàng)造出一個全新的人物形象。赫本和愛莎公主的組合版兼顧了兩者的特點:
改變照片人物的年齡、性別也不是不可以:不知 LeCun 對這次生成的女裝有何感想。
圖源:https://twitter.com/xiaohuggg/status/1746861416743928103
這項研究可以人人試玩,操作也非常簡單,分為 4 步:
- 首先是上傳一張圖片,一張就可以了,不過多張效果會更好,上傳圖片中的人臉應(yīng)該占據(jù)圖像的大部分。
- 第二步是輸入文本提示,操作過程中確保使用觸發(fā)詞 img,例如 man img、woman img 或 girl img。
- 第三步是選擇喜歡的風(fēng)格模板(內(nèi)置有十多種)。
- 最后一步是單擊 Submit 按鈕,等待生成。
以上生成過程如果有操作不當(dāng)?shù)牡胤?,PhotoMaker 都會進行提示,不用怕自己操作失誤。
體驗中,我們輸入一張馬斯克的照片,提示語為「A man img wearing aspacesuit」,風(fēng)格為漫畫形式,等待幾秒就可以了,效果看起來還不錯。
試玩地址:https://huggingface.co/spaces/TencentARC/PhotoMaker?continueFlag=98363d6ac1beafe515190e50d2c40427
這項研究背后用到了哪些技術(shù),我們接著往下看。
研究介紹
論文地址:https://arxiv.org/pdf/2312.04461.pdf
PhotoMaker 這種高效的個性化文本到圖像生成方法,它主要將任意數(shù)量的輸入 ID 圖像編碼成一個堆疊 ID 嵌入,以保留 ID 信息。這樣的嵌入作為統(tǒng)一的 ID 表征,不僅可以全面封裝相同輸入 ID 的特征,而且還可以適應(yīng)不同 ID 的特征以供后續(xù)集成。這為更有趣和實用價值的應(yīng)用鋪平了道路。
如圖 1 所示,PhotoMaker 不僅能進行常見的重新構(gòu)建,還能改變輸入人像的屬性(例如,配飾和表情),從輸入 ID 生成完全不同視角的人類照片,甚至修改輸入 ID 的性別和年齡(見圖 1)。
PhotoMaker 還為用戶生成定制人像提供了許多可能性。雖然在訓(xùn)練過程中構(gòu)建堆疊 ID 嵌入的圖像來自同一 ID,但在推理過程中可以使用不同的 ID 圖像來形成堆疊 ID 嵌入,以合并和創(chuàng)建新的定制 ID。合并的新 ID 可以保留不同輸入 ID 的特征。例如,PhotoMaker 可以生成看起來像馬斯克的斯嘉麗,或者生成一個將某人與知名 IP 角色混合的定制 ID,見圖 1(c)。
為了推動 PhotoMaker 的訓(xùn)練,研究者提出了一個面向 ID 的數(shù)據(jù)構(gòu)建 pipeline 來組裝訓(xùn)練數(shù)據(jù)。在通過所提出 pipeline 構(gòu)建的數(shù)據(jù)集的幫助下,PhotoMaker 展示出比測試時微調(diào)基礎(chǔ)方法更好的 ID 保留能力,同時提供了顯著的速度提升、高質(zhì)量的生成結(jié)果、強大的泛化能力和廣泛的應(yīng)用范圍。圖 2 (a) 展示了 PhotoMaker 的概覽。圖 2 (b) 展示了相關(guān)的數(shù)據(jù)構(gòu)建 pipeline。
如圖 3 與表 1 所示,在定性及定量實驗中,PhotoMaker 可以很好地滿足生成高質(zhì)量圖像的能力,同時確保 ID 的高保真度。
PhotoMaker 還可以將上世紀(jì)甚至古代的人物帶到當(dāng)代,為他們「拍照」,如圖 4 (a) 所示。與 PhotoMaker 相比,Dreambooth 和 SDXL 都難以生成現(xiàn)實中沒有出現(xiàn)過的逼真人物圖像。此外,由于 DreamBooth 過度依賴定制圖像的質(zhì)量和分辨率,因此在使用舊照片進行定制生成時,DreamBooth 很難生成高質(zhì)量的結(jié)果。
如果用戶輸入的是不同 ID 的圖片, PhotoMaker 可以很好地整合不同 ID 的特征,形成一個新的 ID。從圖 5 可以看出,DreamBooth 和 SDXL 都無法實現(xiàn)身份混合。相比之下,無論輸入的是動漫 IP 還是真人,無論性別如何,PhotoMaker 都能在生成的新 ID 上很好地保留不同 ID 的特征。
此外, PhotoMaker 的風(fēng)格化表現(xiàn)也十分優(yōu)秀。如圖 6 展示,PhotoMaker 不僅保持了良好的 ID 保真度,還有效地展示了 prompt 中的風(fēng)格要求。
更多詳細技術(shù)內(nèi)容,請閱讀原論文。