原文來(lái)源:元宇宙日爆
圖片來(lái)源:由無(wú)界 AI生成
搭上AI大模型的春風(fēng),元宇宙概念期出圈的虛擬數(shù)字人又火了一把。結(jié)合人工智能自然語(yǔ)言大模型,用3D動(dòng)畫(huà)、動(dòng)態(tài)捕捉、中之人等技術(shù)動(dòng)起來(lái)、說(shuō)起來(lái)的虛擬人,現(xiàn)在擁有“大腦”了。
AI化后,原本就能以文字、聲音輸出內(nèi)容的虛擬人,在與外界交互時(shí)更顯智能,輸出的內(nèi)容也在豐富度、專業(yè)性上提升了一個(gè)檔次。更重要的是,AI提高了虛擬人在制作層面的生產(chǎn)力。
2023年,各種添加了人工智能元素的虛擬人被廣泛用于內(nèi)容播報(bào)、直播等場(chǎng)景中,成為電商、短視頻博主們的新寵。
然而,不足始終存在。擬真類的虛擬人在表情、聲音、動(dòng)作上仍然能被識(shí)別到機(jī)器感,自然度、真實(shí)感遠(yuǎn)不能與人類的肉身媲美。一些開(kāi)發(fā)者試圖用AI大模型來(lái)彌補(bǔ)虛擬數(shù)字人的這個(gè)短板,DreamTalk就是解決方案之一。
這個(gè)基于擴(kuò)散模型的框架由阿里巴巴、清華大學(xué)和華中科大共同研發(fā),從“頭”開(kāi)始,不僅能讓虛擬頭像開(kāi)口說(shuō)話、唱歌,還能模仿表情變化、同步嘴形。
最近,DreamTalk開(kāi)源了,這個(gè)框架有望為虛擬人注入“情緒”。
為虛擬人豐富聲情言表
DreamTalk的絕活兒是僅憑一張頭像圖片,就可以讓臉動(dòng)起來(lái),加上語(yǔ)音的輸入,說(shuō)起來(lái)也不成問(wèn)題,而且還能對(duì)上嘴型和神態(tài),然后生成一段頭部說(shuō)話的視頻。
擬人從“學(xué)習(xí)”開(kāi)始。基于大模型框架,DreamTalk可以從輸入的語(yǔ)音和肖像中學(xué)習(xí)并推斷出表達(dá)風(fēng)格,生成有個(gè)性的表達(dá)視頻。即使使用同一音源,頭像也能夠表現(xiàn)出生氣、開(kāi)心、難過(guò)、鄙視等不同的情緒神態(tài),并以相應(yīng)的面部表情來(lái)表達(dá)。
DreamTalk支持多種人物表情
DreamTalk這類模擬人類表情的解決方案再次為虛擬人制作環(huán)節(jié)增加了一個(gè)工具,畢竟,情緒是當(dāng)前虛擬人最匱乏的表現(xiàn)力。
喜上眉梢、橫眉怒目、涕泗橫流、笑逐顏開(kāi),人類的喜怒哀樂(lè)等情緒總是第一時(shí)間表達(dá)在臉上,再輔以語(yǔ)言呈現(xiàn)態(tài)度。而總想模擬人類的各種虛擬人人均一副“營(yíng)業(yè)臉”,表情包里要么是“微笑”,要么是“扮酷”,情緒不能再多了,機(jī)器人語(yǔ)音雖然有各種腔調(diào),但還是能讓人識(shí)別出機(jī)器感。
今年初,小冰公司啟動(dòng)了“GPT克隆人計(jì)劃”,將AI和虛擬人做了結(jié)合。由此而來(lái)的AI克隆人網(wǎng)紅“半藏森林”上線后引起關(guān)注,但其僵硬的表情也讓很多人吐槽體驗(yàn)不佳。
近期,小冰的克隆人上線了淘寶旗艦店,面部僵化的問(wèn)題依然存在,有買家評(píng)論吐槽:“視頻通話假的要死,跟博主半毛錢關(guān)系沒(méi)有?!?/strong>
中國(guó)傳媒大學(xué)發(fā)布的調(diào)查顯示,對(duì)不同類型的虛擬數(shù)字人,大眾對(duì)其外形、人設(shè)、技術(shù)能力、服務(wù)能力有著明顯的期待差異:60%以上的用戶最關(guān)注虛擬偶像的外形和作品,66%的用戶關(guān)注虛擬主播的主持風(fēng)格,?50%的用戶認(rèn)為虛擬員工最重要的是技術(shù)服務(wù)以及跨界合作能力。
隨著虛擬人以直播等方式走進(jìn)與人類交互的場(chǎng)景時(shí),需求正在朝著虛擬人的個(gè)性化發(fā)展衍生,尤其是當(dāng)AI大模型出現(xiàn)后,解決虛擬人情緒甚至情感的方案將成為一個(gè)獨(dú)立的賽道。
DreamTalk的開(kāi)發(fā)方之一阿里巴巴此前就申請(qǐng)了“對(duì)話內(nèi)容生成、虛擬對(duì)話、對(duì)話內(nèi)容的數(shù)據(jù)處理方法”的專利。摘要顯示,該申請(qǐng)通過(guò)構(gòu)建情感關(guān)聯(lián)圖,可以深度理解引發(fā)對(duì)話情感的具體關(guān)鍵詞,從而通過(guò)情感關(guān)鍵詞預(yù)測(cè)目標(biāo)關(guān)鍵詞,有效地在對(duì)話回復(fù)內(nèi)容中展現(xiàn)同理心,進(jìn)而實(shí)現(xiàn)共情對(duì)話,提高對(duì)話內(nèi)容生成的準(zhǔn)確性。
進(jìn)入2024年,市場(chǎng)對(duì)虛擬人的需求不再只是能說(shuō)會(huì)動(dòng)了,還得把“情緒價(jià)值”拉滿。
AI給完「大腦」給「情緒」
能通過(guò)聲音、圖像適配情緒的DreamTalk類AI方案有望讓虛擬人的“表情包”豐富起來(lái),也會(huì)給虛擬人制作帶來(lái)了便捷工具。
在技術(shù)上,虛擬人有機(jī)會(huì)借助AI擬態(tài)工具擺脫真人驅(qū)動(dòng)的限制。
在“算法驅(qū)動(dòng)型”虛擬人之前,虛擬人應(yīng)用的實(shí)現(xiàn)往往依靠真人驅(qū)動(dòng),這就是我們常說(shuō)的“中之人”,即借助真人通過(guò)動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神、動(dòng)作等的捕捉,然后才能進(jìn)行驅(qū)動(dòng)和渲染。一般而言,它的生產(chǎn)周期更長(zhǎng),成本也比較高。
花臉AI創(chuàng)始人劉威曾表示,只有實(shí)現(xiàn)虛擬人的快速生成,解決低成本大量復(fù)制、高頻次內(nèi)容產(chǎn)出兩大問(wèn)題,同時(shí)擺脫中之人的束縛,虛擬人才能有普遍的商業(yè)價(jià)值。
而“算法驅(qū)動(dòng)型”的虛擬人,可以自驅(qū)動(dòng)學(xué)習(xí)模特說(shuō)話時(shí)的唇動(dòng)、表情、語(yǔ)音,以及姿態(tài)和動(dòng)作等等,不僅無(wú)需真人參與,還可以實(shí)現(xiàn)更快速的渲染,降低制作成本。所以,這種技術(shù)方法更適用于虛擬人的規(guī)?;谱?。
在用戶體驗(yàn)上,智能化的情感生成將有效提高虛擬人交互能力的提升。
目前已出現(xiàn)較多陪伴型虛擬人應(yīng)用,其中一款名為Talkie的虛擬陪伴APP在在海外已有百萬(wàn)日活。從去年8月開(kāi)始,這款應(yīng)用的下載量一直在高位徘徊,并長(zhǎng)期霸占著美國(guó)Google Play娛樂(lè)應(yīng)用下載榜前十的位置。除了美國(guó)之外,在新西蘭、英國(guó)、加拿大、澳大利亞這些發(fā)達(dá)市場(chǎng),Talkie同樣取得了不錯(cuò)的成績(jī)。
Talkie虛擬人主打“陪聊”
但包含Talkie在內(nèi),目前的絕大多數(shù)主打陪伴場(chǎng)景的虛擬人應(yīng)用,在情感互動(dòng)層面表現(xiàn)單一。以Talkie為例,里面的所有虛擬角色均以靜態(tài)圖片的形式出現(xiàn)在聊天背景中,互動(dòng)的方式只有語(yǔ)言,主打一個(gè)“陪聊”。
隨著AI技術(shù)的突破發(fā)展,Talkie這類應(yīng)用絕不是虛擬陪伴產(chǎn)品的最終形態(tài),它們將作為一種過(guò)渡形式,而解決數(shù)字人情緒表達(dá)的方案有望為虛擬人注入“靈魂”,成為虛擬人產(chǎn)品革命性的機(jī)會(huì)。