文章來(lái)源:大模型之家
隨著1月23日,多模態(tài)AI概念股午后拉升,昆侖萬(wàn)維漲超10%,三六零、拓爾思、云從科技、湯姆貓等跟漲。到了24日,多模態(tài)AI概念股整體上漲0.81%,主力資金流出7.98億元。
圖源:網(wǎng)絡(luò)
根據(jù)2024年的表現(xiàn)來(lái)看,在多模態(tài)大模型領(lǐng)域,風(fēng)險(xiǎn)遠(yuǎn)高于機(jī)會(huì)。多數(shù)投資者更愿意在股票價(jià)格上漲時(shí)賣出,以鎖定利潤(rùn),同時(shí)也有可能會(huì)因擔(dān)憂未來(lái)的不確定性而選擇離場(chǎng)。
但嚴(yán)寒注定退去,春天也必然帶來(lái)溫暖和新的開(kāi)始,股價(jià)的浮動(dòng)并不能阻止人工智能技術(shù)高速進(jìn)步的腳步,多模態(tài)大模型的應(yīng)用場(chǎng)景和價(jià)值正在不斷擴(kuò)展和提升。從語(yǔ)音識(shí)別、圖像生成、自然語(yǔ)言理解、視頻分析,到機(jī)器翻譯、知識(shí)圖譜、對(duì)話系統(tǒng)、內(nèi)容創(chuàng)作,多模態(tài)大模型都能夠提供更豐富、更智能、更人性化的服務(wù)和體驗(yàn)。
大模型之家發(fā)布的《工智能大模型產(chǎn)業(yè)創(chuàng)新價(jià)值研究報(bào)告》曾指出,隨著傳感器技術(shù)的發(fā)展和物聯(lián)網(wǎng)的興起,大量的多模態(tài)數(shù)據(jù)(如圖像、視頻、聲音等)被廣泛采集和應(yīng)用。大模型將引發(fā)人工智能多模態(tài)、多場(chǎng)景的革命。大模型可以利用這些多模態(tài)數(shù)據(jù)進(jìn)行跨模態(tài)學(xué)習(xí),從而提升其在多個(gè)感知任務(wù)上的性能和表現(xiàn)。通過(guò)充分利用大模型的泛化能力、構(gòu)建多模態(tài)數(shù)據(jù)集、解決融合和對(duì)齊問(wèn)題,以及提供強(qiáng)大的計(jì)算資源支持。
圖源:大模型之家
海外大廠齊發(fā)力,多模態(tài)大模型已成趨勢(shì)
在近期比爾·蓋茨與山姆·奧特曼的對(duì)話欄目中山姆·奧特曼就曾多次提及多模態(tài)大模型對(duì)于OpenAI的未來(lái)發(fā)展和商業(yè)化進(jìn)場(chǎng)帶來(lái)了很多期待。
圖源:網(wǎng)絡(luò)
當(dāng)二人談到對(duì)于OpenAI來(lái)講下一階段最重要的發(fā)展方向時(shí),山姆·奧特曼表示語(yǔ)音輸入和輸出、圖像輸出以及最終的視頻輸出將成為公司重點(diǎn)發(fā)力的方向。據(jù)了解,在圖像生成領(lǐng)域OpenAI的DALL-E 3已經(jīng)可以依靠語(yǔ)音形式生成用戶需求的內(nèi)容,并且DALL-E現(xiàn)在可以控制生成的內(nèi)容滿足正確的價(jià)值觀念、尊重知識(shí)產(chǎn)權(quán)以及保護(hù)用戶隱私安全。
除DALL-E以外,OpenAI在針對(duì)GPT plus會(huì)員用戶提供了眾多基于GPT-4開(kāi)發(fā)的插件產(chǎn)品,依靠ChatGPT得天獨(dú)厚的數(shù)據(jù)優(yōu)勢(shì),GPT plus會(huì)員可以使用的插件產(chǎn)品多達(dá)上百種,其中針對(duì)視頻、圖像、翻譯等領(lǐng)域的應(yīng)用都獲得使用者廣泛的好評(píng)。
不過(guò),2024年的人工智能市場(chǎng)格局是否由OpenAI一家獨(dú)大現(xiàn)在仍是未知數(shù),山姆·奧特曼就曾明確的表示了ChatGPT在推理能力上的不足,并強(qiáng)調(diào)了提升模型可靠性的必要性。
事實(shí)上,山姆·奧特曼的擔(dān)憂在23年底就以已現(xiàn)苗頭。2023年年底Google DeepMind推出Gemini大模型,一時(shí)間在人工智能行業(yè)內(nèi)引起了不小的震動(dòng)。
并且,Gemini最出彩的地方則是多模態(tài)領(lǐng)域的表現(xiàn)。在官方介紹視頻中,Gemini能夠分析和理解正在變化的視頻,并生成相應(yīng)的描述。不僅如此,當(dāng)提供文字介紹時(shí),Gemini還通過(guò)音頻形式對(duì)文字內(nèi)容進(jìn)行生動(dòng)的復(fù)述,其中包含了一些擬人化的語(yǔ)氣、停頓,以及富有趣味性的對(duì)話。這使得Gemini與用戶的交流更加自然流暢。
圖源:網(wǎng)絡(luò)
谷歌計(jì)劃將Gemini用于各種應(yīng)用程序,如改進(jìn)網(wǎng)絡(luò)搜索、自然圖像理解、OCR、醫(yī)療和護(hù)理教育、科學(xué)研究等。值得一提的是,在大模型之家體驗(yàn)集成了Gemini Pro的大模型Bard時(shí)也發(fā)現(xiàn)。Bard在圖片處理方面也有著顯著的提升。詳情請(qǐng)參考《谷歌Gemini:挑戰(zhàn)GPT只是序幕,顛覆英偉達(dá)才是最終目標(biāo)》。
在國(guó)外大型科技企業(yè)紛紛加強(qiáng)在多模態(tài)領(lǐng)域布局的風(fēng)頭下,國(guó)內(nèi)的大模型企業(yè)也并沒(méi)有落下這一趨勢(shì)。三六零董事長(zhǎng)周鴻祎在關(guān)于2024大模型發(fā)展的十大趨勢(shì)判斷中明確表示:“多模態(tài)將成為大模型標(biāo)配。以Gemini和GPT-4V版本為代表,多模態(tài)會(huì)成為大模型的標(biāo)配,不僅能聽(tīng)會(huì)說(shuō),還能看懂圖片和視頻,能識(shí)別更能理解?!?/p>
齊頭并進(jìn),國(guó)產(chǎn)大模型發(fā)力產(chǎn)業(yè)融合
中國(guó)大模型企業(yè)正在積極響應(yīng)全球多模態(tài)大模型的發(fā)展趨勢(shì),加強(qiáng)在語(yǔ)音、圖像和視頻處理等方面的技術(shù)布局。這一趨勢(shì)不僅推動(dòng)了企業(yè)在創(chuàng)新領(lǐng)域的競(jìng)爭(zhēng)力,也為用戶提供了更加豐富和智能化的服務(wù)體驗(yàn)。
圖源:網(wǎng)絡(luò)
開(kāi)年不到一個(gè)月,在智譜AI便技術(shù)開(kāi)放日中發(fā)布了新一代基座大模型GLM-4,其中GLM-4的All Tools能力成為發(fā)布會(huì)上最亮眼的環(huán)節(jié)之一。得益于GLM模型的強(qiáng)大Agent能力,GLM-4具有強(qiáng)大的工具能力,包括代碼執(zhí)行、聯(lián)網(wǎng)瀏覽、畫圖等。這些工具為用戶提供了廣泛的應(yīng)用場(chǎng)景,從數(shù)據(jù)分析到自然語(yǔ)言處理,從信息檢索到自動(dòng)文本生成。特別是GLM-4的All Tools能力完全自動(dòng),而且可以處理各種任務(wù),比如包括文件處理、數(shù)據(jù)分析、圖表繪制等復(fù)雜任務(wù),支持處理 Excel、PDF、PPT 等格式的文件。
追溯大模型產(chǎn)業(yè)布局,我國(guó)人工智能企業(yè)在發(fā)布大模型之初便一直在多模態(tài)領(lǐng)域發(fā)力。例如阿里巴巴旗下的通義千問(wèn)在發(fā)布后的幾個(gè)月就將通義全家桶已經(jīng)擴(kuò)展成了包括通義千問(wèn)、通義聽(tīng)悟、通義萬(wàn)相等語(yǔ)言、視覺(jué)、多模態(tài)的AIGC工具。
大模型之家認(rèn)為,在國(guó)內(nèi),企業(yè)普遍認(rèn)識(shí)到大模型技術(shù)不僅僅是一種技術(shù)手段,更是推動(dòng)業(yè)務(wù)創(chuàng)新和提升競(jìng)爭(zhēng)力的有力工具。國(guó)內(nèi)企業(yè)對(duì)人工智能技術(shù)的應(yīng)用并非僅僅停留在技術(shù)的研發(fā)上,更是將其有機(jī)融入業(yè)務(wù)流程和產(chǎn)品服務(wù)中,以推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型和智能化升級(jí)。
這種注重實(shí)際業(yè)務(wù)應(yīng)用的態(tài)度,使得人工智能不再是一種抽象的概念,而是貼近企業(yè)實(shí)際運(yùn)營(yíng)的核心要素。企業(yè)通過(guò)大模型技術(shù)的引入,不僅提升了業(yè)務(wù)的效率和準(zhǔn)確性,還為客戶提供了更為個(gè)性化、智能化的產(chǎn)品和服務(wù)體驗(yàn)。
圖源:網(wǎng)絡(luò)
例如23年末,利亞德·虛擬動(dòng)點(diǎn)發(fā)布的“LYDIA”動(dòng)作大模型,在全球范圍的空間計(jì)算、動(dòng)作生成領(lǐng)域探索AIGC的新模式。聚焦于解決對(duì)于動(dòng)作數(shù)據(jù)獲取效率更為看重的行業(yè)場(chǎng)景,在影視、電商、動(dòng)畫制作、游戲等行業(yè)中,憑借其AIGC生成能力大幅提升行業(yè)生產(chǎn)效率,為行業(yè)創(chuàng)造更大價(jià)值。
這種通過(guò)強(qiáng)調(diào)技術(shù)與業(yè)務(wù)的融合,使得國(guó)內(nèi)企業(yè)在大模型技術(shù)的應(yīng)用上展現(xiàn)出了獨(dú)特的創(chuàng)新思維。通過(guò)深度整合人工智能技術(shù),企業(yè)能夠更好地理解和滿足市場(chǎng)需求,創(chuàng)造出更具競(jìng)爭(zhēng)力的產(chǎn)品和解決方案。將大模型技術(shù)真正轉(zhuǎn)化為創(chuàng)新能力,助推本土企業(yè)在全球科技競(jìng)爭(zhēng)中的獨(dú)特優(yōu)勢(shì)。