當前位置:區(qū)塊鏈 >區(qū)塊鏈 > 騰訊云把向量數(shù)據(jù)庫“卷”到哪一步了?

騰訊云把向量數(shù)據(jù)庫“卷”到哪一步了?

更新時間:2024-01-14 17:29:38 | 作者:佚名
“不是我不明白,這世界變化快”,崔健在20世紀寫下的這句歌詞,放在剛剛過去的2023年,也同樣適用。技術(shù)風向的變化之快,讓不少人感到驚訝,向量數(shù)據(jù)庫這一年的潮起潮落,就是一個典型的例子。 2023年初大模型、生成式AI的起飛,也帶來了向量數(shù)據(jù)庫的火爆,投融資項目爆發(fā)式增長,傳統(tǒng)數(shù)據(jù)庫廠商和公有云廠商都推出了相關(guān)產(chǎn)品。然而一年狂飆之后,市場又開始退潮,前不久全...

“不是我不明白,這世界變化快”,崔健在20世紀寫下的這句歌詞,放在剛剛過去的2023年,也同樣適用。技術(shù)風向的變化之快,讓不少人感到驚訝,向量數(shù)據(jù)庫這一年的潮起潮落,就是一個典型的例子。

2023年初大模型、生成式 AI的起飛,也帶來了向量數(shù)據(jù)庫的火爆,投融資項目爆發(fā)式增長,傳統(tǒng)數(shù)據(jù)庫廠商和公有云廠商都推出了相關(guān)產(chǎn)品。然而一年狂飆之后,市場又開始退潮,前不久全球最著名的 AI 項目之一AutoGPT 宣布,不再使用向量數(shù)據(jù)庫。

向量數(shù)據(jù)庫真的是AI革命中的組成部分嗎?這一市場有哪些參與者?騰訊云為代表的公有云廠商,又在這場技術(shù)創(chuàng)新中發(fā)揮了什么作用?

向量數(shù)據(jù)庫,剛剛開始

新技術(shù)的火爆,必然會伴隨炒作和泡沫,但向量作為大模型理解世界的數(shù)據(jù)形式,向量數(shù)據(jù)庫作為AI革命重要基建的位置,長期來看,是不會動搖的。

為什么這么說?

向量數(shù)據(jù)庫并不是一種特別新的數(shù)據(jù)庫技術(shù),在AI領(lǐng)域已經(jīng)應(yīng)用了七八年,谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務(wù)。如果說數(shù)據(jù)庫是數(shù)據(jù)的“硬盤”,那么,向量數(shù)據(jù)庫就是更適合AI體質(zhì)的“硬盤”。

其“AI原生”的體質(zhì),具體表現(xiàn)在幾個方面:

1.更高的效率。AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習,提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫比傳統(tǒng)基于索引的數(shù)據(jù)庫有明顯優(yōu)勢。

2.更低的成本。大模型要從一種新技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)價值,必須達到合理的投入產(chǎn)出比,而向量數(shù)據(jù)庫可以有效減少存儲和計算成本。一個公開數(shù)據(jù)是,通過騰訊云向量數(shù)據(jù)庫,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%,就在于檢索效率、運行穩(wěn)定性、運營效率、推薦算法等,有了較大的提升。

(騰訊云數(shù)據(jù)庫產(chǎn)品架構(gòu))

3.更強的數(shù)據(jù)安全。有個企業(yè)直言:我沉淀了幾十年的內(nèi)部數(shù)據(jù),是我的的核心競爭力,讓我無償去公開給大模型做訓(xùn)練,我肯定不愿意。想做大模型,還要確保數(shù)據(jù)的隱私安全,就必須與數(shù)據(jù)庫產(chǎn)品做好配合,這給向量數(shù)據(jù)庫的本地部署帶來了廣闊的需求。

4.更大的擴展性。隨著大模型走向行業(yè)應(yīng)用,垂直領(lǐng)域的AI用例不斷增多,洶涌的數(shù)據(jù)洪潮和存算任務(wù),會帶來大量向量搜索的需求。而向量數(shù)據(jù)庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。

所以說,除非大模型技術(shù),在短期內(nèi)發(fā)生顛覆性改變,否則落地應(yīng)用還是需要向量檢索和向量數(shù)據(jù)庫。而作為大模型技術(shù)標桿的OpenAI最近也透露:我們可能已經(jīng)非常接近實現(xiàn)通用人工智能(AGI),應(yīng)該以通用人工智能的實現(xiàn)為前提進行創(chuàng)業(yè)和技術(shù)開發(fā)。

由此可以肯定,向量數(shù)據(jù)庫市場必然還會迎來一輪增長。年底趨于冷靜,只是2023年熱情過度高漲的適當回調(diào)。

兩股新勢力,云是方向

從引爆到飽和,向量數(shù)據(jù)庫市場的發(fā)展速度迅猛,也吸引了“群雄逐鹿”。

傳統(tǒng)數(shù)據(jù)庫廠商不必多說,既有相應(yīng)的能力建設(shè),也有一定的客戶基礎(chǔ),推出相關(guān)產(chǎn)品是必然。一些在AI領(lǐng)域積淀已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量數(shù)據(jù)庫的技術(shù)積累,也都可以向外輸出相關(guān)能力和產(chǎn)品。這些我們都比較熟悉了。

而上一年狂飆突進的兩股新勢力,成為市場上的黑馬,分別是創(chuàng)業(yè)公司和公有云。

以上半年爆火的AI創(chuàng)業(yè)新秀Pinecone為代表。Pinecone是閉源的領(lǐng)跑者,憑借良好的開箱即用的產(chǎn)品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。其他競爭者大多建立在開源項目的基礎(chǔ)上。

總體來說,這些創(chuàng)業(yè)“獨角獸”的向量數(shù)據(jù)庫公司,固然新銳,但長期盈利能力還有待驗證。原因是,其客戶大多是嘗鮮、實驗性質(zhì)。

一般來說,企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù),進行一個小的模型,進行向量化,產(chǎn)生一個向量的矩陣,再存儲到向量數(shù)據(jù)庫里,來供大模型學(xué)習和檢索。這個過程涉及大量的工程化,會耗費企業(yè)許多開發(fā)人員、時間成本,一開始可能會因為AI大模型很火而對向量數(shù)據(jù)庫產(chǎn)生興趣,但能否真正在業(yè)務(wù)中落地還是個未知數(shù),因此,長期付費意愿還有較大的不確定性。

另一股“新勢力”:公有云廠商,也是向量數(shù)據(jù)庫的積極參與者。

不是所有企業(yè)都有能力自建大模型所需要的基礎(chǔ)設(shè)施,通過MaaS(模型即服務(wù))業(yè)務(wù)來訓(xùn)練應(yīng)用大模型,是更靈活的選擇。

此外,上云用數(shù)賦智是大勢所趨,很多政企客戶往往會選擇公有云或行業(yè)云來滿足其業(yè)務(wù)需求,將數(shù)據(jù)遷移到云上,對云數(shù)據(jù)庫的關(guān)注度和接受度上升,而這些用戶在探索大模型時,會傾向于以整體解決方案的形式來交付,這就給了云廠商參與游戲的機會,同時也要求云廠商提供向量數(shù)據(jù)庫的全棧支持。

以騰訊云為代表,騰訊云的AI 原生(AI Native)向量數(shù)據(jù)庫Tencent Cloud VectorDB是國內(nèi)首個從接入層、計算層、到存儲層提供全生命周期AI化的向量數(shù)據(jù)庫。

除了產(chǎn)品之外,騰訊云提供了全面AI化解決方案,覆蓋接入層、計算層、存儲層,使用戶在使用向量數(shù)據(jù)庫的全生命周期,都能應(yīng)用到AI能力。有數(shù)據(jù)顯示,企業(yè)原先接入一個大模型需要花1個月左右時間,使用騰訊云向量數(shù)據(jù)庫后,3天時間即可完成,極大降低了企業(yè)的接入成本。

此外,騰訊龐大的業(yè)務(wù)集群及智能化應(yīng)用,為騰訊云向量數(shù)據(jù)庫提供了絕佳的練兵場。騰訊集團每日處理千億次檢索的向量引擎(OLAMA),讓騰訊云向量數(shù)據(jù)庫的基本功能和性能得到了更加充分地檢驗與優(yōu)化,從而淬煉出了很多讓人眼前一亮的新能力。

以騰訊視頻的應(yīng)用為例,視頻庫中的圖片、音頻、標題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫,月均完成的檢索和計算量高達200億次,有效滿足了版權(quán)保護、原創(chuàng)識別、相似性檢索等場景需求。

風物長宜放眼量,AI技術(shù)還在快速變化之中,AI Native的騰訊云在這一市場領(lǐng)域的競爭力還會進一步擴大。

接下來,向量數(shù)據(jù)庫卷什么?

不難看到,市面上并不缺少向量數(shù)據(jù)庫產(chǎn)品,缺少的是商業(yè)模式。

據(jù)東北證券預(yù)測,到 2030 年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到 500 億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超過600億人民幣。想要吃到這塊巨大的蛋糕,僅僅形成技術(shù)趨勢是遠遠不夠的,成熟的產(chǎn)品化才能說服用戶、兌現(xiàn)商業(yè)價值。

目前來看,以騰訊云為代表的云廠商有幾重特殊優(yōu)勢,或許會讓向量數(shù)據(jù)庫加速走向商業(yè)成功:

1.多元化部署。垂直行業(yè)大模型,數(shù)據(jù)都是私有機密的,客戶一般不愿意放到公有云上,騰訊云提供私有部署、分布式、混合云等多種方案,打消疑慮。背后需要混合多云的云基礎(chǔ)設(shè)施。

2.一體化AI方案。向量數(shù)據(jù)庫的火爆,本質(zhì)是AI需求,而AI Native時代的數(shù)據(jù)工程,還有許多復(fù)雜問題尚待解決,騰訊云提供一體化的AI解決方案,從底層算力集群、Maas模型平臺到全棧工具鏈,通過軟硬件協(xié)同優(yōu)化AI開發(fā)成本,是企業(yè)和開發(fā)者所期待的。

3.產(chǎn)業(yè)服務(wù)能力。AI技術(shù)革命方興未艾,行業(yè)熱情高漲,但大多處于嘗試探索期,需要結(jié)合自身業(yè)務(wù)、AI應(yīng)用、IT設(shè)施等多種因素試錯并迭代,這個過程中,隨叫隨到、幫助客戶及時解決問題的ToB服務(wù)能力,也是非??粗氐?。深耕產(chǎn)業(yè)互聯(lián)網(wǎng)的騰訊云,確實是企業(yè)在這場AI技術(shù)革命中可靠的伙伴。

開放、全面、貼心,才能支持企業(yè)用好向量數(shù)據(jù)庫、大模型等基礎(chǔ)設(shè)施,弄潮AI。

被大模型“帶飛”的向量數(shù)據(jù)庫,才剛剛開始,將在騰訊云上長出商業(yè)成功的羽翼,飛向更廣闊的天地。

本站提醒:投資有風險,入市須謹慎,本內(nèi)容不作為投資理財建議。