hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 體驗(yàn)完楊植麟公司的新模型,發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了

體驗(yàn)完楊植麟公司的新模型,發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了

時(shí)間:2023-12-28 13:41:00
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #體驗(yàn)完楊植麟公司的新模型,發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了#】

原文來源:GenAI新世界

圖片來源:由無界 AI?生成

完了,又多了一個(gè)大模型能看懂我身份證了?

最近,楊植麟的創(chuàng)業(yè)公司月之暗面(Moonshot AI)發(fā)布了新版本模型moonshot-v1-20231225。

長長長長長的 Kimi Chat 第一次上新了。

圖源:Kimi Chat

點(diǎn)開Kimi Chat發(fā)現(xiàn),它回復(fù)速度好像比以前快了,網(wǎng)頁端多了個(gè)淺色模式(月之亮面?),但最重要的是,它能讀PDF掃描件了!

啥意思呢,就是我把我身份證的照片發(fā)給他,它直接給我把家庭住址擇出來了,你要讓它按姓名、出生日期...列成張表,它還能給你整的挺規(guī)矩。

月之暗面自己的描述是這樣:

  • 我們實(shí)現(xiàn)了從掃描件(文檔、合同、白板等等)提取文字的功能。目前已支持 PDF 格式的掃描文件上傳解析。
  • 比如可以提取白板上的手寫內(nèi)容。

在一段演示視頻里,使用者給Kimi Chat發(fā)了一張關(guān)于它這次新功能介紹的草圖,然后Kimi chat看著這個(gè)手寫草稿,直接轉(zhuǎn)換成了一個(gè)信息表格。

在這之前,Kimi Chat的人設(shè)是“長”,能一口氣讀20萬漢字。現(xiàn)在它能讀掃描件了,論文、手稿、盜版書(不是),想象空間又變大了。

這么說吧,做掃描全能王起家的那家公司,去年?duì)I收10個(gè)億,今年要在上交所上市了。

但這能力到底有沒有說的這么好,得試試。我先扔了一份浙江省高院發(fā)布的《關(guān)于規(guī)范律師調(diào)查令制度的辦法》的掃描件給它,看Kimi Chat能不能幫我理一下這份20頁文件的大致內(nèi)容,效果還不錯(cuò):

圖源:Kimi Chat

接著我繼續(xù)問,這份文件里“浙江省高級(jí)人民法院關(guān)于規(guī)范律師調(diào)查令制度的辦法”目錄下,第五條寫的是什么。先說謎底:

圖源:《關(guān)于規(guī)范律師調(diào)查令制度的辦法》

Kimi Chat找到了精確位置,第一遍沒答完整,第二遍就全對(duì)了:

圖源:Kimi Chat

嚴(yán)肅的測(cè)試到此為止,然后我扔給了它一張即刻用戶@我有貓之貍寶兒de麻麻貼出的手稿,讓它幫我整理成一份更清晰的表格:

圖源:即刻用戶@我有貓之貍寶兒de麻麻

這手稿講的什么,肯定有人一眼就能看出來。如果沒看出來的話,跟著Kimi Chat的思路試試:

圖源:Kimi Chat

它一眼就看出這是一份家族譜系了,然后我順著繼續(xù)問它如何理解這份族譜。讓我驚訝的是,它已經(jīng)隱約判斷出這是一個(gè)文學(xué)作品中的虛構(gòu)家族,并且在其中看到了世代傳承的復(fù)雜性,甚至一些悲劇元素。

合理猜測(cè),Kimi Chat可能已經(jīng)在背后對(duì)這些名字完成了一些搜索的動(dòng)作,但這族譜到底出自何處,它沒有給出判斷:

圖源:Kimi Chat

不過,當(dāng)我告訴它這份族譜出自一個(gè)“文學(xué)名著”,有個(gè)這個(gè)關(guān)鍵的限定詞,它完全推理出了準(zhǔn)確答案(我很懷疑它早就知道了)——《百年孤獨(dú)》:

圖源:Kimi Chat

到這兒我、或許有一些人會(huì)有疑問,對(duì)于大模型來說,讀圖片(JPEG)和讀PDF的區(qū)別到底是啥,誰更難?

我拿這個(gè)問題問GPT-4,對(duì)于GPT-4或者所有基于文本預(yù)訓(xùn)練的大模型來說,處理PDF文件比JPEG文件更加直接和簡(jiǎn)單,下面是GPT-4的回答:

對(duì)于GPT-4這樣的大型語言模型來說,處理JPEG文件和PDF文件在技術(shù)上存在顯著差異,而且難度也不同。

處理JPEG文件:

  • GPT-4本身是一個(gè)以文本為基礎(chǔ)的模型,它并不直接處理圖像數(shù)據(jù)。因此,對(duì)于JPEG這樣的圖像文件,GPT-4無法直接解讀圖像內(nèi)容。
  • 如果要讓GPT-4處理JPEG文件,就需要先將圖像內(nèi)容轉(zhuǎn)換為文本描述。這通常涉及使用計(jì)算機(jī)視覺模型來識(shí)別圖像中的元素并將它們轉(zhuǎn)換為文本描述,然后這個(gè)描述可以被GPT-4處理。

處理PDF文件:

  • PDF文件處理對(duì)于GPT-4來說相對(duì)更直接,因?yàn)镻DF文件通常包含大量的文本內(nèi)容。GPT-4可以處理這些文本信息,進(jìn)行理解、生成回應(yīng)或進(jìn)行其他文本相關(guān)的任務(wù)。
  • 然而,如果PDF文件中包含圖像、表格或復(fù)雜的格式化布局,這些非文本元素就可能難以被GPT-4直接處理。在這種情況下,可能需要使用OCR技術(shù)將非文本內(nèi)容轉(zhuǎn)換為文本,或者進(jìn)行特定的格式處理,才能有效地利用GPT-4。

所以在難度上,對(duì)于大語言模型來說,直接處理PDF文件還在模型的直接能力范圍里,處理JPEG文件需要圖像到文本的轉(zhuǎn)換,這需要多模態(tài)能力的介入,使得整個(gè)處理過程更為復(fù)雜和曲折。

這也能解釋為什么當(dāng)我嘗試給Kimi Chat一張圖片,它好像仍然在用讀“文檔”的邏輯理解這張圖。我拍了一張Manner咖啡的杯套,圖片是這樣的:

圖源:油醋

Kimi Chat完全讀懂了這個(gè)杯套上的文字內(nèi)容,并且從這些字眼里推測(cè)出了這個(gè)物件來字咖啡或飲品店的杯狀飲品身上:

圖源:Kimi Chat

但它無法識(shí)別圖案,就沒法識(shí)別這到底是一家咖啡店還是奶茶店的杯套——它似乎本能的跳過了符號(hào)化的部分。但當(dāng)我給了它一點(diǎn)“觀察圖中符號(hào)”的傾向,它開始把注意力放在畫面里的圖形部分,最終——在Manner的標(biāo)志里找到了“Manner”這幾個(gè)字:

圖源:Kimi Chat

Bingo!

給Kimi Chat累夠嗆,就是咖啡涼了。

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載