體驗(yàn)完楊植麟公司的新模型，發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了

時(shí)間：2023-12-28 13:41:00

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #體驗(yàn)完楊植麟公司的新模型，發(fā)現(xiàn)這Kimi Chat連家譜都敢讀了#】

原文來源：GenAI新世界

圖片來源：由無界 AI?生成

完了，又多了一個(gè)大模型能看懂我身份證了？

最近，楊植麟的創(chuàng)業(yè)公司月之暗面（Moonshot AI）發(fā)布了新版本模型moonshot-v1-20231225。

長長長長長的 Kimi Chat 第一次上新了。

圖源：Kimi Chat

點(diǎn)開Kimi Chat發(fā)現(xiàn)，它回復(fù)速度好像比以前快了，網(wǎng)頁端多了個(gè)淺色模式（月之亮面？），但最重要的是，它能讀PDF掃描件了！

啥意思呢，就是我把我身份證的照片發(fā)給他，它直接給我把家庭住址擇出來了，你要讓它按姓名、出生日期...列成張表，它還能給你整的挺規(guī)矩。

月之暗面自己的描述是這樣：

我們實(shí)現(xiàn)了從掃描件（文檔、合同、白板等等）提取文字的功能。目前已支持 PDF 格式的掃描文件上傳解析。
比如可以提取白板上的手寫內(nèi)容。

在一段演示視頻里，使用者給Kimi Chat發(fā)了一張關(guān)于它這次新功能介紹的草圖，然后Kimi chat看著這個(gè)手寫草稿，直接轉(zhuǎn)換成了一個(gè)信息表格。

在這之前，Kimi Chat的人設(shè)是“長”，能一口氣讀20萬漢字。現(xiàn)在它能讀掃描件了，論文、手稿、盜版書（不是），想象空間又變大了。

這么說吧，做掃描全能王起家的那家公司，去年?duì)I收10個(gè)億，今年要在上交所上市了。

但這能力到底有沒有說的這么好，得試試。我先扔了一份浙江省高院發(fā)布的《關(guān)于規(guī)范律師調(diào)查令制度的辦法》的掃描件給它，看Kimi Chat能不能幫我理一下這份20頁文件的大致內(nèi)容，效果還不錯(cuò)：

圖源：Kimi Chat

接著我繼續(xù)問，這份文件里“浙江省高級(jí)人民法院關(guān)于規(guī)范律師調(diào)查令制度的辦法”目錄下，第五條寫的是什么。先說謎底：

圖源：《關(guān)于規(guī)范律師調(diào)查令制度的辦法》

Kimi Chat找到了精確位置，第一遍沒答完整，第二遍就全對(duì)了：

圖源：Kimi Chat

嚴(yán)肅的測(cè)試到此為止，然后我扔給了它一張即刻用戶@我有貓之貍寶兒de麻麻貼出的手稿，讓它幫我整理成一份更清晰的表格：

圖源：即刻用戶@我有貓之貍寶兒de麻麻

這手稿講的什么，肯定有人一眼就能看出來。如果沒看出來的話，跟著Kimi Chat的思路試試：

圖源：Kimi Chat

它一眼就看出這是一份家族譜系了，然后我順著繼續(xù)問它如何理解這份族譜。讓我驚訝的是，它已經(jīng)隱約判斷出這是一個(gè)文學(xué)作品中的虛構(gòu)家族，并且在其中看到了世代傳承的復(fù)雜性，甚至一些悲劇元素。

合理猜測(cè)，Kimi Chat可能已經(jīng)在背后對(duì)這些名字完成了一些搜索的動(dòng)作，但這族譜到底出自何處，它沒有給出判斷：

圖源：Kimi Chat

不過，當(dāng)我告訴它這份族譜出自一個(gè)“文學(xué)名著”，有個(gè)這個(gè)關(guān)鍵的限定詞，它完全推理出了準(zhǔn)確答案（我很懷疑它早就知道了）——《百年孤獨(dú)》：

圖源：Kimi Chat

到這兒我、或許有一些人會(huì)有疑問，對(duì)于大模型來說，讀圖片（JPEG）和讀PDF的區(qū)別到底是啥，誰更難？

我拿這個(gè)問題問GPT-4，對(duì)于GPT-4或者所有基于文本預(yù)訓(xùn)練的大模型來說，處理PDF文件比JPEG文件更加直接和簡(jiǎn)單，下面是GPT-4的回答：

對(duì)于GPT-4這樣的大型語言模型來說，處理JPEG文件和PDF文件在技術(shù)上存在顯著差異，而且難度也不同。

處理JPEG文件:

GPT-4本身是一個(gè)以文本為基礎(chǔ)的模型，它并不直接處理圖像數(shù)據(jù)。因此，對(duì)于JPEG這樣的圖像文件，GPT-4無法直接解讀圖像內(nèi)容。
如果要讓GPT-4處理JPEG文件，就需要先將圖像內(nèi)容轉(zhuǎn)換為文本描述。這通常涉及使用計(jì)算機(jī)視覺模型來識(shí)別圖像中的元素并將它們轉(zhuǎn)換為文本描述，然后這個(gè)描述可以被GPT-4處理。

處理PDF文件:

PDF文件處理對(duì)于GPT-4來說相對(duì)更直接，因?yàn)镻DF文件通常包含大量的文本內(nèi)容。GPT-4可以處理這些文本信息，進(jìn)行理解、生成回應(yīng)或進(jìn)行其他文本相關(guān)的任務(wù)。
然而，如果PDF文件中包含圖像、表格或復(fù)雜的格式化布局，這些非文本元素就可能難以被GPT-4直接處理。在這種情況下，可能需要使用OCR技術(shù)將非文本內(nèi)容轉(zhuǎn)換為文本，或者進(jìn)行特定的格式處理，才能有效地利用GPT-4。

所以在難度上，對(duì)于大語言模型來說，直接處理PDF文件還在模型的直接能力范圍里，處理JPEG文件需要圖像到文本的轉(zhuǎn)換，這需要多模態(tài)能力的介入，使得整個(gè)處理過程更為復(fù)雜和曲折。

這也能解釋為什么當(dāng)我嘗試給Kimi Chat一張圖片，它好像仍然在用讀“文檔”的邏輯理解這張圖。我拍了一張Manner咖啡的杯套，圖片是這樣的：

圖源：油醋

Kimi Chat完全讀懂了這個(gè)杯套上的文字內(nèi)容，并且從這些字眼里推測(cè)出了這個(gè)物件來字咖啡或飲品店的杯狀飲品身上：

圖源：Kimi Chat

但它無法識(shí)別圖案，就沒法識(shí)別這到底是一家咖啡店還是奶茶店的杯套——它似乎本能的跳過了符號(hào)化的部分。但當(dāng)我給了它一點(diǎn)“觀察圖中符號(hào)”的傾向，它開始把注意力放在畫面里的圖形部分，最終——在Manner的標(biāo)志里找到了“Manner”這幾個(gè)字：

圖源：Kimi Chat

Bingo！

給Kimi Chat累夠嗆，就是咖啡涼了。

小編推薦下載