首頁 > 區(qū)塊鏈 > 谷歌Gemini技術報告出爐，作者多達900余人

谷歌Gemini技術報告出爐，作者多達900余人

時間：2023-12-21 14:22:05

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #谷歌Gemini技術報告出爐，作者多達900余人#】

從此以后，Google Scholar 數(shù)據(jù)該出問題了。

原文來源：機器之心

圖片來源：由無界 AI生成

備受期待的谷歌 Gemini 技術報告完整版，今天終于出爐了。

兩周前，人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini，其宣稱超越 GPT-4 的強大性能，以及對于圖像、視頻等領域的理解能力讓人們似乎看到了未來。不過由于谷歌演示的 demo 涉嫌夸大效果，Gemini 又很快陷入了爭議。

但作為生成式 AI 領域最近的重要進展，人們對于 Gemini 的期待越來越高，有團隊很快進行研究發(fā)了測試論文。今天發(fā)布的 64 頁技術報告，或許可以為我們的許多疑惑進行更加直觀的解釋。

這篇技術報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬，另外還有謝爾蓋?布林這樣的公司聯(lián)合創(chuàng)始人。

論文鏈接：https://arxiv.org/abs/2312.11805

另外，該文章的作者數(shù)量也奪人眼球 ——941 個人，搞得 arXiv 網(wǎng)頁都有點卡：

一頁顯示不過來。

從文章第 35 頁起，谷歌開始羅列所有「貢獻者」，從 Team Leader 到主要貢獻者，再到貢獻者分門別類寫到了第 45 頁，看起來之前各路媒體說谷歌在 Gemini 上投入了大量工程師，的確是沒說錯。

谷歌表示，在每個任務方向上，人們對 Gemini 所做的貢獻是同等重要的，名字按隨機順序列出。Gemini 是一項跨谷歌內(nèi)部多團隊的工作，成員來自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門。

此外還有提供了支持的團隊和人（比如公司 CEO 桑達爾?皮查伊），以及沒有列出的很多谷歌內(nèi)部貢獻者。

對此有人吐槽道，論文作者比解釋技術寫的還長，你這怕不是在水字數(shù)？

光是這些花費在這些工程師、科學家們身上的工資每年就有上億美元。

在技術報告中，谷歌表示 Gemini 是一個多模態(tài)大模型體系，它在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個版本，適用于從復雜推理任務到移動設備的各種應用。

通過在大量基準的跑分表明，功能最強大的 Gemini Ultra 在 32 個基準中的 30 個中刷新了 SOTA（業(yè)內(nèi)最佳）水平。谷歌特別指出，Gemini 是第一個在經(jīng)過充分研究的考試基準 MMLU 上實現(xiàn)人類專家表現(xiàn)的模型。谷歌相信，Gemini 在跨模態(tài)推理和語言理解方面的突出能力將支持各種用例。

以下圖所示的教育環(huán)境為例，老師畫了一個滑雪者從斜坡上滑下的物理問題，學生試圖進行解答。利用 Gemini 的多模態(tài)推理能力，該模型能夠理解凌亂的筆跡，正確理解問題的表述，將問題和解決方案都轉換為數(shù)學排版，識別學生在解決問題時出錯的具體推理步驟，然后給出問題的正確解法。

圖 1，筆記識別，解答物理問題。

Gemini 的推理能力展示了構建能解決更復雜多步驟問題的通用智能體的前景，比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動設備上，Gemini Nano 在摘要、閱讀理解、文本填充任務等任務中表現(xiàn)出色，也體現(xiàn)了推理、STEM、編碼、多模態(tài)和多語言任務的能力。

在文章的技術解釋部分中，谷歌概述了 Gemini 的模型架構、訓練基礎設施和訓練數(shù)據(jù)集，對 Gemini 模型系列進行了詳細評估，涵蓋文本、代碼、圖像、音頻和視頻方面。谷歌討論了模型審核與部署方法，最后也討論了 Gemini 的更廣泛影響、局限性及其潛在應用。

模型架構

Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ，如下所示：

Ultra：可以在各種高度復雜的任務中提供SOTA性能，包括推理和多模態(tài)任務。它還可以在TPU加速器上有效地進行大規(guī)模服務；
Pro：是谷歌在成本和延遲方面進行性能優(yōu)化的模型，可在各種任務中提供良好的性能，并表現(xiàn)出強大的推理性能和廣泛的多模態(tài)能力；
Nano：谷歌最高效的模型，專為在設備上運行而設計。谷歌訓練了兩個版本的 Nano，參數(shù)分別為 1.8B (Nano-1) 和 3.25B (Nano-2)，分別針對低內(nèi)存和高內(nèi)存設備，采用 4 位量化進行部署，并提供一流的性能。

Gemini 的輸入有多種形式，如文本、音頻、圖片、視頻等，如下圖2所示。值得一提的是，Gemini是原生多模態(tài)的。

Gemini 的視頻理解能力是通過將視頻編碼為大上下文窗口中的幀序列來完成的。視頻幀或圖像可以自然地與文本或音頻交織，作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率，以便將更多的計算花費在需要細粒度理解的任務上。?

此外，Gemini 可以直接從通用語音模型 (USM) 功能中攝取 16kHz 的音頻信號。這使得模型能夠捕獲當音頻被簡單地映射到文本輸入時通常會丟失的細微差別。

訓練基礎設施

谷歌使用 TPUv5e 和 TPUv4 訓練 Gemini 模型，具體取決于模型的大小和配置。其中，訓練 Gemini Ultra 使用跨多個數(shù)據(jù)中心的大量 TPUv4 加速器，相比于 PaLM-2，規(guī)模顯著增加，帶來了新的基礎設施挑戰(zhàn)。

增加加速器的數(shù)量會導致整個系統(tǒng)中硬件的平均故障間隔時間成比例地減少。因此，谷歌最大限度地減少了計劃重新規(guī)劃和搶占的比率，但實際上機器故障在如此大規(guī)模的硬件加速器中很常見。?

TPUv4 加速器部署在 4096 個芯片的「SuperPod」中，每個芯片連接到一個專用光開關，可以在大約 10 秒內(nèi)將 4x4x4 芯片cube動態(tài)重新配置為任意 3D 環(huán)面拓撲。對于 Gemini Ultra，谷歌為每個超級容器保留少量cube，以實現(xiàn)熱備用和滾動維護。

TPU 加速器主要通過高速芯片間互連進行通信，但對于 Gemini Ultra，谷歌使用其集群內(nèi)和集群間網(wǎng)絡在多個數(shù)據(jù)中心中組合 SuperPod。

使用定期檢查持久集群存儲權重的傳統(tǒng)方法，在這種規(guī)模下維持高吞吐量是不可能的。因此谷歌為 Gemini 使用了模型狀態(tài)的冗余內(nèi)存副本，并且在任何計劃外的硬件故障中，Gemini 可以直接從完整的模型副本中快速恢復。與 PaLM 和 PaLM-2 相比，盡管使用的訓練資源要大得多，但恢復速度顯著加快。

最終，最大規(guī)模訓練 job 的整體吞吐量從 85% 增加到 97%。

Gemini 模型是在多模態(tài)和多語言數(shù)據(jù)集上進行訓練的，預訓練數(shù)據(jù)集使用來自網(wǎng)絡文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)。谷歌使用了 SentencePiece tokenizer，并發(fā)現(xiàn)在整個訓練語料庫的大樣本上訓練 tokenizer 可以提高推斷詞匯量，從而提高模型性能。

此外，谷歌還使用啟發(fā)式規(guī)則和基于模型的 tokenizer 對所有數(shù)據(jù)集應用質(zhì)量過濾器，并執(zhí)行安全過濾以刪除有害內(nèi)容。

評估

Gemini 模型本質(zhì)上是多模態(tài)模型，跨文本、圖像、音頻和視頻數(shù)據(jù)聯(lián)合訓練。一個懸而未決的問題是，這種聯(lián)合訓練是否能夠產(chǎn)生一種在每個領域都具有強大能力的模型 —— 即使與針對單個領域進行定制的模型相比也是如此。谷歌進行了一系列的評估實驗證明：Gemini 在廣泛的文本、圖像、音頻和視頻基準上實現(xiàn)了新的 SOTA 水平。?

文本

谷歌將 Gemini Pro 和 Gemini Ultra 與多個外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進行了一系列基于文本的學術基準比較，涵蓋推理、閱讀理解、STEM 和編碼。實驗結果如下表 2 所示：

谷歌還通過在六種不同能力的 50 多個基準上進行評估，檢查了 Gemini 模型的能力趨勢，涵蓋：