50款禁用软件免费下载安装,在线观看黄色毛片av,漂亮人妇交换系列小说

AI模型“大即好”的觀點已經(jīng)走不通了

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-27 06:44:33 瀏覽：7523次

導讀：作者 |The Economist 譯者| 明明如月責編 | 夏萌出品 | CSDN（ID：CSDNnews）如果 AI 想要發(fā)展更好，將不得不用更少的資源實現(xiàn)更強大的功能。圖源：視覺中國談起大型語言模型（LLMs），如 OpenAI 的 GPT （Generative Pre-trained Transformer）驅(qū)動美...

作者 |The Economist 譯者| 明明如月

責編 | 夏萌

出品 | CSDN（ID：CSDNnews）

如果 AI 想要發(fā)展更好，將不得不用更少的資源實現(xiàn)更強大的功能。

圖源：視覺中國

談起“大型語言模型”（LLMs），如 OpenAI 的 GPT （Generative Pre-trained Transformer）驅(qū)動美國流行聊天機器人的核心力量名字已經(jīng)說明了一切。這種現(xiàn)代 AI 系統(tǒng)由龐大的人工神經(jīng)網(wǎng)絡驅(qū)動，這些網(wǎng)絡采用一種寬泛的方式模擬著生物大腦的工作機制。2020 年發(fā)布的 GPT-3 就是一款大語言模型 “巨獸”，擁有 1750 億個“參數(shù)”，這是神經(jīng)元之間模擬連接的名稱。GPT-3 通過在幾周內(nèi)使用數(shù)千個擅長 AI 計算的 GPU 處理數(shù)萬億字的文本進行訓練，耗資預計超過 460 萬美元。

然而，現(xiàn)代 AI 研究的共識是：“大即好，越大越好”。因此，模型的規(guī)模增長速度一直處于飛速發(fā)展之中。GPT-4 于三月份發(fā)布，據(jù)估計其擁有大約 1 萬億個參數(shù)比前一代增加了近六倍。OpenAI 的 CEO Sam Altman 估計其開發(fā)成本超過 1 億美元。而整個行業(yè)也呈現(xiàn)出同樣的趨勢。研究公司 Epoch AI 在 2022 年預測，訓練頂級模型所需的計算能力每六到十個月就會翻倍（見下圖）。

AI 模型參數(shù)規(guī)模不斷增大會帶來一些問題。如果 Epoch AI 的預測準確，訓練成本每十個月翻一倍，那么到 2026 年，訓練成本可能超過十億美元這還只是在假設數(shù)據(jù)不會先被耗盡的前提下。2022 年 10 月的一項分析預測，用于訓練的高質(zhì)量文本可能在相同的時間內(nèi)用荊此外，即使模型訓練完成，運行大型模型的實際成本也可能十分昂貴。

今年早些時候，摩根士丹利銀行估算，如果一半的 Google 搜索由目前的 GPT 類型程序處理，這可能會讓公司每年多支出 60 億美元。隨著模型規(guī)模的增長，這個數(shù)字可能會繼續(xù)上升。

因此，許多人認為 AI 模型“大即好”的觀點已經(jīng)走不通了。如果要繼續(xù)改善 AI 模型（更別提實現(xiàn)那些更宏大的 AI夢想了），開發(fā)者們需要找出如何在資源有限的情況下獲得更好的性能。就像 Altman 先生在今年四月回顧大型 AI 的歷史時所說：“我認為我們已經(jīng)到了一個時代的盡頭。”

量化緊縮

反之，研究人員開始關注如何提高模型的效率，而不只是追求規(guī)模。一種方式是通過降低參數(shù)數(shù)量但使用更多數(shù)據(jù)來訓練模型以達到權衡。2022年，Google 的 DeepMind 部門在一個包含 1.4 萬億字的語料庫上訓練了一個擁有700 億參數(shù)的 LLM，名為 Chinchilla。盡管參數(shù)少于GPT-3的1750億，訓練數(shù)據(jù)只有 3000億字，但這個模型的表現(xiàn)超過了GPT-3。為一個較小的LLM提供更多的數(shù)據(jù)意味著它需要更長的時間來訓練，但結果是一個更孝更快、更便宜的模型。

另一種選擇是讓降低浮點數(shù)的精度。減少模型中每個數(shù)字的精確位數(shù)，即四舍五入，可以大幅減少硬件需求。奧地利科學技術研究所的研究人員在三月份證明，四舍五入可以大幅度減少類似 GPT-3 模型的內(nèi)存消耗，使得模型可以在一臺高端 GPU 上運行，而不是五臺，且“精度下降可以忽略不計”。

一些用戶會對通用 LLM 進行微調(diào)，專注于生成法律文件或檢測假新聞等特定任務。雖然這不像首次訓練 LLM 那樣復雜，但仍可能代價昂貴且耗時長。微調(diào) Meta（Facebook 的母公司）開源的擁有 650 億參數(shù)的 LLaMA 模型，需要多個 GPU，花費的時間從幾個小時到幾天不等。

華盛頓大學的研究人員發(fā)明了一種更高效的方法，可以在一天內(nèi)在單個 GPU 上從 LLaMA 創(chuàng)建一個新模型 Guanaco，性能損失微乎其微。其中一部分技巧就是采用了類似奧地利研究人員的四舍五入技術。但他們還使用了一種叫做 “低秩自適應（Low-Rank Adaptation ，LoRA）” 的技術，該技術涉及固定模型的現(xiàn)有參數(shù)，然后在其中添加一組新的、較小的參數(shù)。微調(diào)是通過僅改變這些新變量來完成的。這使得事情簡化到即使是計算能力相對較弱的計算機，如智能手機，也可以勝任這項任務。如果能讓 LLM 在用戶設備上運行，而非目前的巨型數(shù)據(jù)中心，那可能帶來更大的個性化和更好的隱私保護。

同時，一個 Google 的團隊為那些可以使用較小模型的人提供了新的選擇。這種方法專注于從大型通用模型中挖掘特定的知識，并將其轉(zhuǎn)化為一個更小且專業(yè)化的模型。大模型充當教師，小模型充當學生。研究人員讓教師回答問題，并展示其推理過程。教師模型（大模型）的答案和推理都用于訓練學生模型（小模型）。該團隊成功地訓練了一個只有 77 億參數(shù)的學生模型（小模型），在特定的推理任務上超過了其有 5400 億參數(shù)的教師模型（大模型）。

另一種方法是改變模型構建方式，而不是關注模型在做什么。大部分 AI 模型都是采用 Python 語言開發(fā)的。它設計得易于使用，讓編程人員無需考慮程序在運行時如何操作芯片。屏蔽這些細節(jié)的代價是代碼運行得更慢。更多地關注這些實現(xiàn)細節(jié)可以帶來巨大的收益。正如開源 AI 公司 Hugging Face 的首席科學官Thomas Wolf 所說，這是“目前人工智能領域研究的一個重要方面”。

優(yōu)化代碼

例如，在 2022 年，斯坦福大學的研究人員發(fā)布了一種改進版的“注意力算法”，該算法允許大語言模型（LLM）學習詞語和概念之間的聯(lián)系。這個想法是修改代碼以考慮正在運行它的芯片上發(fā)生的情況，特別是追蹤何時需要檢索或儲存特定信息。他們的算法成功將 GPT-2（一種早期的大型語言模型）的訓練速度提高了三倍，還增強了它處理更長查詢的能力。

更簡潔的代碼也可以通過更好的工具來實現(xiàn)。今年早些時候，Meta 發(fā)布了 AI 編程框架 PyTorch 的新版本。通過讓程序員更多地思考如何在實際芯片上組織計算，它可以通過添加一行代碼來使模型的訓練速度提高一倍。由Apple 和 Google 的前工程師創(chuàng)建的初創(chuàng)公司 Modular，上個月發(fā)布了一種名為 Mojo 的新的專注于 AI 的編程語言，它基于 Python。Mojo 讓程序員可以控制過去被屏蔽的所有細節(jié)，這在某些情況下使用 Mojo 編寫的代碼運行速度比用 Python 編寫的等價代碼塊數(shù)千倍。

最后一個選擇是改進運行代碼的芯片。雖然最初是用來處理現(xiàn)代視頻游戲中的復雜圖形, GPU 意外地在運行AI模型上表現(xiàn)良好。Meta 的一位硬件研究員表示，對于 "推理"（即，模型訓練完成后的實際運行），GPU 的設計并不完美。因此，一些公司正在設計自己的更專業(yè)的硬件。Google 已經(jīng)在其內(nèi)部的 “TPU” 芯片上運行了大部分 AI 項目。Meta 及其 MTIA 芯片，以及 Amazon 及其 Inferentia 芯片，都在做類似嘗試。

有時候只需要一些簡單的改變（比如對數(shù)字四舍五入或切換編程語言）就可以獲得巨大的性能提升，這可能讓人感到驚訝。但這反映了大語言模型（LLM）的發(fā)展速度之快。多年來，大語言模型主要是作為研究項目，關注點主要是讓它們能夠正常運行和產(chǎn)生有效結果，而不是過于關注其設計的優(yōu)雅性。只是最近，它們才變成了商業(yè)化、面向大眾市場的產(chǎn)品。大多數(shù)專家都認為，還有很大的改進空間。正如斯坦福大學的計算機科學家 Chris Manning 所說：“沒有任何理由相信目前使用的神經(jīng)架構（指代當前的神經(jīng)網(wǎng)絡結構）最優(yōu)的，不排除未來會出現(xiàn)更先進的架構”。

相關熱詞： 模型大即好觀點已經(jīng) 不通

AI模型“大即好”的觀點已經(jīng)走不通了
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-27 06:44:33 瀏覽：7523次

相關內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關于我們

版權聲明

AI模型“大即好”的觀點已經(jīng)走不通了 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-27 06:44:33 瀏覽：7523次