當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 微軟亞洲研究院韋福如：人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線

微軟亞洲研究院韋福如：人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-01 19:18:45 瀏覽：2901次

導(dǎo)讀：機(jī)器之心專欄作者：韋福如本文為微軟亞洲研究院全球研究合伙人韋福如的分享，講述了他對(duì)人工智能、計(jì)算機(jī)及其交叉學(xué)科領(lǐng)域的觀點(diǎn)洞察及前沿展望。從人工智能的發(fā)展歷程來看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的問世無疑是一個(gè)重要的里程碑。由它所...

機(jī)器之心專欄

作者：韋福如

本文為微軟亞洲研究院全球研究合伙人韋福如的分享，講述了他對(duì)人工智能、計(jì)算機(jī)及其交叉學(xué)科領(lǐng)域的觀點(diǎn)洞察及前沿展望。

從人工智能的發(fā)展歷程來看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的問世無疑是一個(gè)重要的里程碑。由它所驅(qū)動(dòng)的人工智能應(yīng)用已經(jīng)展現(xiàn)出高度的通用性和可用性，并且能夠覆蓋多個(gè)場(chǎng)景和行業(yè) 這在人工智能的歷史上前所未有。

然而，人工智能的科研工作者們不會(huì)滿足于此。從某種意義上來說，大模型只是人工智能漫長(zhǎng)研究道路上一個(gè)精彩的「開局」。但當(dāng)我們滿懷雄心壯志邁向下一個(gè)里程碑時(shí)，卻發(fā)現(xiàn)僅僅依賴現(xiàn)有的技術(shù)和模型已經(jīng)難以應(yīng)對(duì)新的挑戰(zhàn)，我們需要新的突破和創(chuàng)新。

Transformer 網(wǎng)絡(luò)架構(gòu)、「語言」模型（Next-Token Prediction，或自回歸模型）學(xué)習(xí)范式，規(guī)模法則（Scaling Law），以及海量的數(shù)據(jù)和計(jì)算資源，是構(gòu)成當(dāng)前人工智能基礎(chǔ)大模型范式遷移的核心技術(shù)要素。在這套「黃金組合」的基礎(chǔ)上，目前人工智能基礎(chǔ)大模型的大部分工作都集中在繼續(xù)增加訓(xùn)練數(shù)據(jù)量和擴(kuò)大模型規(guī)模。但我們認(rèn)為，這套范式并不足以支撐人工智能未來的發(fā)展。當(dāng)我們被束縛在既有的架構(gòu)中，只追求增量式的創(chuàng)新時(shí)，也就意味著我們已經(jīng)看到了現(xiàn)有技術(shù)路徑的局限性，人工智能基礎(chǔ)創(chuàng)新的第一增長(zhǎng)曲線的頂峰已然近在咫尺。

「無論把多少架馬車連續(xù)相加，都不能造出一輛火車。只有從馬車跳到火車的時(shí)候，才能取得十倍速的增長(zhǎng)�！辜s瑟夫·熊彼特的經(jīng)典名言表明，第二增長(zhǎng)曲線從不會(huì)誕生于對(duì)現(xiàn)有成果的簡(jiǎn)單疊加，我們需要在人工智能基礎(chǔ)模型的組成要素中，尋找撬動(dòng)第二增長(zhǎng)曲線的驅(qū)動(dòng)力。

因此，在微軟亞洲研究院，我們將目光聚焦到了人工智能的第一性原理，從根本出發(fā)，構(gòu)建能實(shí)現(xiàn)人工智能效率與性能十倍甚至百倍提升，且具備更強(qiáng)涌現(xiàn)能力的基礎(chǔ)模型，探索引領(lǐng)人工智能走向第二增長(zhǎng)曲線的途徑。

人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線

基礎(chǔ)模型是人工智能的第一性原理

如果對(duì)人工智能的「組件」進(jìn)行一次「二維展開」，我們認(rèn)為它將呈現(xiàn)出以下幾個(gè)部分：處于最上層的是自主智能體（Autonomous Agent），它的目標(biāo)是能通過自主學(xué)習(xí)和適應(yīng)性調(diào)整來完成各種任務(wù)。最底層是「智能」本質(zhì)的科學(xué)理論支撐，可以幫助我們理解「智能」（尤其是人工智能）的邊界和機(jī)理。位于兩者之間的部分，我們將其稱為基礎(chǔ)模型（Foundation Model）。在數(shù)據(jù)、算力和新的軟硬件等基礎(chǔ)設(shè)施的支持下，基礎(chǔ)模型是將科學(xué)理論轉(zhuǎn)化成智能體的實(shí)際行為。

通用型人工智能基礎(chǔ)研究的組成部分

在勾畫人工智能的未來藍(lán)圖時(shí)，基礎(chǔ)模型無疑是人工智能的第一性原理，其中，基礎(chǔ)網(wǎng)絡(luò)架構(gòu)（Model Architecture）和學(xué)習(xí)范式（Learning Paradigm）是其兩大核心基矗

對(duì)上層而言，基礎(chǔ)模型驅(qū)動(dòng)自主智能體的創(chuàng)建，為更多革命性的應(yīng)用和場(chǎng)景提供動(dòng)力，就像為上層應(yīng)用持續(xù)供電的發(fā)電機(jī)。對(duì)下，基礎(chǔ)模型則可以促進(jìn)智能的科學(xué)理論（Science of Intelligence）的深入研究。事實(shí)上，無論是萬億級(jí)參數(shù)的大模型所展現(xiàn)出的「暴力」美學(xué)，還是通過擴(kuò)展規(guī)律（Scaling Law）來尋找關(guān)鍵的物理指標(biāo)，都應(yīng)該成為科學(xué)研究的一部分。隨著智能的科學(xué)理論的推進(jìn)，未來我們或許可以僅通過簡(jiǎn)潔的公式就能描述和推導(dǎo)出人工智能的規(guī)律。

要實(shí)現(xiàn)這些目標(biāo)，我們需要一個(gè)強(qiáng)大的基礎(chǔ)模型作為核心。對(duì)基礎(chǔ)模型的重構(gòu)，為人工智能基礎(chǔ)創(chuàng)新的第二發(fā)展曲線提供了關(guān)鍵的突破口。

接下來的問題是，我們應(yīng)該如何改進(jìn)基礎(chǔ)模型？

正如之前所提到的，現(xiàn)有的「黃金組合」依舊是基礎(chǔ)模型的技術(shù)根本，但是我們需要更加根本和基礎(chǔ)的研究突破以引領(lǐng)未來的人工智能基礎(chǔ)模型的構(gòu)建和開發(fā)。我們期望通過對(duì)這一組合進(jìn)行根本性的變革，使其成為引領(lǐng)未來人工智能訓(xùn)練范式的基石，讓基礎(chǔ)模型能真正成為人類社會(huì)的基礎(chǔ)設(shè)施。而新一代的基礎(chǔ)模型應(yīng)當(dāng)具備兩大特質(zhì)：強(qiáng)大且高效。其中，強(qiáng)大體現(xiàn)在其性能、泛化能力和抵抗幻覺能力等方面的出色表現(xiàn)，高效則是指低成本、高效率和低能耗。

目前已有的大模型通過不斷增加數(shù)據(jù)量與算力規(guī)模，或者說規(guī)模法則已經(jīng)在一定程度上解決了第一個(gè)問題，但這是以成本效率為代價(jià)來實(shí)現(xiàn)的。為了突破這些局限，我們推出了如 RetNet 和 BitNet 等旨在取代 Transformer 的新型網(wǎng)絡(luò)架構(gòu)。同時(shí)，我們也在持續(xù)推動(dòng)多模態(tài)大語言模型（MLLMs）的演進(jìn)，并探索新的學(xué)習(xí)范式，「三管齊下」來構(gòu)建全新的基礎(chǔ)模型，為人工智能的未來發(fā)展奠定堅(jiān)實(shí)的基矗

推理效率

是新一代基礎(chǔ)模型網(wǎng)絡(luò)架構(gòu)革新的關(guān)鍵驅(qū)動(dòng)力

基礎(chǔ)網(wǎng)絡(luò)架構(gòu)是人工智能模型的骨干，只有基礎(chǔ)架構(gòu)足夠完善，才能保證上層的學(xué)習(xí)算法和模型訓(xùn)練高效運(yùn)行。目前，Transformer 架構(gòu)被廣泛應(yīng)用于大語言模型，并且利用其并行訓(xùn)練的特點(diǎn)顯著提高了模型的性能，成功解決了基于循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)在長(zhǎng)程依賴建模方面的不足。但與此同時(shí)，它也帶來了提升推理效率的巨大挑戰(zhàn)。

根據(jù)當(dāng)前大模型的發(fā)展趨勢(shì)，如果繼續(xù)在 Transformer 架構(gòu)上訓(xùn)練模型，我們很快就會(huì)發(fā)現(xiàn)，現(xiàn)有的計(jì)算能力將難以滿足下一階段人工智能發(fā)展的需求。

這就明確了一個(gè)問題推理效率已經(jīng)成為現(xiàn)有基礎(chǔ)網(wǎng)絡(luò)架構(gòu)演進(jìn)的瓶頸，也是推動(dòng)未來基礎(chǔ)網(wǎng)絡(luò)架構(gòu)變革的關(guān)鍵驅(qū)動(dòng)力。提升推理效率不僅意味著降低成本，更代表著我們可以將基礎(chǔ)模型真正變成像水和電一樣的基礎(chǔ)設(shè)施和資源，使每個(gè)人都能方便地獲取和使用。

而近期，我們推出的一種新型基礎(chǔ)網(wǎng)絡(luò)架構(gòu) Retentive Network（RetNet），成功突破了所謂的「不可能三角」難題，實(shí)現(xiàn)了帕累托（Pareto）優(yōu)化。也就是說，RetNet 在保持良好的擴(kuò)展性能和并行訓(xùn)練的同時(shí)，實(shí)現(xiàn)了低成本部署和高效率推理。我們的實(shí)驗(yàn)還證實(shí)，RetNet 的推理成本與模型序列長(zhǎng)度無關(guān)，這表示無論是處理長(zhǎng)文本序列，還是長(zhǎng)圖像序列，亦或是未來更長(zhǎng)的音視頻序列，RetNet 都可以保持穩(wěn)定的高效推理。這些優(yōu)勢(shì)讓 RetNet 成為繼 Transformer 之后大語言模型網(wǎng)絡(luò)架構(gòu)的有力繼承者。

模型網(wǎng)絡(luò)架構(gòu)之「不可能三角」問題

另外，隨著模型規(guī)模的不斷擴(kuò)展，計(jì)算能耗問題也日益凸顯，成為當(dāng)前網(wǎng)絡(luò)架構(gòu)中限制人工智能發(fā)展的另一大障礙。我們推出的 BitNet 則有效緩解了這一問題。

BitNet 是第一個(gè)支持訓(xùn)練 1 比特大語言模型的新型網(wǎng)絡(luò)結(jié)構(gòu)，具有強(qiáng)大的可擴(kuò)展性和穩(wěn)定性，能夠顯著減少大語言模型的訓(xùn)練和推理成本。與最先進(jìn)的 8 比特量化方法和全精度 Transformer 基線相比，BitNet 在大幅降低內(nèi)存占用和計(jì)算能耗的同時(shí)，表現(xiàn)出了極具競(jìng)爭(zhēng)力的性能。此外，BitNet 擁有與全精度 Transformer 相似的規(guī)模法則（Scaling Law），在保持效率和性能優(yōu)勢(shì)的同時(shí)，還可以更加高效地將其能力擴(kuò)展到更大的語言模型上，從而讓 1 比特大語言模型（1-bit LLM）成為可能。

如果說 RetNet 是從平行推理效能的角度革新了網(wǎng)絡(luò)架構(gòu)，那么 BitNet 則從正交的角度提升了推理效率。這兩者的結(jié)合，以及融合其他提升模型效率的技術(shù)比如混合專家模型（MoE）和稀疏注意力機(jī)制（Sparse Attention），將成為未來基礎(chǔ)模型網(wǎng)絡(luò)架構(gòu)的基矗

推動(dòng)多模態(tài)大語言模型演進(jìn)

邁向多模態(tài)原生

未來基礎(chǔ)模型的一個(gè)重要特征就是擁有多模態(tài)能力，即融合文本、圖像、語音、視頻等多種不同的輸入和輸出，讓基礎(chǔ)模型能夠像人類一樣能聽會(huì)看、能說會(huì)畫。而這也是構(gòu)建未來人工智能的必然方向。

在這一背景下，我們針對(duì)多模態(tài)大語言模型 Kosmos 展開了一系列研究。其中，Kosmos-1 能夠按照人類的推理模式，處理文本、圖像、語音和視頻等任務(wù)，構(gòu)建了全能型人工智能的雛形。Kosmos-2 則進(jìn)一步加強(qiáng)了感知與語言之間的對(duì)齊，它不僅能夠用語言描述圖像，還能識(shí)別圖像中的實(shí)體，解鎖了多模態(tài)大語言模型的細(xì)粒度對(duì)齊（Grounding）能力。這種能力為具身智能（Embodied AI）奠定了基礎(chǔ)，展示出了多模態(tài)模型在語言、感知、行動(dòng)和物理世界中大規(guī)模融合的可能性。

在 Kosmos-2 的基礎(chǔ)上，我們又推出了 Kosmos-2.5 。這一版本為多模態(tài)大語言模型賦予了通用的識(shí)字能力，使其能夠解讀文本密集的圖像，為智能文檔處理和機(jī)器人流程自動(dòng)化等應(yīng)用提供技術(shù)基矗在接下來的 Kosmos-3 中，我們將在基礎(chǔ)網(wǎng)絡(luò)架構(gòu)革新和創(chuàng)新學(xué)習(xí)范式的雙重驅(qū)動(dòng)下，進(jìn)一步推動(dòng)人工智能基礎(chǔ)模型的發(fā)展。

Kosmos 系列整體架構(gòu)圖：Kosmos-1 和 2 多模態(tài)大語言模型支持多模態(tài)輸入輸出，細(xì)粒度的對(duì)齊，遵循用戶指示，并可針對(duì)多模態(tài)任務(wù)（包括自然語言任務(wù)）進(jìn)行上下文學(xué)習(xí)

此外，語音無疑是未來多模態(tài)大語言模型的核心能力之一。因此，我們還推出了語音多模態(tài)大語言模型 VALL-E，并支持零樣本文本的語音合成。只需短短三秒的語音提示樣本，VALL-E 就能將輸入的文本用與輸入的提示語音相似的聲音朗讀出來。與傳統(tǒng)的非基于回歸任務(wù)訓(xùn)練的語音模型不同，VALL-E 是直接基于語言模型訓(xùn)練而成的。通過直接將語音合成轉(zhuǎn)化為一個(gè)語言模型任務(wù)，這一探索進(jìn)一步加強(qiáng)了語言和語音兩種模態(tài)的融合。

VALL-E 首先通過語音 codec 模型把連續(xù)的語音輸入轉(zhuǎn)化為離散的 token，從而可以進(jìn)行統(tǒng)一的語音 - 文本語言模型訓(xùn)練

Kosmos 系列模型和 VALL-E 都是我們?cè)诙嗄B(tài)大語言模型方面的早期探索，我們讓大語言模型具備了基本的多模態(tài)感知和生成的能力。但是，這還遠(yuǎn)遠(yuǎn)不夠，我們認(rèn)為未來的多模態(tài)大語言模型和人工智能基礎(chǔ)模型要能夠多模態(tài)原生（Multimodal Native），以實(shí)現(xiàn)真正的多模態(tài)推理，跨模態(tài)遷移以及新的涌現(xiàn)能力。

專注顛覆式創(chuàng)新

持續(xù)推進(jìn)通用型人工智能基礎(chǔ)研究第二增長(zhǎng)曲線

除了不斷推進(jìn)基礎(chǔ)模型架構(gòu)和多模態(tài)大語言模型的創(chuàng)新，我們還需要更多在基礎(chǔ)研究上的顛覆式突破。我們相信目前大模型應(yīng)用中的很多問題，比如成本問題、長(zhǎng)序列建模 / 長(zhǎng)期記憶（Long-term Memory）、幻覺問題以及安全問題等也需要從根本性的角度得到解決。

首先是大語言模型學(xué)習(xí)的理論框架和根本原理，現(xiàn)有的工作基本都是以實(shí)驗(yàn)和經(jīng)驗(yàn)為主的，未來的基礎(chǔ)創(chuàng)新需要從更加根本和理論的角度推進(jìn)。目前已經(jīng)有一些基于壓縮的工作，我們相信在不遠(yuǎn)的未來就有可能看到很大的突破性進(jìn)展。

另外，大模型的發(fā)展使得我們可以實(shí)現(xiàn)在很多任務(wù)上達(dá)到或者超過人類（如數(shù)據(jù)生產(chǎn)者或標(biāo)注員）的能力，這就需要我們探索一種在模型比人類強(qiáng)的前提下的新一代人工智能研究范式，包括且不限于基本的學(xué)習(xí)框架、數(shù)據(jù)和監(jiān)督信號(hào)來源以及評(píng)測(cè)等等。比如合成數(shù)據(jù)（Synthetic Data）會(huì)變得越來越重要，一方面是數(shù)據(jù)會(huì)變得不夠用，另一方面是模型自動(dòng)生成的數(shù)據(jù)質(zhì)量也越來越高了。還有一個(gè)機(jī)會(huì)是小數(shù)據(jù)大模型的學(xué)習(xí)，我們可以通過模型的自動(dòng)探索與學(xué)習(xí)，結(jié)合強(qiáng)化學(xué)習(xí)，從而讓人工智能可以更接近人類從少量數(shù)據(jù)中就能高效學(xué)習(xí)的學(xué)習(xí)方式。這也是進(jìn)一步通過規(guī)�；懔Γ⊿caling Compute）提升智能的可行方向之一。

還有一個(gè)機(jī)會(huì)是小數(shù)據(jù)大模型的學(xué)習(xí)，我們可以通過模型的自動(dòng)探索與學(xué)習(xí)，結(jié)合強(qiáng)化學(xué)習(xí)，從而讓人工智能可以更接近人類從少量數(shù)據(jù)中就能高效學(xué)習(xí)的學(xué)習(xí)方式。這也是進(jìn)一步通過規(guī)�；懔Γ⊿caling Compute）提升智能的可行方向之一。

最后，越來越多的研究工作表明，未來人工智能的模型、系統(tǒng)基礎(chǔ)設(shè)施和硬件的發(fā)展會(huì)有更多聯(lián)合創(chuàng)新、共同演進(jìn)的機(jī)會(huì)。

在對(duì)人工智能的漫長(zhǎng)探索中，我們正站在一個(gè)前所未有的歷史節(jié)點(diǎn)。現(xiàn)在我們可能正處于人工智能領(lǐng)域的「牛頓前夜（Pre-Newton）」，面臨著諸多未知和挑戰(zhàn)，同樣也有很多的機(jī)會(huì)，每一次的探索和突破都預(yù)示著未來無限的可能性。希望藉由我們的研究，人們能夠更深入地洞悉基礎(chǔ)模型和通用型人工智能的理論和技術(shù)的發(fā)展趨勢(shì)，揭示關(guān)于未來人工智能的「真理」。

我們相信，人工智能今后必將更加全面地融入我們的日常生活，改變我們工作、生活和交流的方式，并為人類解決最有挑戰(zhàn)和最為重要的難題，甚至對(duì)人類社會(huì)帶來深刻的影響。接下來的 5 到 10 年是人工智能最值得期待和激動(dòng)人心的時(shí)刻，我和我的同事們也將繼續(xù)專注于推動(dòng)人工智能基礎(chǔ)研究的突破和創(chuàng)新應(yīng)用的普及，讓其成為促進(jìn)人類社會(huì)發(fā)展和進(jìn)步的強(qiáng)大動(dòng)力。

本文作者

韋福如博士現(xiàn)任微軟亞洲研究院全球研究合伙人，領(lǐng)導(dǎo)團(tuán)隊(duì)從事基礎(chǔ)模型、自然語言處理、語音處理和多模態(tài)人工智能等領(lǐng)域的研究。最近，他還致力于推進(jìn)通用型人工智能的基礎(chǔ)研究和創(chuàng)新。韋博士還擔(dān)任西安交通大學(xué)兼職博士生導(dǎo)師，香港中文大學(xué)教育部-微軟重點(diǎn)實(shí)驗(yàn)室聯(lián)合主任。

韋博士在頂級(jí)會(huì)議和期刊上發(fā)表了 200 多篇研究論文（引用超過 30000 次，H-Index 84），并獲得 AAAI 2021 年最佳論文提名獎(jiǎng)以及 KDD 2018 最佳學(xué)生論文獎(jiǎng)。

韋博士分別于 2004 年和 2009 年獲得武漢大學(xué)學(xué)士學(xué)位和博士學(xué)位。2017 年，他因?qū)ψ匀徽Z言處理的貢獻(xiàn)入訊麻省理工技術(shù)評(píng)論》中國 35 歲以下創(chuàng)新者年度榜單（MIT TR35 China）。

上一篇：微軟將支持UNFCCC打造全新人工智能平臺(tái)和全球氣候數(shù)據(jù)中心

下一篇：知情人士：美政府強(qiáng)迫沙特基金退出奧特曼投資的AI芯片初創(chuàng)公司

AiLab云推薦

微軟亞洲研究院韋福如：人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-01 19:18:45 瀏覽：2901次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

微軟亞洲研究院韋福如：人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-01 19:18:45 瀏覽：2901次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

微軟亞洲研究院韋福如：人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-12-01 19:18:45 瀏覽：2901次