展會(huì)信息港展會(huì)大全

微軟亞洲研究院韋福如:人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-01 19:18:45   瀏覽:2901次  

導(dǎo)讀:機(jī)器之心專欄 作者:韋福如 本文為微軟亞洲研究院全球研究合伙人韋福如的分享,講述了他對(duì)人工智能、計(jì)算機(jī)及其交叉學(xué)科領(lǐng)域的觀點(diǎn)洞察及前沿展望。 從人工智能的發(fā)展歷程來看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的問世無疑是一個(gè)重要的里程碑。由它所...

機(jī)器之心專欄

作者:韋福如

本文為微軟亞洲研究院全球研究合伙人韋福如的分享,講述了他對(duì)人工智能、計(jì)算機(jī)及其交叉學(xué)科領(lǐng)域的觀點(diǎn)洞察及前沿展望。

從人工智能的發(fā)展歷程來看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的問世無疑是一個(gè)重要的里程碑。由它所驅(qū)動(dòng)的人工智能應(yīng)用已經(jīng)展現(xiàn)出高度的通用性和可用性,并且能夠覆蓋多個(gè)場(chǎng)景和行業(yè) 這在人工智能的歷史上前所未有。

然而,人工智能的科研工作者們不會(huì)滿足于此。從某種意義上來說,大模型只是人工智能漫長(zhǎng)研究道路上一個(gè)精彩的「開局」。但當(dāng)我們滿懷雄心壯志邁向下一個(gè)里程碑時(shí),卻發(fā)現(xiàn)僅僅依賴現(xiàn)有的技術(shù)和模型已經(jīng)難以應(yīng)對(duì)新的挑戰(zhàn),我們需要新的突破和創(chuàng)新。

Transformer 網(wǎng)絡(luò)架構(gòu)、「語言」模型(Next-Token Prediction,或自回歸模型)學(xué)習(xí)范式,規(guī)模法則(Scaling Law),以及海量的數(shù)據(jù)和計(jì)算資源,是構(gòu)成當(dāng)前人工智能基礎(chǔ)大模型范式遷移的核心技術(shù)要素。在這套「黃金組合」的基礎(chǔ)上,目前人工智能基礎(chǔ)大模型的大部分工作都集中在繼續(xù)增加訓(xùn)練數(shù)據(jù)量和擴(kuò)大模型規(guī)模。但我們認(rèn)為,這套范式并不足以支撐人工智能未來的發(fā)展。當(dāng)我們被束縛在既有的架構(gòu)中,只追求增量式的創(chuàng)新時(shí),也就意味著我們已經(jīng)看到了現(xiàn)有技術(shù)路徑的局限性,人工智能基礎(chǔ)創(chuàng)新的第一增長(zhǎng)曲線的頂峰已然近在咫尺。

「無論把多少架馬車連續(xù)相加,都不能造出一輛火車。只有從馬車跳到火車的時(shí)候,才能取得十倍速的增長(zhǎng)!辜s瑟夫·熊彼特的經(jīng)典名言表明,第二增長(zhǎng)曲線從不會(huì)誕生于對(duì)現(xiàn)有成果的簡(jiǎn)單疊加,我們需要在人工智能基礎(chǔ)模型的組成要素中,尋找撬動(dòng)第二增長(zhǎng)曲線的驅(qū)動(dòng)力。

因此,在微軟亞洲研究院,我們將目光聚焦到了人工智能的第一性原理,從根本出發(fā),構(gòu)建能實(shí)現(xiàn)人工智能效率與性能十倍甚至百倍提升,且具備更強(qiáng)涌現(xiàn)能力的基礎(chǔ)模型,探索引領(lǐng)人工智能走向第二增長(zhǎng)曲線的途徑。

人工智能基礎(chǔ)創(chuàng)新的第二增長(zhǎng)曲線

基礎(chǔ)模型是人工智能的第一性原理

如果對(duì)人工智能的「組件」進(jìn)行一次「二維展開」,我們認(rèn)為它將呈現(xiàn)出以下幾個(gè)部分:處于最上層的是自主智能體(Autonomous Agent),它的目標(biāo)是能通過自主學(xué)習(xí)和適應(yīng)性調(diào)整來完成各種任務(wù)。最底層是「智能」本質(zhì)的科學(xué)理論支撐,可以幫助我們理解「智能」(尤其是人工智能)的邊界和機(jī)理。位于兩者之間的部分,我們將其稱為基礎(chǔ)模型(Foundation Model)。在數(shù)據(jù)、算力和新的軟硬件等基礎(chǔ)設(shè)施的支持下,基礎(chǔ)模型是將科學(xué)理論轉(zhuǎn)化成智能體的實(shí)際行為。

通用型人工智能基礎(chǔ)研究的組成部分

在勾畫人工智能的未來藍(lán)圖時(shí),基礎(chǔ)模型無疑是人工智能的第一性原理,其中,基礎(chǔ)網(wǎng)絡(luò)架構(gòu)(Model Architecture)和學(xué)習(xí)范式(Learning Paradigm)是其兩大核心基矗

對(duì)上層而言,基礎(chǔ)模型驅(qū)動(dòng)自主智能體的創(chuàng)建,為更多革命性的應(yīng)用和場(chǎng)景提供動(dòng)力,就像為上層應(yīng)用持續(xù)供電的發(fā)電機(jī)。對(duì)下,基礎(chǔ)模型則可以促進(jìn)智能的科學(xué)理論(Science of Intelligence)的深入研究。事實(shí)上,無論是萬億級(jí)參數(shù)的大模型所展現(xiàn)出的「暴力」美學(xué),還是通過擴(kuò)展規(guī)律(Scaling Law)來尋找關(guān)鍵的物理指標(biāo),都應(yīng)該成為科學(xué)研究的一部分。隨著智能的科學(xué)理論的推進(jìn),未來我們或許可以僅通過簡(jiǎn)潔的公式就能描述和推導(dǎo)出人工智能的規(guī)律。

要實(shí)現(xiàn)這些目標(biāo),我們需要一個(gè)強(qiáng)大的基礎(chǔ)模型作為核心。對(duì)基礎(chǔ)模型的重構(gòu),為人工智能基礎(chǔ)創(chuàng)新的第二發(fā)展曲線提供了關(guān)鍵的突破口。

接下來的問題是,我們應(yīng)該如何改進(jìn)基礎(chǔ)模型?

正如之前所提到的,現(xiàn)有的「黃金組合」依舊是基礎(chǔ)模型的技術(shù)根本,但是我們需要更加根本和基礎(chǔ)的研究突破以引領(lǐng)未來的人工智能基礎(chǔ)模型的構(gòu)建和開發(fā)。我們期望通過對(duì)這一組合進(jìn)行根本性的變革,使其成為引領(lǐng)未來人工智能訓(xùn)練范式的基石,讓基礎(chǔ)模型能真正成為人類社會(huì)的基礎(chǔ)設(shè)施。而新一代的基礎(chǔ)模型應(yīng)當(dāng)具備兩大特質(zhì):強(qiáng)大且高效。其中,強(qiáng)大體現(xiàn)在其性能、泛化能力和抵抗幻覺能力等方面的出色表現(xiàn),高效則是指低成本、高效率和低能耗。

目前已有的大模型通過不斷增加數(shù)據(jù)量與算力規(guī)模,或者說規(guī)模法則已經(jīng)在一定程度上解決了第一個(gè)問題,但這是以成本效率為代價(jià)來實(shí)現(xiàn)的。為了突破這些局限,我們推出了如 RetNet 和 BitNet 等旨在取代 Transformer 的新型網(wǎng)絡(luò)架構(gòu)。同時(shí),我們也在持續(xù)推動(dòng)多模態(tài)大語言模型(MLLMs)的演進(jìn),并探索新的學(xué)習(xí)范式,「三管齊下」來構(gòu)建全新的基礎(chǔ)模型,為人工智能的未來發(fā)展奠定堅(jiān)實(shí)的基矗

推理效率

是新一代基礎(chǔ)模型網(wǎng)絡(luò)架構(gòu)革新的關(guān)鍵驅(qū)動(dòng)力

基礎(chǔ)網(wǎng)絡(luò)架構(gòu)是人工智能模型的骨干,只有基礎(chǔ)架構(gòu)足夠完善,才能保證上層的學(xué)習(xí)算法和模型訓(xùn)練高效運(yùn)行。目前,Transformer 架構(gòu)被廣泛應(yīng)用于大語言模型,并且利用其并行訓(xùn)練的特點(diǎn)顯著提高了模型的性能,成功解決了基于循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)在長(zhǎng)程依賴建模方面的不足。但與此同時(shí),它也帶來了提升推理效率的巨大挑戰(zhàn)。

根據(jù)當(dāng)前大模型的發(fā)展趨勢(shì),如果繼續(xù)在 Transformer 架構(gòu)上訓(xùn)練模型,我們很快就會(huì)發(fā)現(xiàn),現(xiàn)有的計(jì)算能力將難以滿足下一階段人工智能發(fā)展的需求。

這就明確了一個(gè)問題 推理效率已經(jīng)成為現(xiàn)有基礎(chǔ)網(wǎng)絡(luò)架構(gòu)演進(jìn)的瓶頸,也是推動(dòng)未來基礎(chǔ)網(wǎng)絡(luò)架構(gòu)變革的關(guān)鍵驅(qū)動(dòng)力。提升推理效率不僅意味著降低成本,更代表著我們可以將基礎(chǔ)模型真正變成像水和電一樣的基礎(chǔ)設(shè)施和資源,使每個(gè)人都能方便地獲取和使用。

而近期,我們推出的一種新型基礎(chǔ)網(wǎng)絡(luò)架構(gòu) Retentive Network(RetNet),成功突破了所謂的「不可能三角」難題,實(shí)現(xiàn)了帕累托(Pareto)優(yōu)化。也就是說,RetNet 在保持良好的擴(kuò)展性能和并行訓(xùn)練的同時(shí),實(shí)現(xiàn)了低成本部署和高效率推理。我們的實(shí)驗(yàn)還證實(shí),RetNet 的推理成本與模型序列長(zhǎng)度無關(guān),這表示無論是處理長(zhǎng)文本序列,還是長(zhǎng)圖像序列,亦或是未來更長(zhǎng)的音視頻序列,RetNet 都可以保持穩(wěn)定的高效推理。這些優(yōu)勢(shì)讓 RetNet 成為繼 Transformer 之后大語言模型網(wǎng)絡(luò)架構(gòu)的有力繼承者。

模型網(wǎng)絡(luò)架構(gòu)之「不可能三角」問題

另外,隨著模型規(guī)模的不斷擴(kuò)展,計(jì)算能耗問題也日益凸顯,成為當(dāng)前網(wǎng)絡(luò)架構(gòu)中限制人工智能發(fā)展的另一大障礙。我們推出的 BitNet 則有效緩解了這一問題。

BitNet 是第一個(gè)支持訓(xùn)練 1 比特大語言模型的新型網(wǎng)絡(luò)結(jié)構(gòu),具有強(qiáng)大的可擴(kuò)展性和穩(wěn)定性,能夠顯著減少大語言模型的訓(xùn)練和推理成本。與最先進(jìn)的 8 比特量化方法和全精度 Transformer 基線相比,BitNet 在大幅降低內(nèi)存占用和計(jì)算能耗的同時(shí),表現(xiàn)出了極具競(jìng)爭(zhēng)力的性能。此外,BitNet 擁有與全精度 Transformer 相似的規(guī)模法則(Scaling Law),在保持效率和性能優(yōu)勢(shì)的同時(shí),還可以更加高效地將其能力擴(kuò)展到更大的語言模型上,從而讓 1 比特大語言模型(1-bit LLM)成為可能。

如果說 RetNet 是從平行推理效能的角度革新了網(wǎng)絡(luò)架構(gòu),那么 BitNet 則從正交的角度提升了推理效率。這兩者的結(jié)合,以及融合其他提升模型效率的技術(shù)比如混合專家模型(MoE)和稀疏注意力機(jī)制(Sparse Attention),將成為未來基礎(chǔ)模型網(wǎng)絡(luò)架構(gòu)的基矗

推動(dòng)多模態(tài)大語言模型演進(jìn)

邁向多模態(tài)原生

未來基礎(chǔ)模型的一個(gè)重要特征就是擁有多模態(tài)能力,即融合文本、圖像、語音、視頻等多種不同的輸入和輸出,讓基礎(chǔ)模型能夠像人類一樣能聽會(huì)看、能說會(huì)畫。而這也是構(gòu)建未來人工智能的必然方向。

在這一背景下,我們針對(duì)多模態(tài)大語言模型 Kosmos 展開了一系列研究。其中,Kosmos-1 能夠按照人類的推理模式,處理文本、圖像、語音和視頻等任務(wù),構(gòu)建了全能型人工智能的雛形。Kosmos-2 則進(jìn)一步加強(qiáng)了感知與語言之間的對(duì)齊,它不僅能夠用語言描述圖像,還能識(shí)別圖像中的實(shí)體,解鎖了多模態(tài)大語言模型的細(xì)粒度對(duì)齊(Grounding)能力。這種能力為具身智能(Embodied AI)奠定了基礎(chǔ),展示出了多模態(tài)模型在語言、感知、行動(dòng)和物理世界中大規(guī)模融合的可能性。

在 Kosmos-2 的基礎(chǔ)上,我們又推出了 Kosmos-2.5 。這一版本為多模態(tài)大語言模型賦予了通用的識(shí)字能力,使其能夠解讀文本密集的圖像,為智能文檔處理和機(jī)器人流程自動(dòng)化等應(yīng)用提供技術(shù)基矗在接下來的 Kosmos-3 中,我們將在基礎(chǔ)網(wǎng)絡(luò)架構(gòu)革新和創(chuàng)新學(xué)習(xí)范式的雙重驅(qū)動(dòng)下,進(jìn)一步推動(dòng)人工智能基礎(chǔ)模型的發(fā)展。

Kosmos 系列整體架構(gòu)圖:Kosmos-1 和 2 多模態(tài)大語言模型支持多模態(tài)輸入輸出,細(xì)粒度的對(duì)齊,遵循用戶指示,并可針對(duì)多模態(tài)任務(wù)(包括自然語言任務(wù))進(jìn)行上下文學(xué)習(xí)

此外,語音無疑是未來多模態(tài)大語言模型的核心能力之一。因此,我們還推出了語音多模態(tài)大語言模型 VALL-E,并支持零樣本文本的語音合成。只需短短三秒的語音提示樣本,VALL-E 就能將輸入的文本用與輸入的提示語音相似的聲音朗讀出來。與傳統(tǒng)的非基于回歸任務(wù)訓(xùn)練的語音模型不同,VALL-E 是直接基于語言模型訓(xùn)練而成的。通過直接將語音合成轉(zhuǎn)化為一個(gè)語言模型任務(wù),這一探索進(jìn)一步加強(qiáng)了語言和語音兩種模態(tài)的融合。

VALL-E 首先通過語音 codec 模型把連續(xù)的語音輸入轉(zhuǎn)化為離散的 token,從而可以進(jìn)行統(tǒng)一的語音 - 文本語言模型訓(xùn)練

Kosmos 系列模型和 VALL-E 都是我們?cè)诙嗄B(tài)大語言模型方面的早期探索,我們讓大語言模型具備了基本的多模態(tài)感知和生成的能力。但是,這還遠(yuǎn)遠(yuǎn)不夠,我們認(rèn)為未來的多模態(tài)大語言模型和人工智能基礎(chǔ)模型要能夠多模態(tài)原生(Multimodal Native),以實(shí)現(xiàn)真正的多模態(tài)推理,跨模態(tài)遷移以及新的涌現(xiàn)能力。

專注顛覆式創(chuàng)新

持續(xù)推進(jìn)通用型人工智能基礎(chǔ)研究第二增長(zhǎng)曲線

除了不斷推進(jìn)基礎(chǔ)模型架構(gòu)和多模態(tài)大語言模型的創(chuàng)新,我們還需要更多在基礎(chǔ)研究上的顛覆式突破。我們相信目前大模型應(yīng)用中的很多問題,比如成本問題、長(zhǎng)序列建模 / 長(zhǎng)期記憶(Long-term Memory)、幻覺問題以及安全問題等也需要從根本性的角度得到解決。

首先是大語言模型學(xué)習(xí)的理論框架和根本原理,現(xiàn)有的工作基本都是以實(shí)驗(yàn)和經(jīng)驗(yàn)為主的,未來的基礎(chǔ)創(chuàng)新需要從更加根本和理論的角度推進(jìn)。目前已經(jīng)有一些基于壓縮的工作,我們相信在不遠(yuǎn)的未來就有可能看到很大的突破性進(jìn)展。

另外,大模型的發(fā)展使得我們可以實(shí)現(xiàn)在很多任務(wù)上達(dá)到或者超過人類(如數(shù)據(jù)生產(chǎn)者或標(biāo)注員)的能力,這就需要我們探索一種在模型比人類強(qiáng)的前提下的新一代人工智能研究范式,包括且不限于基本的學(xué)習(xí)框架、數(shù)據(jù)和監(jiān)督信號(hào)來源以及評(píng)測(cè)等等。比如合成數(shù)據(jù)(Synthetic Data)會(huì)變得越來越重要,一方面是數(shù)據(jù)會(huì)變得不夠用,另一方面是模型自動(dòng)生成的數(shù)據(jù)質(zhì)量也越來越高了。還有一個(gè)機(jī)會(huì)是小數(shù)據(jù)大模型的學(xué)習(xí),我們可以通過模型的自動(dòng)探索與學(xué)習(xí),結(jié)合強(qiáng)化學(xué)習(xí),從而讓人工智能可以更接近人類從少量數(shù)據(jù)中就能高效學(xué)習(xí)的學(xué)習(xí)方式。這也是進(jìn)一步通過規(guī);懔Γ⊿caling Compute)提升智能的可行方向之一。

還有一個(gè)機(jī)會(huì)是小數(shù)據(jù)大模型的學(xué)習(xí),我們可以通過模型的自動(dòng)探索與學(xué)習(xí),結(jié)合強(qiáng)化學(xué)習(xí),從而讓人工智能可以更接近人類從少量數(shù)據(jù)中就能高效學(xué)習(xí)的學(xué)習(xí)方式。這也是進(jìn)一步通過規(guī);懔Γ⊿caling Compute)提升智能的可行方向之一。

最后,越來越多的研究工作表明,未來人工智能的模型、系統(tǒng)基礎(chǔ)設(shè)施和硬件的發(fā)展會(huì)有更多聯(lián)合創(chuàng)新、共同演進(jìn)的機(jī)會(huì)。

在對(duì)人工智能的漫長(zhǎng)探索中,我們正站在一個(gè)前所未有的歷史節(jié)點(diǎn)。現(xiàn)在我們可能正處于人工智能領(lǐng)域的「牛頓前夜(Pre-Newton)」,面臨著諸多未知和挑戰(zhàn),同樣也有很多的機(jī)會(huì),每一次的探索和突破都預(yù)示著未來無限的可能性。希望藉由我們的研究,人們能夠更深入地洞悉基礎(chǔ)模型和通用型人工智能的理論和技術(shù)的發(fā)展趨勢(shì),揭示關(guān)于未來人工智能的「真理」。

我們相信,人工智能今后必將更加全面地融入我們的日常生活,改變我們工作、生活和交流的方式,并為人類解決最有挑戰(zhàn)和最為重要的難題,甚至對(duì)人類社會(huì)帶來深刻的影響。接下來的 5 到 10 年是人工智能最值得期待和激動(dòng)人心的時(shí)刻,我和我的同事們也將繼續(xù)專注于推動(dòng)人工智能基礎(chǔ)研究的突破和創(chuàng)新應(yīng)用的普及,讓其成為促進(jìn)人類社會(huì)發(fā)展和進(jìn)步的強(qiáng)大動(dòng)力。

本文作者

韋福如博士現(xiàn)任微軟亞洲研究院全球研究合伙人,領(lǐng)導(dǎo)團(tuán)隊(duì)從事基礎(chǔ)模型、自然語言處理、語音處理和多模態(tài)人工智能等領(lǐng)域的研究。最近,他還致力于推進(jìn)通用型人工智能的基礎(chǔ)研究和創(chuàng)新。韋博士還擔(dān)任西安交通大學(xué)兼職博士生導(dǎo)師,香港中文大學(xué)教育部-微軟重點(diǎn)實(shí)驗(yàn)室聯(lián)合主任。

韋博士在頂級(jí)會(huì)議和期刊上發(fā)表了 200 多篇研究論文(引用超過 30000 次,H-Index 84),并獲得 AAAI 2021 年最佳論文提名獎(jiǎng)以及 KDD 2018 最佳學(xué)生論文獎(jiǎng)。

韋博士分別于 2004 年和 2009 年獲得武漢大學(xué)學(xué)士學(xué)位和博士學(xué)位。2017 年,他因?qū)ψ匀徽Z言處理的貢獻(xiàn)入訊麻省理工技術(shù)評(píng)論》中國 35 歲以下創(chuàng)新者年度榜單(MIT TR35 China)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港