當前位置：人工智能實驗室> 人物報道 > 對話創(chuàng)新工場CTO王詠剛：國產(chǎn)大模型評分超越GPT？其實不靠譜

對話創(chuàng)新工場CTO王詠剛：國產(chǎn)大模型評分超越GPT？其實不靠譜
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-10-11 19:29:05 瀏覽：5012次

導讀：《AI未來指北》欄目由騰訊科技推出，邀約全球業(yè)內專家、創(chuàng)業(yè)者、投資人，探討AI領域的技術發(fā)展、商業(yè)模式、應用場景、及治理挑戰(zhàn)。騰訊科技文 / 李海丹 2023年已走完了大半，各大科技公司在大模型上的比拼還在繼續(xù)。在上半年，大語言模型給入局者們提供了...

《AI未來指北》欄目由科技新聞推出，邀約全球業(yè)內專家、創(chuàng)業(yè)者、投資人，探討AI領域的技術發(fā)展、商業(yè)模式、應用場景、及治理挑戰(zhàn)。

科技新聞文 / 李海丹

2023年已走完了大半，各大科技公司在大模型上的比拼還在繼續(xù)。

在上半年，大語言模型給入局者們提供了前所未有的機會，開啟了一場“百模大戰(zhàn)”。不論是科技巨頭還是創(chuàng)業(yè)公司都紛紛投身進常而時隔數(shù)月，經(jīng)過新一輪的淘汰賽，中國大模型賽道的競備賽已進入到“高手競逐”階段。

在這場對決中，主要分為兩大陣營：

一邊是憑借大模型，崛起的AI獨角獸。以OpenAI為首，一直保持著驚人的產(chǎn)品發(fā)布速度，在這個領域中一家獨大，并且已經(jīng)逐步走入下一個大模型的階段多模態(tài)大模型的爭奪賽。OpenAI近期更新了多模態(tài)進展，發(fā)布了DALL-E3并解禁了GPT的多模態(tài)能力，將與谷歌等科技巨頭們開啟一場多模態(tài)較量。

另一邊是以科技巨頭為主。國外的巨頭爭霸可謂是愈加猛烈，近期Meta發(fā)布了多模態(tài)AI大模型AnyMAL，谷歌也公布了大語言模型Gemini，計劃于今年秋季和用戶見面。在國內，各自的產(chǎn)品已悉數(shù)紛紛亮相百度的“文心一言”、百川智能的“百川大模型”、華為盤古大模型等陸續(xù)開放上線。雖然大模型已經(jīng)百花齊放，但是國內的這波入場者仍在追趕的路上。

面對如此之多的大模型，市場如何判斷大模型的含金量？國內的大模型和OpenAI的技術差距還有多遠？即將展開的多模態(tài)大戰(zhàn)中，誰將勝負？本期《AI未來指北》科技新聞專訪了創(chuàng)新工場CTO兼人工智能工程院執(zhí)行院長王詠剛，有以下核心觀點：

① 目前國內還沒有模型可以比肩GPT-4的水平，想要超越OpenAI和谷歌是很難的，最難以追趕的是整個模型訓練架構中，對工程技巧的理解，主要體現(xiàn)在訓練數(shù)據(jù)、模型架構和訓練優(yōu)化三個方面。

② 目前多模態(tài)領域非�；馃岬纳墒饺蝿�，暫時還比較難納入到大語言模型的核心架構里。統(tǒng)一的多模態(tài)大模型如GPT-4，主要還在努力完成多模態(tài)理解和跨模態(tài)信息遷移這兩方面的工作。

③ 未來超級AI的競爭大概還是會在OpenAI、Google、微軟、Meta這些巨頭間展開。谷歌和OpenAI的多模態(tài)大戰(zhàn)中，其決戰(zhàn)勝負取決于一年內的產(chǎn)品化速度。

④ 對于大模型，有一個新的研究方向叫“AI for Science"希望AI可以幫助科學家更好的認知這個世界，AI能夠最終可以實現(xiàn)自我改進、自我設計和自我演化。

｜以下為文字精華版，在不改變原意的前提下有刪減調整：

01 大模型不同的工程技巧帶來差距，市場打榜評分目前并不靠譜

科技新聞：國內各大語言模型的都在陸續(xù)推出，您認為目前整體的技術水平是如何的？我們和Open AI、谷歌等公司的技術差距還有多大？

王詠剛：目前國內開發(fā)的大型模型，很多通過可用的接口，展現(xiàn)了各個不同方向的應用能力。但整體來看，目前還沒有模型可以比肩GPT-4的水平，今年國內達到這個水平可能有一定的難度。

不過，要達到GPT-4的標準能力并不需要很長時間，可能一年到一年半的周期，大多數(shù)技術含量較高的團隊都可以達到GPT-4的水平。個人判斷GPT-4中不存在一些非常難以逾越的技術障礙，它更多是資金和工程實踐中反復迭代，核心是需要一些時間和數(shù)據(jù)規(guī)模的積累。

但如果我們要超越OpenAI是很難的，其中最難以追趕的是整個模型訓練架構中，對工程技巧的理解。這些工程技巧是OpenAI團隊通過大量的反復迭代和實驗積累所得到的經(jīng)驗。即使是GPT的核心算法的發(fā)明者Google團隊也沒有完全掌握所有這些經(jīng)驗，因此在產(chǎn)品方面，Google的表現(xiàn)可能相對較弱�？偟膩碚f，這些工程經(jīng)驗并不存在一個科研上完全不可逾越的鴻溝，但它們需要時間的積累和打磨。

另外我們也需要關注的是，雖然行業(yè)中大家都在強調模型的數(shù)據(jù)之“大”，但人工智能的模型和規(guī)模已經(jīng)開始達到不容易控制的階段，那么現(xiàn)在我們再去擴展數(shù)據(jù)的規(guī)模，比如從百億參數(shù)擴展到萬億參數(shù)，這種路徑是否還可以達到理想的結果，我們訓練AI的這條路徑是否還可行或者可以得到正向提高，這是一個特別大的挑戰(zhàn)。在未來，可能會分化出3-4種不同的技術路徑來競爭，我們才能得出哪種路徑可以訓練出人類想要的AI。

科技新聞：您剛提到關于工程技巧方面的差距可以詳細說一下嗎，有哪些核心的影響因素？

王詠剛：具體來說，主要體現(xiàn)在訓練數(shù)據(jù)、模型架構和訓練優(yōu)化三個方面：

訓練數(shù)據(jù)方面：比如Llama 2的開源，大家在這個基礎架構上的改進嘗試越來越多。我們發(fā)現(xiàn)，訓練數(shù)據(jù)的質量對模型輸出的質量影響非常大。如何選擇、清洗、準備訓練數(shù)據(jù)集，實際上已經(jīng)成為同類大語言模型之間，能力差異的一個核心因素。例如很多團隊已經(jīng)發(fā)現(xiàn)，如果能在版權許可的范圍內使用大量圖書內容做訓練，由此得到的大語言模型的推理能力，會比僅用網(wǎng)頁文本做訓練的模型強。

模型架構方面：如果有人在互聯(lián)網(wǎng)上公開了有關GPT-4模型架構設計的一些信息（即GPT4的架構是混合專家模型MoE），雖然很難證實這些描述的真?zhèn)�，但從行內人看來，這些信息里的不少關鍵點是符合技術邏輯的。當我們?yōu)榱瞬粩嗤七M模型的推理能力，試著建立一個數(shù)萬億參數(shù)的復雜結構時，類似MoE的模型架構肯定是一個優(yōu)先選項。但是如何順利設計和運行一個MoE架構，這里面有大量復雜的工程問題。超參數(shù)的數(shù)量非常多，很多影響模型架構的超參數(shù)選擇，并沒有理論上非常直截了當?shù)挠嬎慊騼?yōu)化算法，不得不依賴于反復的工程實驗。

訓練優(yōu)化方面：目前的大語言模型已經(jīng)把顯卡集群的使用推到了一個前所未有的水平，未來的多模態(tài)單一模型會需要更多的顯卡。而如何管理一個復雜架構模型在許多塊顯卡上的整個訓練過程，這是一個非常深的專業(yè)話題。把一個復雜的Transformer模型拆解開，靜態(tài)或動態(tài)部署在多塊顯卡上，并追求最高的運行效率，這可能是過去數(shù)十年計算機領域處理過的最復雜的并行計算問題之一。像微軟的DeepSpeed和創(chuàng)業(yè)項目ColossalAI這樣的訓練優(yōu)化工具，它們自身就是龐大的工程項目，有大量復雜的代碼邏輯。

科技新聞：目前，很多大模型都標榜在得分上有數(shù)項超越了GPT-3.5乃至GPT-4，這是否能說明這些大模型的水平？

王詠剛：雖然科研界已經(jīng)制定了一些稱為基準的評估標準，但這些標準通常只能評估特定任務子集上的表現(xiàn)。科研界對模型智能程度和幫助程度的評判與普通人的感知可能不一致科研界更注重技術指標，而普通人更關注模型在實際工作中的幫助程度。

因此，有些模型可能在排行榜上位列前茅，但在實際使用中表現(xiàn)笨拙、不理想；而有些模型可能在某些方面的涌現(xiàn)能力做得不錯，使用體驗非常好卻排在靠后的位置。對于大型模型的評估目前還沒有一個嚴格且公認的標準。如果非要進行比較的話，我們可以參考GPT-3.5的水平進行對比，其實仍存在差異。

02 多模態(tài)面對兩方面挑戰(zhàn)，理想的AI能夠實現(xiàn)自我演進

科技新聞：技術積累差距既然短時間內很難突破，我們如果要更快趕超可能需要靠創(chuàng)新，您認為大語言模型的下個突破會在哪些方向？

王詠剛：從發(fā)展形式來看，未來的通用智能一定是多模態(tài)智能。未來的技術方向將從單一的文本和語言文字發(fā)展到聲音、光學、電子、三維視頻、圖形動畫等多模態(tài)世界，這是一個基本的判斷。在這個發(fā)展路徑上，AI將不斷進步，以更好地理解和應用多模態(tài)信息。

目前有一個新的研究方向，我們叫“AI for Science"（為打造科學界的AI，或者說打造輔助科研的AI），就是當有邏輯的AI被訓練出來后，希望AI可以幫助科學家更好地認知這個世界，這是一個非常有趣的探索方向，這也與多模態(tài)的發(fā)展緊密相關，AI需要了解、學習和感受捕捉到的信息，再幫助科學家們發(fā)現(xiàn)問題。據(jù)了解，這個方向OpenAI和谷歌應該都在研究中，但目前還在較為初級的發(fā)展階段。

能夠不斷進步的AI必然是在真實的世界環(huán)境中獲得知識、吸收人類反饋的，并且一個自我演化的AI肯定會需要多模態(tài)能力的支撐。我們身邊的真實世界是一個多模態(tài)的世界。比如如果想讓一個超級AI學會自動駕駛，那光讓AI去學習交通規(guī)則的文字信息肯定是不夠的，只有讓這個AI親自在虛擬路面環(huán)境中學習駕駛，從虛擬環(huán)境的2D、3D世界里得到圖像、視頻、3D方位、物理碰撞事件等反饋信息，這個AI才有可能在駕駛技能上不斷提高。

總的來說，我們希望能夠最終可以真正做出一個可以自我改進、自我設計和自我演化的AI，這可能是很多科研工作者，夢寐以求的一個局面。如果一旦這方面有進展，會是一個特別有趣的未來。

科技新聞：您認為現(xiàn)在主流的多模態(tài)實現(xiàn)有哪些技術路徑？哪類在行業(yè)之中被認為是更有前景的路徑？

王詠剛：目前多模態(tài)領域非�；馃岬纳墒饺蝿�，暫時還比較難納入到大語言模型的核心架構里。新近發(fā)布的ChatGPT與Dall-3的組合，類似在兩個模型之間做的工程連接，用ChatGPT的強大語言能力生成專用于Dall-3的文本提示，然后再交給Dall-3完成最終的圖片生成任務。

視頻生成是非常有趣也擁有巨大應用前景的熱點。視頻生成的基本思路仍然是使用Diffusion架構，訓練大量視頻數(shù)據(jù)。但模型結構的設計、訓練數(shù)據(jù)的選擇仍會顯著影響最終的模型效果。例如，Pika Labs最新發(fā)布的文生視頻算法，在很多方面都給我們帶來了驚喜，效果在很多方面要比Runway的Gen-2好。一些從視頻原始信息提取的高層次信息，如人物骨骼動作、場景深度等，也可以被不同模型架構巧妙使用，解決特定問題。

3D領域有更大的算法設計空間。Google的DreamFusion是目前的主流文生3D算法基于2D圖片生成算法得到的先驗信息，在3D隱含場中將隨機初始空間逐漸訓練成3D模型的完整表示。zero-1-to-3是在這個算法路徑上的一次重大改進，利用3D數(shù)據(jù)集生成的帶有準確相機參數(shù)的圖片提高2D先驗信息的各向一致性，把文生3D的質量一下子提高了一個數(shù)量級。但因為3D生成任務的復雜性，其他文生3D的思路，如直接基于3D模型做訓練，或針對特定領域的3D模型做Mesh優(yōu)化和Texture生成，也都是目前3D領域的活躍技術方向。

科技新聞：剛您提到了多模態(tài)智能的發(fā)展趨勢，最近OpenAI和谷歌也在競爭和搶發(fā)多模態(tài)大模型。從單一轉向多形式到多模態(tài)信息的融合中，會面對哪些挑戰(zhàn)？

王詠剛：目前多模態(tài)AI的技術進展狀態(tài)，像極了2017年前后的NLP領域。2017年是Google提出Transformer技術的時間，也是NLP科研領域百花齊放，多路徑同時迭代，上下游任務各自突破的時代。

GPT在自然語言處理領域取得了巨大的突破，達到了一個平臺級的高度。這是一個非常重要的進展，但這并不意味著終結，而是邁向了多模態(tài)的未來。在GPT等模型的發(fā)展方面，我們采用了一種核心算法，即Google提出的Transformer模型。

目前，最新的研究者開始將Transformer模型應用于多模態(tài)領域，用于對圖像、視頻、動畫序列和聲音等進行編碼。這一方法在許多科研方向上取得了出色的結果。甚至有科學家提出只使用Transformer技術，將混合的圖片、視頻、3D動畫、文本和聲音等綜合訓練數(shù)據(jù)訓練成一個單一模型，也就是所謂的“多模態(tài)單模型”，這成為一些科學家追求的方向。

統(tǒng)一的多模態(tài)大模型如GPT-4，主要還在努力完成多模態(tài)理解和跨模態(tài)信息遷移這兩方面的工作。例如，GPT-4可以理解圖片中的語義信息，可以識別出一張圖片為什么可笑，主要是將圖片的embedding信息和文本的embedding信息在一個統(tǒng)一的高維空間內做對齊并做聯(lián)合推理。目前GPT的多模態(tài)能力還比較初級，離實際的場景應用還有一定的距離。

這里主要有兩個方面需要我們思考，分別是對多模態(tài)信息的編碼表達，以及跨模態(tài)思考：

首先，在處理簡單的文本信息時，我們使用GPT可以處理。比如我們可以將文本轉化為類似于ABCD或12345的編碼序列，這樣的編碼序列相對容易處理。然而，對于圖像、視頻和三維世界等多模態(tài)領域的任務，如何進行編碼是需要解決的一個問題。如果我們無法良好地表示每種多模態(tài)信息，以使AI能夠輕松理解，很顯然我們也無法讓AI在多模態(tài)世界中進行思考。

跨模態(tài)思考方面，就是當我們對不同形式的信息已經(jīng)學會了表達，但如何用AI自動將它們正確地連接起來，這是一個非常有趣的問題。如果能夠正確連接起來，并結合之前提到的統(tǒng)一編碼能力，AI的邏輯推理就可以在不同模態(tài)之間進行。

03 多模態(tài)競爭取決于產(chǎn)品化速度，新入局玩家機會渺茫

科技新聞：目前谷歌和OpenAI在較量新一輪的多模態(tài)競爭, 您認為在這個領域會呈現(xiàn)怎樣的競爭趨勢？這里是否會產(chǎn)生新的機會？

王詠剛：世界范圍內，超級AI的競爭，大概還是會在OpenAI、Google、微軟、Meta這些巨頭間展開，還有Anthropic的Claude有一定競爭力。至于目前競爭最為激烈的OpenAI和Google誰會勝出，可能取決于OpenAI后面一年內的產(chǎn)品化速度OpenAI是否能在技術領先Google半步的時間窗口內，迅速將領先技術打造成大眾普遍接受，幾乎每人每天都會使用的產(chǎn)品。實際上，美國使用ChatGPT的人數(shù)目前還遠少于使用Google搜索的人。這是OpenAI的最大劣勢。

國內的超級大模型大概會在3-4家互聯(lián)網(wǎng)巨頭和3-4家頭部創(chuàng)業(yè)團隊的充分競爭中逐漸完成市場布局。新入局的通用大模型創(chuàng)業(yè)者，機會渺茫。B2B業(yè)務領域內的專用大模型、可私有部署的大模型，會呈現(xiàn)百花齊放的局面，競爭既會異常殘酷，又很難形成贏家通吃的格局。

科技新聞：從年初GPT的火爆到現(xiàn)在，十個多月的時間，入場大模型的玩家越來越多，您感受到國內創(chuàng)業(yè)市場的競爭環(huán)境是如何的？

王詠剛：在大語言型模型創(chuàng)業(yè)是一件非常激動人心的事情，不論是在國內還是國外，這個領域發(fā)展十分迅速，我唯一擔憂點是自己的時間不夠用。

目前有很多人選擇從事大模型的創(chuàng)業(yè)，他們相信這些創(chuàng)業(yè)項目將有不同的資源和未來的發(fā)展路徑。不過，大家需要相對冷靜地對待這個行業(yè)未來的發(fā)展，技術的進步需要一個漫長的過程。目前的大型模型仍然沒有達到我們期望的智能水平，沒人能準確預測能達到滿意水平的時間。因此，在更長的時間尺度上，我們應該保持開放的心態(tài)，并積極擁抱這些創(chuàng)新技術。

科技新聞：目前中國公開發(fā)布的AI大模型數(shù)量已近百個，令人眼花繚亂，創(chuàng)新工場作為投資機構，如何判斷一個大語言模型的能力和“含金量”？

王詠剛：直觀的來看，一個大模型越“聰明”，它的含金量就越高。比如說這個模型是否具備像某個年齡段小孩的智慧，能夠與人進行對話、推理和思考，并且可以解決問題，這是衡量它含金量的一個重要指標。

從科研角度來看，目前市面上的大模型有兩種主要類型：一種是從零開始構建一個標準模型，該模型的能力與GPT-3.5或GPT-4相當；另一種是基于現(xiàn)有的開源模型或開源數(shù)據(jù)，在此基礎上進行增量學習或進一步技術調整，得到適用于特定用途的模型。

從科研和未來平臺主導權角度看，前者含金量更強。雖然目前創(chuàng)業(yè)公司很多，但從頭開始訓練一個大模型的團隊，在全球都是相對較少的，訓練一個大模型所需的技術難度、計算資源和資金要求非常高。目前領先的大語言模型公司，它們的融資額往往在數(shù)十億美元甚至數(shù)百億美元級別。

反過來說，從商業(yè)角度或產(chǎn)品開發(fā)角度來看，含金量則變成了另一個問題，含金量最高的模型是最能夠滿足用戶需求的模型。例如考慮一個完全私有領域的情況，該領域需要解決的是專用領域的數(shù)據(jù)，因為專用領域的數(shù)據(jù)往往是封閉的，甚至大模型產(chǎn)品如GPT或Google的Bard可能都沒有接觸過。在這種情況下，引入GPT這樣的大型模型顯然不合適。相比之下，基于一個相對較小的開源模型、假設協(xié)議允許的話，將領域數(shù)據(jù)集合到該模型中進行增強訓練，可能得到領域相關的含金量最高的結果。因此，從科研和商業(yè)兩個角度來評估并選擇最合適的模型。

科技新聞：從投資人的角度看，您認為大語言模型的行業(yè)價值主要體現(xiàn)在哪些方向？

王詠剛：從創(chuàng)業(yè)市場來看，新一代AI技術驅動的公司，可以大致分為基礎模型層、架構層和應用層。

目前，基礎模型層維度，大語言模型的創(chuàng)業(yè)公司融資熱度很高，但除了大語言模型，基礎模型層還涉及多模態(tài)模型和其他技術模型層，這些領域的創(chuàng)業(yè)者都有機會擁抱技術趨勢和商業(yè)落地的更多可能；架構層則需要關注如何更好地發(fā)揮基礎模型層的價值，將其應用到實際場景中，包括編程框架、訓練框架和推理框架、相關的云服務等，這些領域具有良好的創(chuàng)業(yè)潛力；在應用層，可以大致分為企業(yè)端和非專業(yè)端（個人或普通用戶）的應用，也可以分別被稱為是B2B端和B2C端，我們也在關注其中的產(chǎn)品邏輯和技術應用。

從投資機會來說，在基礎模型層方面，就大語言模型而言，中國已經(jīng)進入到了“百模大戰(zhàn)”的賽馬賽程的中后段，能真正跑出來的公司預計屈指可數(shù)，因此是一個風險與收益同樣都很巨大的賽道。相對而言，中間（架構層）與應用層的投資機會可能會更多，我們可探索B端和C端應用的細分賽道的未來投資機會。