(圖片來源:pixabay)
隨著Scaling Law(尺度定律)遭遇瓶頸,GPT-5訓(xùn)練時間推遲,所以全球 AI 技術(shù)領(lǐng)域的競爭正在從 AI 模型“卷”向 AI Agent模型應(yīng)用層面。
北京時間11月15日,美國OpenAI公司發(fā)布ChatGPT桌面版新功能,支持理解、讀寫VS Code、Xcode等工具以開發(fā)應(yīng)用。
早前有消息指,OpenAI即將推出代號為“Operator”新AI Agent(代理)應(yīng)用,可模仿人類操作執(zhí)行編寫代碼、預(yù)訂酒店、機票等任務(wù);同時,谷歌AI大模型Gemini移動版登陸蘋果App Store應(yīng)用商店上;此外,DeepL則推出實時文本翻譯產(chǎn)品DeepL Voice,目前公司估值已超20億美元。
相比海外,國內(nèi) AI Agent應(yīng)用正在迅速發(fā)展,模型和應(yīng)用正在同步突破。
作為快手創(chuàng)始人宿華最青睞的創(chuàng)業(yè)公司之一,成立十年的國內(nèi) AI 應(yīng)用公司彩云科技,于11月13日發(fā)布業(yè)內(nèi)首個基于DCFormer架構(gòu)的通用大模型“云錦天章”,可實現(xiàn)在虛構(gòu)世界觀的基礎(chǔ)上,賦予小說人物編程、數(shù)學(xué)等基礎(chǔ)能力,擁有長文擴寫、縮寫等能力,目前已經(jīng)開始向C端和部分中小企業(yè)端提供服務(wù)。而這是最新一款非Transformer架構(gòu)的14B(140億)參數(shù)模型。
同時,基于DCFormer架構(gòu),彩云科技還發(fā)布旗下AI RPG平臺產(chǎn)品“彩云小夢”。
會后,彩云科技CEO袁行遠對鈦媒體App等表示,“(云錦天章是)世界最強的小說續(xù)寫通用模型。”他認(rèn)為,利用新的模型結(jié)構(gòu)優(yōu)化,用1%的資源達到了千億模型同等效果,疊加后處理工作流到達AI的下個階段,才有可能真正做到GPT-5。
“大模型基座調(diào)優(yōu)(Pre-trained Model)這個事情,過去7年學(xué)術(shù)界、工業(yè)界(大家)都沒什么進展,中國200多個大模型公司有哪一個不是Transformer架構(gòu)?只有一個公司不是Transformer,就是彩云科技,而且我證明了這個東西它具有通用人工智能(AI)的潛力,且用更少的能源做到相同的效果。如果用1/10資源實現(xiàn)Transformer相同效果,那我們就不用百億千億參數(shù)規(guī)模訓(xùn)練。其他所有公司都用的是谷歌Transformer,因此只有彩云科技才能稱之為‘全鏈路大模型公司’!痹羞h表示,中國不是做不出來ChatGPT,而是需要時間迎頭趕上,最終得到好的結(jié)果。
彩云科技聯(lián)合創(chuàng)始人、CEO袁行遠
“100萬DAU、ROI為正,是AI應(yīng)用的死亡線”
彩云科技成立于2014年,是研發(fā)多款消費級應(yīng)用產(chǎn)品的 AI 公司。
經(jīng)過多年發(fā)展,彩云科技已孵化彩云天氣、彩云小譯、彩云小夢三款面向C端用戶的AI產(chǎn)品,產(chǎn)品間接覆蓋人數(shù)超過6億人,并通過實施付費訂閱等商業(yè)模式,實現(xiàn)了AI 技術(shù)商業(yè)化落地?梢哉f,彩云科技是國內(nèi)為數(shù)不多能夠?qū)崿F(xiàn)盈利的 AI 公司。
創(chuàng)立彩云科技之前,袁行遠曾在阿里巴巴從事算法方面的工作,并獲山東科技大學(xué)數(shù)學(xué)系學(xué)士學(xué)位,清華大學(xué)經(jīng)濟管理學(xué)院碩士學(xué)位。然而,他從小就喜歡研究氣象知識,因此并不希望安于現(xiàn)狀,2012年,在集智俱樂部一場讀書會上,與兩位有相同想法的小伙伴一同創(chuàng)立了彩云科技。
袁行遠坦言,公司創(chuàng)立一開始就是在想把一款天氣工具進行“付費”,這在當(dāng)時也是極少見的。而過去10年來,彩云科技的彩云天氣、彩云小譯、彩云小夢都以付費模式存在,實現(xiàn)了企業(yè)健康的商業(yè)循環(huán)。
其中,彩云天氣是一款天氣預(yù)測的APP,特色是通過AI技術(shù)“三維時空卷積神經(jīng)網(wǎng)絡(luò)”,實現(xiàn)國內(nèi)首個分鐘級天氣預(yù)報,精度可以定位在街道級,C端累計用戶超過5000萬,DAU達到百萬量級;彩云小譯2017年上線,是全球首個中英同傳APP,MAU在百萬上下,有2.7萬的付費用戶,500萬APP下載量,每天10億翻譯量;彩云小夢則于2021年上線1.0版本,是一款A(yù)I寫小說的產(chǎn)品,同時發(fā)布海外版Dreamily,如今升級3.5版本AI RPG平臺,擁有AI對話、世界設(shè)定創(chuàng)作等功能,而且可以進行虛擬人物對話交流,日產(chǎn)數(shù)億字。目前60%用戶在中國大陸,40%為海外用戶。
“根據(jù)我做彩云天氣的經(jīng)驗,你要做到一個確實能夠提供出增益價值的產(chǎn)品,然后你花很多年的時間去培養(yǎng)這個增益價值的習(xí)慣性,再在這個基礎(chǔ)上去做增值服務(wù),通過它來收取一定的會員費用,這個是比較合理的一種方式。我很喜歡簡單的商業(yè)模式,因為我們做技術(shù)的嘛,就是發(fā)揮自己擅長的部分,那簡單的商業(yè)模式就是我提供一個服務(wù),你愿意為這個服務(wù)付費!痹羞h認(rèn)為,這是一種良性商業(yè)模式。
袁行遠強調(diào),100萬DAU(每日活躍用戶)、收入數(shù)億元、ROI為正,這是他給自己定下一款A(yù)I應(yīng)用的死亡線,從而維持一家公司或一款大模型的研發(fā)迭代。
“我覺得能跑到 100 萬 DAU,是我自己給自己定的一個及格線或者生死存亡線吧。如果有100萬日活,那么你就是一個社區(qū)創(chuàng)業(yè)平臺,這個應(yīng)該是能夠活下來,并且能夠擁有至少幾億收入,從而能持續(xù)維持大模型的研發(fā)。當(dāng)然,這是否意味著100億美元以下就不要做大模型了,也不是這個意思,全世界可能一共就那幾個人(有百億美金)。所以,這中間有一種‘平衡’(balance),這是一個度,這個游戲也許在1億或1000萬美金量級之上,就能夠支持這個模型研究的迭代!痹羞h稱。
與此同時,當(dāng)前彩云科技全力實現(xiàn)新的大模型技術(shù)研發(fā)。
早在2017年,彩云科技就已經(jīng)開始做NLP和大模型方面的工作,是國內(nèi)最早做LLM(大型語言模型)的公司之一。
近期,彩云科技團隊提出基于可動態(tài)組合的多頭注意力(DCMHA)的DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),解除MHA注意力頭的查找選擇回路和變換回路的固定綁定,可根據(jù)輸入動態(tài)組合,從而提升模型表達能力,相比Transformer架構(gòu)性能提升1.7倍-2倍。今年ICML會議上,彩云科技團隊的3篇論文,在錄用平均分為4.25-6.33的情況下,獲得平均7分這一高分。
11月13日活動上,袁行遠表示,Transformer架構(gòu)距離“理想模型架構(gòu)”還有很大的提升空間,除了堆算力堆數(shù)據(jù)的“大力出奇跡”路線,模型架構(gòu)創(chuàng)新同樣大有可為。往小了說,在大模型領(lǐng)域,利用效率更高的模型架構(gòu),小公司也可以在與世界頂級AI企業(yè)的對抗中取得優(yōu)勢。往大了說,模型效率的提升,可以有效地降低 AI 升級迭代的成本,加速AI時代的到來。
“Scaling Law告訴我們,隨著算力的提升,模型更大、數(shù)據(jù)更多,模型效果會越來越好,但與之相應(yīng)的,能耗也會越來越高,在Scaling Law失效,AI 實現(xiàn)之前,或許我們地球的能源就已經(jīng)無法支撐了!痹羞h表示,“沒有效率的提升,AI就是鏡花水月!
實際上,外界最想知道袁行遠和他的彩云科技的一件事是,宿華是如何投資的?
成立至今,彩云科技共進行了5輪正式融資,除種子輪由袁行遠,及他的朋友、同學(xué)提供外,首筆天使輪融資,來自田溯寧的云天使基金、寬帶資本;五源資本的A1輪融資,估值3000萬美元;快手提供A2輪融資,投前估值翻倍,達到6000萬美元;B1輪來自大灣區(qū)家園共同基金,2021年完成。
去年,快手創(chuàng)始人宿華個人投資了彩云科技B2輪,投前估值達到1.2億美元。
袁行遠表示,很多投資人對其技術(shù)一線判斷很強,盡管他不是做大模型,但其技術(shù)判斷是很敏銳的,他說“這個東西非常好,但我擔(dān)憂的是社會以后怎么辦”。最終,袁行遠獲得了上述投資人青睞,也讓彩云科技獲得了更多的訓(xùn)練大模型“彈藥”。
“也有朋友說,為什么中國沒有出ChatGPT,原因是什么呢?因為中國程序員水平不行。我覺得不能說是中國程序員水平不行;還有人說,是因為簡體中文語料不行,我們是全球使用語言最多的、母語最多的人,我們創(chuàng)造的東西是最多,我覺得絕對不能說是我們語料不行,也不是中國程序員不行。我認(rèn)為需要給我們一些時間,迎頭趕上,最終我們會得到一個好的結(jié)果!痹羞h表示。
展望未來,袁行遠已下定決心,將不遺余力地持續(xù)加大對 DCFormer 的研究與投入力度。
袁行遠強調(diào),DCFormer所代表的模型結(jié)構(gòu)優(yōu)化這條路至少能發(fā)展10倍成長,未來 AI 真的很有可能取代劉慈欣的《三體》寫作質(zhì)量。當(dāng)下,大家還是低估了 AI 的效果,如今DCFormer讓1/10的資源和參數(shù)量獲得相同效果,這有望是GPT-5未來發(fā)展的路線選擇。
以下是鈦媒體App等與袁行遠之間的部分對話,經(jīng)鈦媒體編輯整理:
鈦媒體:14B或7B參數(shù)的模型是否有“智能涌現(xiàn)”能力?因為有人說,基于Transformer的模型可能會需要千億規(guī)模才有涌現(xiàn)。
袁行遠:(涌現(xiàn)能力是)有的。我已經(jīng)證明了這是偽命題,智能涌現(xiàn)大概在 6B(60億參數(shù))左右,(這是)學(xué)界的認(rèn)知。
鈦媒體:那你們是怎么減少“幻覺”問題?是對齊還是其他什么手段?
袁行遠:從模型結(jié)構(gòu)研究的這個角度講,你可以去不斷地 check(檢查)這個事情,包括增加事實記憶力、互聯(lián)網(wǎng)尋找、減少錯誤輸出等方法。這是所謂的工作流check。
但我覺得現(xiàn)在問題不是“幻覺”,而是算力不足以去cover(覆蓋)住你的問題規(guī)模,比如我要會診,可能要很多人開會討論倆小時去決定這個疑難雜癥是什么病,人都需要很長時間,AI 更加需要算力支持。我覺得這個不是幻覺問題,而是“算力不夠”的問題。
幻覺問題的話,就上述兩個方式來嘗試解決。此外,還有一點是,“幻覺”問題的本質(zhì)是一個所謂“格式多于內(nèi)容”,就是你要求大模型輸出一個符合你認(rèn)知的格式,它才有幻覺,否則它不知道,而人類大部分來講會說不知道,你只要讓大模型學(xué)會說不知道,那它的幻覺就會變少,所以這里面可能存在“應(yīng)答率”和內(nèi)容輸出真實性的一個“博弈”。
對于云錦天章和彩云小夢來說,在小說創(chuàng)作這一部分,幻覺問題不會這么嚴(yán)重,甚至于它是一個正向作用。AI腦洞更大一些,可能會對作者更好,所以我們選了這樣一個“賽道”。
鈦媒體:你如何看待云錦天章大模型的商業(yè)化?你們需要把C端的 AI 服務(wù)更快獲得收入嗎?
袁行遠:我做彩云天氣的經(jīng)驗是,你要做到一個確實能夠提供出增益價值的產(chǎn)品,然后花很多年時間去培養(yǎng)這個增益價值的習(xí)慣性。再在這個基礎(chǔ)上去做增值服務(wù),通過它來收取一定的會員費用,這個是我比較喜歡的一個方式。
因為我們做技術(shù)的嘛,就是發(fā)揮自己擅長的部分,那簡單的商業(yè)模式就是我提供一個服務(wù),你愿意為這個服務(wù)付費,而我就努力提高這個服務(wù),你就一直為我這個好的服務(wù)付費,這個就很適合我。因為我們現(xiàn)在公司第一大收入就來自會員的連續(xù)訂閱,我覺得這個是很好的。
還有一種新的“抽成模式”我覺得更好,你提供一個內(nèi)容平臺,然后這個游戲、小說內(nèi)容平臺通過 AI 輔助來產(chǎn)生,再讓用戶向內(nèi)容創(chuàng)作者付費,你再從平臺上抽手續(xù)費,手續(xù)費的收取是源于這個內(nèi)容創(chuàng)作消耗平臺 AI 能力,你的用戶越多,你的網(wǎng)絡(luò)規(guī)模效應(yīng)越多,規(guī)模就越大。如果是100萬日活的社區(qū)創(chuàng)業(yè)平臺,至少幾個億的收入,(企業(yè))應(yīng)該是能夠活下來的。
當(dāng)然你說100億美金以下不要做大模型,這也不現(xiàn)實,全世界可能一共就那幾個人,那競爭就非常少,但如果你一個人自己硬要去做大模型,也不適合,所以這中間其實是有一個“度”,也許至少在1億或1000萬美金量級上,可以支持大模型結(jié)構(gòu)研究迭代。
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)