展會信息港展會大全

Kimi創(chuàng)始人楊植麟:Scaling laws依然有效 強化學習是重點
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-18 07:55:52   瀏覽:34次  

導讀:《科創(chuàng)板日報》11月17日訊(記者 黃心怡) 在月之暗面Kimi Chat上線一周年之際,Kimi發(fā)布了新一代數(shù)學推理模型k0-math模型,以及包含了k0-math強化模型的Kimi探索版,未來幾周將會分批陸續(xù)上線Kimi網(wǎng)頁版和Kimi智能助手APP!叭绻f長文本是月之暗面登月的第一步,那么提升模型深度推理能力則是第二步!痹轮得鎰(chuàng)始人楊植麟在接受包括《科創(chuàng)板日報》在內(nèi)的媒體采訪時表示。 ......

《科創(chuàng)板日報》11月17日訊(記者 黃心怡) 在月之暗面Kimi Chat上線一周年之際,Kimi發(fā)布了新一代數(shù)學推理模型k0-math模型,以及包含了k0-math強化模型的Kimi探索版,未來幾周將會分批陸續(xù)上線Kimi網(wǎng)頁版和Kimi智能助手APP。

“如果說長文本是月之暗面登月的第一步,那么提升模型深度推理能力則是第二步!痹轮得鎰(chuàng)始人楊植麟在接受包括《科創(chuàng)板日報》在內(nèi)的媒體采訪時表示。

除數(shù)學推理模型外,楊植麟透露,幾個多模態(tài)能力也在內(nèi)測中。

作為炙手可熱的AI獨角獸公司,近日楊植麟陷入一場仲裁糾紛,并面臨人才流失的質(zhì)疑。

對此楊植麟回應稱,并沒有人才流失,而是主動選擇做了業(yè)務的減法。

“先聚焦,然后全球化,需要更耐心一點。我們不希望把團隊擴那么大,這對創(chuàng)新的影響是有致命性的傷害。如果想把團隊保持在一定的規(guī)模,那么最好的方式是業(yè)務上做一些減法!

據(jù)悉,kimi每月的活躍用戶規(guī)模已經(jīng)達到3600萬。談及用戶投流策略,楊植麟表示最關鍵的提升用戶留存,這是目前最核心的任務,對此沒有上限的限制。

“百模大戰(zhàn)”已經(jīng)經(jīng)歷了一年多時間,業(yè)界的焦點從卷模型轉(zhuǎn)向了卷應用。此前有消息稱,一些大模型企業(yè)放棄了預訓練模型,業(yè)務重心轉(zhuǎn)向AI應用。

對于預訓練大模型未來發(fā)展,楊植麟認為,預訓練大模型還有迭代空間!邦A計還有半代到一代的模型的空間會在明年釋放出來,我覺得在明年,業(yè)內(nèi)領先的模型會把預訓練做到一個比較極致的階段!

Scaling laws依然有效 但需要更好的方法

大模型的Scaling laws,即規(guī)模法則,是當前AI圈不少人所信奉的定律。所謂Scaling laws是相信“大力出奇跡”,隨著模型規(guī)模、訓練數(shù)據(jù)和計算資源的增加,模型性能會得到顯著提升,

楊植麟認為,“Scaling”對AI而言是不變的關鍵詞!爸蜛I技術在過去幾年發(fā)生的進展,基本上可以歸功于一個詞是Scaling。”

不過,楊植麟表示,Scaling并不意味把模型做得更大就好,而是要找到有效的方法來Scale,比如更好的數(shù)據(jù)和方法。

我們接下來會越來越關注基于強化學習的方法來Scale。我們認為,接下來AI發(fā)展的方向,還是持續(xù)地Scale,只是Scale的過程不一樣,是更多的強化學習,在強化學習的過程中生成更多的數(shù)據(jù)來做!

楊植麟把AI的發(fā)展比作蕩秋千,會在兩種狀態(tài)之間來回切換!耙环N狀態(tài)是算法數(shù)據(jù)已經(jīng)完備了,但是算力不夠,這就要求做更多的工程,把基礎設施做得更好,就能夠持續(xù)的提升。從transformer誕生到GPT4,更多的矛盾就是怎么能夠Scale,但在算法和數(shù)據(jù)上可能沒有本質(zhì)的問題!

但是隨著算力擴展到一定的規(guī)模,這時算力的增加很難再直接提升模型的質(zhì)量。

“這時的狀態(tài)是,你會發(fā)現(xiàn)再加更多的算力,并不一定能看到直接的提升。因為核心是沒有高質(zhì)量的數(shù)據(jù),小幾十G的token是人類互聯(lián)網(wǎng)積累了20多年的上限。于是,要通過算法的改變,來釋放Scaling的潛力,所有的好算法是跟Scaling做朋友,它就會持續(xù)變得更好。”

大模型需要提升思考能力

大模型的出現(xiàn)、AIGC的應用改變了人機交互方式,在不少業(yè)內(nèi)展望中,在以大模型為代表的AIGC技術加持下,人機交互體驗將徹底被重構。而楊植麟認為,在強調(diào)交互能力的同時,更應該注重大模型的思考能力。

“AI最重要的是思考和交互這兩個能力。思考的重要性遠大于交互,不是說交互不重要,交互是一個必要條件,但思考會決定上限。因此,接下來很重要的一件事是讓AI具備思考的能力!

最適合讓AI鍛煉思考的能力,無疑是數(shù)學場景。

“伽利略曾說過,宇宙是由數(shù)學這門語言書寫而成的。它是整個宇宙的基石,很多規(guī)律只是通過數(shù)學來刻劃的。而且好處是并不需要跟外界進行交互,相對來說比較嚴密的自成一體,它自己可以成為一個體系,這讓數(shù)學成為AI學習這種思考能力的一種非常好的場景。”楊植麟稱。

相比文字應用能力,大模型的數(shù)學能力一直存在較大的差距。

今年6月,上海人工智能實驗室通過旗下司南評測體系OpenCompass對7個大模型進行高考“語數(shù)外”全卷能力測試。測試結(jié)果顯示,三科總分420分,大模型最高分僅303分,其中語文、英語表現(xiàn)相對良好,數(shù)學全不及格。

楊植麟表示,目前的模型還是有一些局限性!氨热缒酶呖紨(shù)學全國范圍內(nèi)最難的題去考大模型,現(xiàn)在有一定的概率會做錯。但本身模型的能力提升是很快的,比如去年對高考題大概能做百分之二三十的準確率,但如今我們能做到90%的準確率!

在現(xiàn)場的演示中,Kimi對2024AIME數(shù)學競賽、高等數(shù)學題目進行了解答,通過用強化學習的方式來逼近更強的鏈路思考,來確保每一步的正確性,并且在得出答案,會像人類一樣進行二次驗算。

“當然,還有非常大的提升空間,但如果持續(xù)的做強化學習的Scaling,應該是可以能夠在更多的場景完成長鏈路的思考、復雜的推理。還有很重要的一點,就是更多的泛化,把這種推理泛化到更多的任務里。”楊植麟稱。

據(jù)悉,月之暗面計劃在教育領域進行探索,并與Kimi搜索場景結(jié)合!盁o論是K12、大學甚至競賽,這里會有很多的場景可使用。我們還是希望把它更多的泛化,比如把強化學習的技術用在搜索場景里,跟Kimi探索版相結(jié)合,提升模型在搜索過程中的推理能力,做更復雜的搜索!

聚焦核心業(yè)務 不要把自己變成大廠

近日來,關于月之暗面縮減出海項目、聚焦Kimi的消息在市場上流傳。楊植麟透露,大概今年三、四月份,做出了聚焦Kimi,對業(yè)務做減法的決定。

“這一是基于美國市場的判斷,二是基于自身的觀察。我們主動選擇做了業(yè)務的減法,應該聚焦在上限最高的事情,然后做好!

楊植麟認為,創(chuàng)業(yè)團隊的人數(shù)不能太多,而是要真正聚焦于把核心的創(chuàng)新能力做好。如果把自己變成大廠,就沒有任何優(yōu)勢了。

“在國內(nèi)大模型創(chuàng)業(yè)公司里,我們始終保持人數(shù)最少,始終保持卡和人的比例是最高的,這是非常關鍵的。我們不希望把團隊擴那么大,因為人數(shù)擴張對創(chuàng)新的影響有致命性的傷害。如果你想把團隊保持在一定的規(guī)模,那么最好的方式是業(yè)務上做一些減法!

楊植麟透露,“一開始也嘗試過比如說幾個產(chǎn)品一塊做,這在一定的時期內(nèi)可能是有效的,到后來發(fā)現(xiàn)還是要聚焦,把一個產(chǎn)品做到極致是最重要的。比如三個業(yè)務一起做,就活生生把自己變成大廠,那會沒有任何的優(yōu)勢!

對于在大模型研發(fā)上,楊植麟表示,預訓練大模型還有半代到一代的空間,預計明年預訓練大模型就會達到比較極致的階段,但重點會在強化學習上。此外,幾個多模態(tài)的能力也在內(nèi)測中。

談及用戶投流和商業(yè)化變現(xiàn)的平衡,楊植麟稱,目前最核心的任務就是提升留存!傲舸媸且粋重要的衡量指標,這對我們來說是最重要的。留存到多少會滿意?我的回答是永無止境。”

(財聯(lián)社記者 黃心怡)

贊助本站

相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港