展會(huì)信息港展會(huì)大全

LF AI&Data執(zhí)行董事:每周有超100萬(wàn)行代碼在開源AI領(lǐng)域創(chuàng)建
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-05 09:09:09   瀏覽:4177次  

導(dǎo)讀:LF AI Data在2018年開始做AI開源生態(tài)系統(tǒng)時(shí),只有大約70個(gè)項(xiàng)目被認(rèn)為是關(guān)鍵項(xiàng)目,而現(xiàn)在已經(jīng)增加到了350個(gè)。這些項(xiàng)目提供了超過6億行代碼,可供任何人選擇、使用。 比如某銀行,全國(guó)有八大研發(fā)中心,每個(gè)中心有N個(gè)項(xiàng)目組,每個(gè)項(xiàng)目組還有M個(gè)外包團(tuán)隊(duì),在做著...

LF AI & Data在2018年開始做AI開源生態(tài)系統(tǒng)時(shí),只有大約70個(gè)項(xiàng)目被認(rèn)為是關(guān)鍵項(xiàng)目,而現(xiàn)在已經(jīng)增加到了350個(gè)。這些項(xiàng)目提供了超過6億行代碼,可供任何人選擇、使用。

比如某銀行,全國(guó)有八大研發(fā)中心,每個(gè)中心有N個(gè)項(xiàng)目組,每個(gè)項(xiàng)目組還有M個(gè)外包團(tuán)隊(duì),在做著N乘以M個(gè)并行的軟件項(xiàng)目。一堆人在吭哧吭哧寫代碼,沒有任何交流。

“現(xiàn)在每周有超過100萬(wàn)行代碼在開源AI領(lǐng)域中被創(chuàng)建,有無數(shù)優(yōu)秀的社區(qū)成員做出貢獻(xiàn),我覺得開源的下一代ChatGPT指日可待。”5月27日,在上海舉辦的2023全球開源技術(shù)峰會(huì)期間,LF AI & Data基金會(huì)執(zhí)行董事、PyTorch基金會(huì)執(zhí)行董事易卜拉欣哈達(dá)德(Ibrahim Haddad)在接受澎湃科技(www.thepaper.cn)專訪時(shí),談到了大語(yǔ)言模型的開源現(xiàn)狀。

LF AI & Data基金會(huì)執(zhí)行董事、PyTorch基金會(huì)執(zhí)行董事艾伯漢哈達(dá)德。

開源(OpenSource)即開放源代碼,用戶可以利用源代碼在其基礎(chǔ)上修改和學(xué)習(xí)。峰會(huì)期間,開源中國(guó)董事長(zhǎng)馬越在接受澎湃科技采訪時(shí)談到,用戶基于興趣來到某個(gè)開源項(xiàng)目,在源代碼的基礎(chǔ)上不斷改進(jìn),在此過程中,一部分優(yōu)秀項(xiàng)目就會(huì)得到發(fā)展并商業(yè)化。

開源中國(guó)董事長(zhǎng)馬越在2023全球開源技術(shù)峰會(huì)上發(fā)表演講。

馬越回憶到,開源起源于歐美,中國(guó)曾經(jīng)不是開源的強(qiáng)國(guó),只是開源應(yīng)用的大國(guó)。但如今隨著技術(shù)與經(jīng)濟(jì)環(huán)境發(fā)展,開源不再單純是“為愛發(fā)電”的模式,生態(tài)已經(jīng)發(fā)生了翻天覆地的變化,如今國(guó)內(nèi)已有多家覆蓋全領(lǐng)域技術(shù)內(nèi)容的綜合社區(qū),且擁有豐富的獎(jiǎng)勵(lì)機(jī)制來維護(hù)生態(tài),這個(gè)過程中孕育出了許多優(yōu)秀的開源項(xiàng)目,例如OpenHarmony(鴻蒙操作系統(tǒng)的開源版本)。

談到開發(fā)者與開源生態(tài)的關(guān)系時(shí),馬越指出,“沒有開發(fā)者的生態(tài),不能稱其為開源生態(tài),一個(gè)不能持續(xù)吸引更多開發(fā)者的生態(tài),注定也會(huì)枯萎。”馬越還表示,數(shù)字化轉(zhuǎn)型的最大阻礙,是代碼沒有成為企業(yè)資產(chǎn),“目前許多企業(yè)陷入了‘燈下黑’的狀態(tài),開發(fā)了無數(shù)代碼,需要修改時(shí),卻找不到對(duì)應(yīng)的內(nèi)容,這些代碼無法成為企業(yè)資產(chǎn)。軟件本質(zhì)上的核心價(jià)值是為了復(fù)用,而這正是開源要解決的問題。”

“開源AI項(xiàng)目會(huì)誕生下一個(gè)ChatGPT”

自聊天機(jī)器人ChatGPT及其背后的GPT大模型爆火之后,一些開源大模型也在最近幾個(gè)月引起了業(yè)界高度關(guān)注,包括Meta的LLaMa、復(fù)旦大學(xué)的MOSS和Databricks的“多莉(Dolly)”等。

在采訪中,哈達(dá)德十分肯定,AI相關(guān)的開源項(xiàng)目會(huì)在未來產(chǎn)生下一個(gè)ChatGPT,“開源能夠加速大語(yǔ)言模型(LLM)的開發(fā)和創(chuàng)新。”他說,“事實(shí)上,許多行業(yè)內(nèi)的組織都意識(shí)到,要想實(shí)際訓(xùn)練這些模型,需要太多的數(shù)據(jù)、太多的精力和太多的云服務(wù)。因此,開源方面的協(xié)作是必不可少的。在面對(duì)復(fù)雜問題時(shí),需要許多組織攜手合作,共同應(yīng)對(duì)這些難題。”

哈達(dá)德解釋稱,建立一個(gè)開源的大語(yǔ)言模型需要很多模塊,“要實(shí)現(xiàn)真正的開源,至少需要七八個(gè)不同的模塊都以開源形式提供。這需要多個(gè)組織共同努力。”

哈達(dá)德認(rèn)為,最重要的模塊是用來訓(xùn)練的數(shù)據(jù)集,必須在Linux基金會(huì)的開源許可下使用。“我們和成員公司定義這個(gè)特定的AI數(shù)據(jù)開源許可證為CDLA(community data license agreement),公司們可以使用這個(gè)許可證來開源數(shù)據(jù)。”其次是模型架構(gòu)本身,以及公司用于構(gòu)建模型的支持工具和庫(kù),還有模型的權(quán)重和參數(shù)、文檔等。這些都是大模型生態(tài)需要以開源形式提供的模塊,它們可以幫助其他人獲取這些信息并運(yùn)行模型,使用相同的方式和基準(zhǔn)進(jìn)行訓(xùn)練。通過提供所有這些信息,其他人可以在此基礎(chǔ)上做出貢獻(xiàn),這也是一種建立信任的方式。

事實(shí)上,LF AI & Data正在著手做這件事,該基金會(huì)是Linux基金會(huì)旗下專注于人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和數(shù)據(jù)的子基金會(huì)。哈達(dá)德表示,自2018年成立以來,LF AI & Data一直專注于建立社區(qū)和生態(tài)。而下一階段,“我們將專注于AI,特別是生成式人工智能。”“人工智能技術(shù)的應(yīng)用潛力巨大,現(xiàn)在很多人對(duì)這項(xiàng)全新技術(shù)仍然知之甚少,甚至不知道他們正在與人工智能系統(tǒng)或人工智能生成的語(yǔ)音或文本交互。”

哈達(dá)德認(rèn)為開源極大地推進(jìn)了人工智能的發(fā)展,他用幾個(gè)關(guān)鍵數(shù)據(jù)舉例稱,LF AI & Data在2018年開始做AI開源生態(tài)系統(tǒng)時(shí),只有大約70個(gè)項(xiàng)目被認(rèn)為是關(guān)鍵項(xiàng)目,而現(xiàn)在已經(jīng)增加到了350個(gè)。這些項(xiàng)目提供了超過6億行代碼,可供任何人選擇、使用。“現(xiàn)在,每周有超過100萬(wàn)行代碼在開源AI領(lǐng)域中被創(chuàng)建,可以看到如今AI開發(fā)和創(chuàng)新的速度都非?。”

“開源是數(shù)字化轉(zhuǎn)型的基座”

“市場(chǎng)上有很多公司,他們每天都在競(jìng)爭(zhēng)。但在開源中,我們一般不會(huì)互相競(jìng)爭(zhēng)。所有公司都走到一起,一起協(xié)作,為解決行業(yè)挑戰(zhàn)做出貢獻(xiàn)。這是一個(gè)非常與眾不同的環(huán)境。”哈達(dá)德稱,在這個(gè)環(huán)境中,人人彼此信任,構(gòu)成了強(qiáng)大的道德基礎(chǔ),在此基礎(chǔ)上可以構(gòu)建一種透明的技術(shù)發(fā)展。

馬越認(rèn)為,這些憑借興趣聚集的開發(fā)者,往往是在“為愛發(fā)電”中創(chuàng)造出了優(yōu)秀的項(xiàng)目和開源生態(tài),而這樣的項(xiàng)目和生態(tài)恰恰是數(shù)字化轉(zhuǎn)型的重要基座。“要利用專業(yè)平臺(tái)把軟件工程數(shù)字化這件事做好。開源中國(guó)能夠幫助企業(yè)把軟件工程的數(shù)據(jù)資產(chǎn)化沉淀下來,成為公司可審計(jì)、可復(fù)用的資產(chǎn)。”他說。

馬越指出,現(xiàn)在市場(chǎng)上出現(xiàn)了“燈下黑”的現(xiàn)象,許多企業(yè)嘗試數(shù)字化轉(zhuǎn)型,卻沒有注意到本身的軟件工程沒有數(shù)字化。“比如某銀行,全國(guó)有八大研發(fā)中心,每個(gè)中心有N個(gè)項(xiàng)目組,每個(gè)項(xiàng)目組還有M個(gè)外包團(tuán)隊(duì),在做著N乘以M個(gè)并行的軟件項(xiàng)目。信息化、數(shù)字化轉(zhuǎn)型最大的投入點(diǎn)就在這里,阻礙也在這里。一堆人在吭哧吭哧寫代碼,沒有任何交流。比如某銀行的一個(gè)菜單選項(xiàng)欄,可能重復(fù)做過上千遍。”馬越解釋道,軟件本質(zhì)上的核心價(jià)值是為了復(fù)用。“數(shù)字化底座缺失就造成了復(fù)用缺失,不僅銀行菜單使用復(fù)雜,審計(jì)代碼不能運(yùn)行,甚至一旦員工離職了,連之前的代碼也追查不到。”

目前,中國(guó)開源社區(qū)如雨后春筍一般接連冒出。馬越表示,除了開源中國(guó),還有CSDN和51CTO等,而其他較小的垂直社區(qū)總計(jì)達(dá)300個(gè)左右。

GitHub 2022年的報(bào)告顯示,全球已有超過9400萬(wàn)開發(fā)者用戶,其中70%來自北美之外的地區(qū),而中國(guó)開發(fā)者占10.3%,有975萬(wàn),位居全球第三,GitHub預(yù)測(cè)2030年中國(guó)開發(fā)者將成為全球最大的開源群體。

針對(duì)國(guó)內(nèi)外開源生態(tài)的差距,馬越強(qiáng)調(diào),盡管Gitee(開源中國(guó)2013年推出的基于Git的代碼托管和協(xié)作開發(fā)平臺(tái))目前是世界第二大開源社區(qū),但與國(guó)外的開源社區(qū)仍然有差距。“目前,我們只能服務(wù)1000萬(wàn)開發(fā)者,只擁有2500萬(wàn)代碼倉(cāng),而GitHub可以達(dá)到我們力量的八九倍。”但他對(duì)未來持樂觀態(tài)度,“中國(guó)開源迎來了歷史上最好的時(shí)機(jī)。”他認(rèn)為,中國(guó)目前的力量已經(jīng)可以為開發(fā)者提供一個(gè)“起飛的基座”。

“解放天下開發(fā)者”

“開發(fā)者是開源生態(tài)的根基,一個(gè)不能持續(xù)吸引更多開發(fā)者的生態(tài),注定也會(huì)枯萎。”馬越指出,“在開源社區(qū),存在著反哺循環(huán),你幫助別人,別人就會(huì)回過頭來幫助你,所以在通常情況下,最吸引開發(fā)者的點(diǎn)就是‘你可以幫助他’,你可以為他提供最優(yōu)秀的項(xiàng)目、最好的質(zhì)量、最廣的場(chǎng)景。”

與過去相比,如今的開源生態(tài)已經(jīng)發(fā)生了翻天覆地的變化。哈達(dá)德說,“1992年我在大學(xué)的時(shí)候,甚至很難找到開源網(wǎng)站。”如今,在線上,有開源網(wǎng)站提供各種豐富的知識(shí),有許多社區(qū)論壇可以提問;在線下,開源項(xiàng)目舉行很多線下交流活動(dòng),把成員們聚在一起討論各種問題。

對(duì)于新進(jìn)入項(xiàng)目社區(qū)的開發(fā)人員,哈達(dá)德表示,與多年前相比,今天的新開發(fā)人員更容易獲得知識(shí)。Linux基金會(huì)提供了很多免費(fèi)培訓(xùn),幫助開發(fā)人員學(xué)習(xí)知識(shí)和技能并獲得認(rèn)證。“從雇主的角度來看,獲得認(rèn)證非常有價(jià)值。當(dāng)兩個(gè)人有相同的技能,其中一個(gè)是認(rèn)證的,認(rèn)證的人比沒有認(rèn)證的人有更大機(jī)會(huì)得到工作。”哈達(dá)德說。

另一方面,如何讓開發(fā)者愿意參與開源?馬越稱,“解放天下開發(fā)者,最重要的是讓他們先獲得財(cái)富自由。比如讓他們通過技能贏得物質(zhì)獎(jiǎng)勵(lì),比如幫助他們發(fā)展開源項(xiàng)目并實(shí)現(xiàn)商業(yè)化。”馬越舉例,目前有很多大廠開展黑客松大賽,給優(yōu)勝者提供真金白銀的獎(jiǎng)勵(lì),通過物質(zhì)利益來吸引更多開發(fā)者。

“我們?cè)谧鲆粋(gè)長(zhǎng)尾工程,對(duì)我們服務(wù)的超過1000萬(wàn)開發(fā)者提供基座服務(wù)。”馬越舉例,“在OpenHarmony項(xiàng)目的開發(fā)初期,開發(fā)者需要將代碼托管在一個(gè)中立的第三方平臺(tái),才能獲得大量的開發(fā)者流量,并且保證工程基座技術(shù)服務(wù)質(zhì)量。而一般平臺(tái)很難擁有我們這種積淀10年的巨大的開發(fā)者流量與技術(shù)服務(wù)。雖然OpenHarmony是我們這里最有名的項(xiàng)目,但我們還有其它大量?jī)?yōu)秀的項(xiàng)目。”

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港