展會信息港展會大全

全球獨角獸|Hugging Face:在人工智能的大航海時代悄悄地造一艘方舟
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-15 20:08:46   瀏覽:8671次  

導(dǎo)讀:作者:Ben 編輯:王與桐 幾天前,Hugging Face旗下明星開源庫Transformers的Star數(shù)量超過了100,000。 而且,Transformers應(yīng)該是GitHub上最快達(dá)成這一里程碑的開源項目。 毋庸置疑地是,Hugging Face 絕對是這個時代最耀眼的AI公司之一。 過去一年,Hugging F...

作者:Ben

編輯:王與桐

幾天前,Hugging Face旗下“明星”開源庫Transformers的Star數(shù)量超過了100,000。

而且,Transformers應(yīng)該是GitHub上最快達(dá)成這一里程碑的開源項目。

毋庸置疑地是,Hugging Face 絕對是這個時代最耀眼的AI公司之一。

過去一年,Hugging Face的搜索指數(shù)甚至遠(yuǎn)超生成式AI領(lǐng)域的明星公司Stability AI。

在此之前,Hugging Face歷史上的高光時刻大抵集中在一年前的2022年年中。

簡單來說,Hugging Face是一家開源模型庫公司。

2022年3月14日,推特賬號@BigScienceLLM開始每日更新一個名為BLOOM大模型的訓(xùn)練進(jìn)度。當(dāng)然,這個時候公眾對大模型的認(rèn)知幾乎還不存在。

BLOOM項目由Hugging Face主導(dǎo),共有來自全球60多個國家、200多個各類機構(gòu),總共超過1000名研究人員和工程師參與其中,其中有大量來自微軟、Meta、谷歌及其他科技巨頭的員工以個人名義參與。

5月10日,Hugging Face宣布C輪1億美元融資,由Lux Capital領(lǐng)投,紅杉資本、Coatue、Betaworks、NBA球星Kevin Durant等跟投,其估值增長到了20億美元。

5月16日,Hugging Face首次登上了福布斯北美人工智能50強榜單。

7月2號,參數(shù)總量達(dá)1760億的BLOOM大模型經(jīng)過為期117天的訓(xùn)練宣告完成,其參數(shù)總量恰好比OpenAI已經(jīng)發(fā)布了近三年的GPT-3多10億。

當(dāng)時間來到2022年8月,在美國科羅拉多州博覽會所舉辦的藝術(shù)比賽中,一幅名為《太空歌劇院》的AI生成畫作,力壓參賽的所有其他人類藝術(shù)家,獲得大賽金獎。

于是在此后,Midjourney、Stability AI、OpenAI 等新一代人工智能公司輪番登場,成為AI大舞臺上聚光燈的焦點。

過去一年來,Hugging Face沒有再獲得新的融資,其估值距離超級獨角獸相去甚遠(yuǎn)。

今年,Hugging Face也發(fā)布了對標(biāo)ChatGPT的開源對話工具HuggingChat,但淹沒在鋪天蓋地的同類應(yīng)用中,泯然眾人。

在Hugging Face身上完全看不到大部分明星創(chuàng)業(yè)公司所經(jīng)歷的跌宕起伏,仿佛一切都是水到渠成。

隨著業(yè)界對于大模型的關(guān)注熱點由夸夸其談,進(jìn)入需要弄清來龍去脈的深水區(qū),Hugging Face存在的價值又開始受到業(yè)內(nèi)密切關(guān)注。

Hugging Face保持著一貫以來的低調(diào),畢竟他們沒有大肆擴張的壓力,也不需要通過不斷畫餅來吸引資本的關(guān)注。

這和公眾認(rèn)知中,大模型賽道必然需要無限燒錢以投入海量AI算力的觀點相悖,在公開報道中,2021年9月 Hugging Face 完成4000萬美元的B輪融資時,其銀行賬戶上仍然有90%上一輪融到的錢還沒有花。

事實上很難挖掘到Hugging Face有什么閃光的特質(zhì),在近期科技播主Harry Stebbings的訪談節(jié)目中,Hugging Face聯(lián)合創(chuàng)始人兼CEO Clément Delangue謙遜地表示:如果沒有開源、如果谷歌沒有分享那篇劃時代的《Attention is all you need》論文、沒有分享他們的BERT論文、沒有分享他們的擴散模型論文,我們可能還需要再等30、40甚至50年才能達(dá)到今天的水平。

0. 前傳

Transformer:人工智能的范式轉(zhuǎn)移

在2017年之前,看到Transformer這個詞,大部分人想到的應(yīng)該是變形金剛(Transformers)、汽車人、孩之寶。

2017年6月,在谷歌團(tuán)隊發(fā)表的論文《Attention Is All You Need》中,Transformer第一次出現(xiàn)在人工智能論文中,如果單純從字面意思來理解的話,Transformer可以被稱為一種基于注意力的編碼器/解碼器模型。

時至今日,各種GPT、各種BERT、各種羊駝( LLaMA)占據(jù)著人工智能、大模型、AIGC秀場的C位,我們終于再也不會混淆Transformer和Transformers。

2018年,剛剛誕生一年的Transfomer讓 NLP 發(fā)生了關(guān)鍵的范式轉(zhuǎn)移,從過去僅初始化模型的第一層,到通過分層表示對整個模型進(jìn)行預(yù)訓(xùn)練,Transfomer為人工智能達(dá)到今天的高度開辟了一種全新的工作方式,使信息可以從預(yù)先訓(xùn)練的語言模型轉(zhuǎn)移到下游任務(wù)和應(yīng)用。

機會總是留給有準(zhǔn)備的人,在人工智能領(lǐng)域更是如此。

成立于2016年的聊天機器人公司Hugging Face,在這一年悄悄地轉(zhuǎn)身開始嘗試做些不一樣的事情,從此,Hugging Face不再是出現(xiàn)在對話框或塑料袋上的emo,而漸漸成為大模型領(lǐng)域的一種信仰。

2018年10月,Hugging Face首席科學(xué)家Thomas Wolf花了幾天時間在GitHub上創(chuàng)建了一個名為pytorch-pretrained-BERT的項目,項目的熱度超出了所有人的預(yù)期。

Hugging face并沒有對Transformer模型本身進(jìn)行改進(jìn),而是將其與一系列衍生模型封裝成了一個全新的“開源產(chǎn)品”,也就是Transformers,面向研究人員和開發(fā)者,讓大家能方便的用上Transformer模型

通過開源模型庫,Hugging Face可以為人工智能算法架構(gòu)和模型庫的不斷迭代提供更多可能性。事實也在不斷證明,在多個前沿領(lǐng)域,初創(chuàng)公司更適合以全新的方式為開發(fā)者社區(qū)賦能,并且,開源創(chuàng)造的價值極具發(fā)散性,比傳統(tǒng)上開發(fā)私有化工具的效率提升顯著,價值更是超出多個數(shù)量級。

機會確實來得很突然,僅僅幾天時間Hugging Face已經(jīng)做好準(zhǔn)備開創(chuàng)一條全新的路徑,這也讓其避免了成為眾多Siri仿制品中的一員。

去年以來,多數(shù)人傾向于將Hugging Face的成功歸結(jié)于偶然性。

但是,如果一系列的偶然性事件接連發(fā)生,那一定是有著某種必然的聯(lián)系。

Hugging Face的創(chuàng)始人Clément Delangue在2021年的一次訪談中清晰地表達(dá)了這次轉(zhuǎn)變的底層邏輯:我們現(xiàn)在無須為競爭分心,而是轉(zhuǎn)向為開源領(lǐng)域和科研領(lǐng)域同時賦能。

其實在今天,Hugging Face還并不能算是一家多么偉大的公司,起碼基于大眾視角和商業(yè)化判斷將會得出這樣的結(jié)論。

但是Hugging Face在機器學(xué)習(xí)領(lǐng)域的重要性已經(jīng)不需要質(zhì)疑。

截至 2023 年 6 月1日,Hugging Face 共享了 215,693 個訓(xùn)練模型,38,085 個數(shù)據(jù)集,涵蓋 NLP、語音、生物學(xué)、時間序列、計算機視覺、強化學(xué)習(xí)等幾乎所有領(lǐng)域,搭建了全球范圍最完整的 AI 開發(fā)者生態(tài)。

特別是在當(dāng)前,AI2.0靠大模型成功出圈的重要時間節(jié)點,Hugging Face絕對有它難以逾越的不可替代性。

本文試圖用類似蒙太奇的方式,從一些碎片化的角度來探討,即使把“天時、地利、人和”全部湊齊,也很難再造一個Hugging Face。

01. AI倫理

什么是負(fù)責(zé)任的人工智能許可

2023年5月30日,非營利組織“人工智能安全中心”(Center for AI Safety)在官網(wǎng)發(fā)布一封聯(lián)名公開信,稱AI是堪比“疫情和核戰(zhàn)爭”的技術(shù),未來或?qū)θ祟悩?gòu)成生存威脅。

公開信只有一句話,總共22個單詞:減輕AI(給人類)帶來的滅絕風(fēng)險應(yīng)成為全球性的優(yōu)先事項,與大流行病及核戰(zhàn)爭等其他影響社會的大規(guī)模風(fēng)險處于同等級別。

這次,OpenAI創(chuàng)始人Sam Altman、DeepMind CEO Demis Hassabis和Anthropic CEO Dario Amode等AI明星公司的代表悉數(shù)簽了字,總共有超過350位AI領(lǐng)域的知名人士簽署了聯(lián)名信。

名單中也有不少中國學(xué)者,包括中國工程院院士張亞勤,中科院自動化所人工智能倫理與治理研究中心主任曾毅,清華大學(xué)副教授詹仙園等人。

科技大佬們對AI的擔(dān)憂不是空穴來風(fēng)、也不是嘩眾取寵,而是真的會關(guān)系到未來每一個人生活的方方面面。

兩個月之前,馬斯克、蘋果聯(lián)創(chuàng)Steve Wozniak、Stability AI創(chuàng)始人Emad Mostaque等大佬們也曾共同發(fā)表公開信,呼吁在6個月內(nèi)暫停訓(xùn)練比GPT-4更強大的人工智能系統(tǒng)。

CNN架構(gòu)時代的深度學(xué)習(xí)三巨頭之一Yann LeCun曾經(jīng)表示:在我們做出人類級別的AI之前,需要先做出貓貓/狗狗級別的AI。而現(xiàn)在我們甚至連這都做不到。我們?nèi)笔Я耸种匾臇|西。要知道,連一只寵物貓都比任何大型語言模型有更多的常識,以及對世界的理解。

人工智能的倫理問題盡管由來已久,但是在AI2.0被看作第四次產(chǎn)業(yè)革命核心的背景下,為社會治理和道德規(guī)范帶來了完全無法預(yù)知的挑戰(zhàn)。

大模型直指AGI(通用人工智能),當(dāng)AI擁有了泛化的能力,也就意味著它手握一把雙刃劍,因此讓全世界開始警惕其可能帶來的巨大社會風(fēng)險。

AI倫理絕不是玄學(xué),越來越多的用戶信任Hugging Face,將模型放在Hugging Face開源也絕不是偶然,在倫理層面高度認(rèn)同的共同體。

天時、地利固然都重要,但人和(姑且把人和理解為AI倫理)才是AI通向更高層次關(guān)鍵。

對于Hugging Face而言,注重AI倫理已經(jīng)融入其基因。

其訓(xùn)練大模型BLOOM的BigScience 項目從一開始就將倫理納入考量,并嚴(yán)格制定了專屬的倫理指導(dǎo)原則。因為大模型使用來自互聯(lián)網(wǎng)的數(shù)據(jù)集進(jìn)行訓(xùn)練,而這些數(shù)據(jù)集既包含了大量個人信息,又經(jīng)常展現(xiàn)出危險的偏見。

Hugging Face 的人工智能倫理學(xué)家Giada Pistilli起草了BLOOM的倫理準(zhǔn)則,作為模型開發(fā)訓(xùn)練的基本原則。準(zhǔn)則強調(diào)了諸如從不同的背景和地點招募志愿者、確保普通人能夠輕松地重現(xiàn)該項目的研究結(jié)果、還有公開公布其研究結(jié)果等細(xì)節(jié)。

同時,Hugging Face還公布了“負(fù)責(zé)任的人工智能許可”這一全新概念,作為使用BLOOM的服務(wù)條款協(xié)議,該許可的目的是防止執(zhí)法或衛(wèi)生保健等高風(fēng)險部門使用其技術(shù)傷害、欺騙、剝削或冒充公眾。

將時間軸前移,2021年,谷歌AI倫理團(tuán)隊所發(fā)生的巨大變動或許可以被認(rèn)為是影響未來AI格局的一條分水嶺。

2021年8月,谷歌倫理AI(Ethical AI)人工智能倫理研究小組前負(fù)責(zé)人Margaret Mitchell加入了Hugging Face,幫助其開發(fā)確保其算法公平的工具。

此前,Margaret Mitchell經(jīng)過四年的努力組織和招募員工,從無到有建立了谷歌 AI 倫理團(tuán)隊,并為谷歌AI在全球范圍樹立了良好的道德形象。

Margaret Mitchell花費數(shù)年時間樹立的“不作惡”(Don't be evil)形象,也一直是 Google AI倫理準(zhǔn)則的重要組成部分,在Margaret Mitchell之后的一段時間,這個口號對于谷歌 AI 更具諷刺意味。

Margaret Mitchell在加入Hugging Face之后,依然將“不作惡”的 AI倫理準(zhǔn)則一直貫徹到底。

對于在Hugging Face的感受,Margaret Mitchell說:“這里已經(jīng)有很多基本的道德價值觀。很明顯,我不必強行插手或改進(jìn)倫理流程。”

事實上,在涉及與人工智能倫理相關(guān)的一系列問題上,Hugging Face始終保持著嚴(yán)謹(jǐn)?shù)膽B(tài)度,作為一個開源模型庫,希望與開發(fā)者和用戶達(dá)成在 AI倫理方面的共識。

從Hugging Face持續(xù)更新的 AI 倫理簡報中,能夠清晰地看到Hugging Face開發(fā) AI 倫理相關(guān)工具和保障措施的脈絡(luò),并以此確保開源科學(xué)能夠賦予個人權(quán)力,不斷將潛在危害最小化。

無論未來AI能否改變世界、或?qū)⒁允裁葱问、什么程度改變世界,大模型已?jīng)是無法逆轉(zhuǎn)的現(xiàn)實。它可以是將第四次工業(yè)革命推向高潮的生產(chǎn)力工具,也不排除會成為阻礙人類繼續(xù)進(jìn)步的絆腳石。

如果沒有基于專業(yè)知識構(gòu)建的AI倫理道德約束,很有可能無法避免將來會出現(xiàn)巨大的反噬。人類必須未雨綢繆,提前做好最周密的布局以抵御這場颶風(fēng)。

過去幾年間,全球范圍內(nèi)已經(jīng)發(fā)布了100多項人工智能倫理治理相關(guān)文件,各國政府、國際組織、學(xué)術(shù)界和產(chǎn)業(yè)界四方力量高度關(guān)注人工智能倫理治理問題。

近年來,我國接連發(fā)布了《新一代人工智能治理原則》《新一代人工智能倫理規(guī)范》等政策文件,其中明確提出八項原則,強調(diào)將倫理道德融入人工智能全生命周期。

但是,對于大模型和人工智能的規(guī)范不能只停留在政策層面,由于大模型特別擅長模仿真實的人類語言,所以也更容易被用來欺騙人類。

從人類用人工智能欺騙人類,到人工智能主動欺騙人類或許僅隔著一層紙。

人類必須找到完美的技術(shù)手段來駕馭它。

02. 非商業(yè)

不高估短線、不低估長線

從長線來看,Hugging Face在人工智能領(lǐng)域的地位很可能像瑞士一樣穩(wěn)固。

中立的瑞士靠堅固的保險柜在大國之間游刃有余。

而Hugging Face則是依靠開放,徹底地開源,甚至找不到任何與Hugging Face對標(biāo)的競爭對手。

未來,在替股東們賺夠錢之后,OpenAI也有機會成為公益性機構(gòu)。

但現(xiàn)在,全球獨角獸中可能只有Hugging Face脫離了“低級趣味”。

Hugging Face不但免費,還能幫用戶省錢。

Hugging Face解決了很多人工智能公司的核心痛點,就是降低了搭建比算法團(tuán)隊還要龐大的工程團(tuán)隊難度,換句話說就是承擔(dān)了大部分臟活和累活,所以受到了大部分算法專家的歡迎。

Hugging Face在改變世界,在改變世界的過程中并不一定會實現(xiàn)傳統(tǒng)意義上的商業(yè)價值。

所以,Hugging Face很可能不適用于過往的投資邏輯。

再考慮到科技領(lǐng)域大概率會發(fā)生類似云原生的“AI原生”時代,所以在未來,來自工業(yè)時代、互聯(lián)網(wǎng)時代、移動互聯(lián)網(wǎng)時代的很多商業(yè)邏輯都可能將面臨挑戰(zhàn)。

對此,紅杉的合伙人 Pat Grady 也曾表示:Hugging Face優(yōu)先考慮的是應(yīng)用,而不是變現(xiàn),我認(rèn)為這是正確的做法。他們看到了 Transformer 模型在 NLP 之外的應(yīng)用方式,看到了成為 GitHub 的機會,這不僅是面向 NLP,而且會延伸到機器學(xué)習(xí)的每個領(lǐng)域。

AI的商業(yè)化進(jìn)程并不簡單,上一波以CV、CNN為代表的AI1.0就沒有找到更好的突破口,至今還在自動駕駛的泥沼中苦苦掙扎。盡管邏輯合情合理、盡管從一開始就能讓市場看到具體的未來,但時間軸卻不在任何人的掌控中。

大模型很可能會遇到同樣難以真正商業(yè)化落地的問題。

5月4日,微軟官方宣布Bing聊天機器人全面開放給所有用戶,用戶不再需要加入候補名單,只需要登錄微軟賬戶,然后打開Bing或Edge瀏覽器,就可以直接體驗New Bing。

在外界看來,微軟將ChatGPT的能力集成到Bing中,讓GPT-4帶給用戶更強大的生成式搜索體驗,無疑是打向搜索巨頭谷歌的一記重拳,也必將顛覆過去20年其一家獨大的市場局面。

但由目前全球搜索市場份額的變化來看,卻出乎了所有人的意料。根據(jù)數(shù)據(jù)服務(wù)商StatCounter新近提供的數(shù)據(jù)顯示,微軟Bing的臺式電腦桌面搜索市場份額為7.1%,甚至低于去年10月OpenAI尚未發(fā)布ChatGPT時Bing 9.9%的歷史高點。

相比之下,谷歌搜索在桌面市場的份額達(dá)到了86.7%,較去年10月提升了近3個百分點。如果再把樣本范圍擴大到包含各種移動設(shè)備后,數(shù)據(jù)對微軟更加不利,Bing的整體市場份額僅為2.8%,而谷歌的市占率依然達(dá)92.6%,還是占據(jù)著搜索市場絕對的優(yōu)勢地位。

盡管被寄予厚望,但判斷人工智能的iPhone時刻是否已經(jīng)來臨大抵還為時尚早。

起碼在短期內(nèi)大模型很可能是被高估了。

大模型很可能真的要先成為下一代計算平臺的OS(操作系統(tǒng)),才能引發(fā)切實的量變。

或許因為ChatGPT的多輪對話邏輯并不適合替代搜索,而且用大模型來重寫所有軟件的邏輯也并不可靠。

過去二十多年已經(jīng)形成的肌肉記憶明顯對人工智能的現(xiàn)有能力并不友好。

況且考慮到基于大模型的應(yīng)用尚且居高不下的算力成本最終還將轉(zhuǎn)嫁給終端用戶,其商業(yè)前景就更加存疑。

在這樣的背景下,Hugging Face“現(xiàn)金為王”的非商業(yè)化策略更顯得難能可貴。

在Clément Delangue看來, Hugging Face的商業(yè)模式比絕大部分人工智能公司簡單得多,他介紹:Hugging Face首先是一個平臺,因此積累了比較大的用戶量,和大部分開源服務(wù)商類似,采用了免費模式的模式以期快速增長,不管是個人開發(fā)者還是公司都可以免費使用平臺的大部分服務(wù),截至2022年已經(jīng)有超過15,000家公司用戶。

其中有20%,也就是差不多3,000家公司在使用Hugging Face的付費服務(wù),其中包括了像英特爾、高通、輝瑞、Meta、Bloomberg、Grammerly等不同領(lǐng)域的知名公司,Hugging Face為這些付費用戶提供了各種高級功能。

在C輪1億美元融資之后,Hugging Face才少量開放了一些崗位,團(tuán)隊從之前一年的30人擴大到130人,從公司人數(shù)來看,確實比Midjourney要多不少,但還是遠(yuǎn)遠(yuǎn)低于其他獨角獸公司。

Hugging Face的招聘方式也和其他公司方式不太一樣,甚至不去設(shè)置特定的崗位名稱和崗位職責(zé),在其看來一個開源平臺更需要和公司文化相符合,能夠擴大公司價值的人。

Clément Delangue也曾公開表示:Hugging Face 的目標(biāo)是通過工具和開發(fā)者社區(qū),讓更多的人使用自然語言處理工具,達(dá)成他們的創(chuàng)新目標(biāo),讓自然語言處理技術(shù)更容易使用和訪問。

他還補充說:沒有任何一家公司,包括科技巨頭,能夠獨自“解決 AI 問題”,而我們實現(xiàn)這一目標(biāo)的唯一途徑,是通過以社區(qū)為中心的方式,分享知識和資源。

正如Clément Delangue所說,如果谷歌沒有分享《Attention is all you need》,可能還需要再等50年人工智能才能達(dá)到今天的水平。Hugging Face讓全球最懂NLP、最懂ML的人能夠無障礙的一起工作,這在純商業(yè)化的公司架構(gòu)下是永遠(yuǎn)無法達(dá)到的。

即使目前大模型處在被高估的狀態(tài),但AI一定代表著未來。

根據(jù) Straits Research 測算,2021 年全球 NLP 市場規(guī)模為 135 億美元,預(yù)計到 2030 年擴大至 910 億美元,CAGR 為 27%。與此同時,ML 市場預(yù)計在 2030 年達(dá)到 2,099 億美元。

據(jù)彭博行業(yè)研究報告顯示:到2032年,生成式AI市場的營業(yè)收入將是2022年收入的32.5倍,ChatGPT將帶來生成式AI十年繁榮,2032年市場規(guī)模1.3萬億美元。亞馬遜、谷歌母公司Alphabet、英偉達(dá)和微軟都可能是AI繁榮年代的大贏家。

只是對于Hugging Face而言,無法從市場占比簡單判斷其規(guī)模上限,但是沒有Hugging Face,所有與NLP、ML相關(guān)的研發(fā)可能都會延期。

03. 朋友圈

中國是否需要、能否出現(xiàn)Hugging Face

在一些關(guān)于Hugging Face券商研報性質(zhì)的分析中,總會為其生硬的匹配一些莫名其妙的競爭對手。

其中通常會包括OpenAI、DataRobot、甚至北美的幾大云廠商。

搬出這些公司或許可以抬高Hugging Face的身價,但事實上,Hugging Face不但沒有明確的對標(biāo)存在,也沒有真正意義上的競爭對手。

放眼與AI有關(guān)的圈子,目光所及似乎都是Hugging Face的朋友圈。

而且有趣的是,不但投資Hugging Face的機構(gòu)陣容豪華,包括了:Lux Capital、紅杉資本、Addition、Coatue、Betaworks、A.capital、SV angel。

其背后的個人投資者,幾乎全是北美科技公司的大佬:有OpenAI 聯(lián)合創(chuàng)始人兼CTO Greg Brockman、Salesforce首席科學(xué)家Richard Socher、MongoDB CEO Dev Ittycheria、Dataiku CEO Florian Douetteau、Datadog CEO Olivier Pomel、Kong CEO Augusto Marietti。

當(dāng)然,還有連投多輪的NBA球星Kevin Durant,據(jù)說Clément Delangue作為一個不看美國籃球的法國人,在和Kevin Durant見面時,完全不知道他在球場的光環(huán)。

在機器學(xué)習(xí)(ML)這么一個日新月異的細(xì)分賽道上,作為一家初創(chuàng)公司,要去和那些行業(yè)巨頭、以及科學(xué)界、開源界的行業(yè)大佬們競爭不但非常難,而且壓力可能來自方方面面。

科技巨頭或者幾大名校在北美就有上百個人工智能研究中心,雖然不同的個實驗室可能或有不同的側(cè)重點,但每一家都在不斷新陳代謝。

創(chuàng)業(yè)公司盲目競爭或許可以在一段時間、一定范圍內(nèi)超越對手,但人工智能的迭代速度太快了,任何單點的突破都可能快速被趕超。

Clément Delangue說:所以,我們現(xiàn)在不再試圖競爭,轉(zhuǎn)而選擇為開源界和科學(xué)界賦能。 通過開源模型,可以為架構(gòu)和數(shù)據(jù)庫的改進(jìn)提供靈感。Elastic和MongoDB就是很好的例子,它們的事跡表明,初創(chuàng)公司可以通過某種方式為社區(qū)賦能,此種方法產(chǎn)生的價值比通過搭建一個專有工具產(chǎn)生的價值高出上千倍。

當(dāng)然也不排除OpenAI這類大力出奇跡的特例,但是訓(xùn)練和運行ChatGPT所需要的鈔能力實在讓其他公司望塵莫及。

即使有微軟這樣贊助百億美元級別的金主全力支持,OpenAI還是在不斷補血。4月29日據(jù)北美某科技媒體披露,大語言模型ChatGPT開發(fā)商OpenAI近日又獲得新一筆總額超過3億美元的融資,公司估值已超270億美元。

而Hugging Face則不太擔(dān)心成本等方面的壓力,今年初,亞馬遜云科技宣布與Hugging Face進(jìn)一步合作。

亞馬遜云科技首席執(zhí)行官Adam Selipsky表示:生成式AI潛力巨大,但成本和專業(yè)性讓大部分公司望而卻步。Hugging Face和亞馬遜云科技的合作旨在幫助用戶以最高的性能和最低的成本創(chuàng)建自己的生成式AI應(yīng)用。

當(dāng)然,在如此前沿的賽道,用錢能解決的當(dāng)然都不是大問題,于是在知乎,不出所料地一定會有這樣一個老生常談的爭論主題,也是有關(guān)Hugging Face在知乎熱度最高的話題“為什么中國沒有Hugging Face”。

并且,還會帶入一個固定考量:目前來看,這種單靠開源模型庫的公司如何商業(yè)化,護(hù)城河在哪里?

這樣泛化的靈魂問題其實很難回答,于是,評論風(fēng)頭開始轉(zhuǎn)向,比如:

物質(zhì)是精神的基礎(chǔ),如果被房價、房租、以及996束縛,是不可能有精力去搞開源的。活下去才最重要;國外的版權(quán)意識濃厚,公司更樂意花錢請開源公司服務(wù);而國內(nèi)公司更傾向于花錢招人研究;國內(nèi)的AI產(chǎn)業(yè)還處于資本原始積累階段,對于小公司而言,向同行騙資料、騙技術(shù),為了活下去,什么都可以做。

在AI2.0時代,不再是什么技術(shù)都可以Copy2China,通過簡單調(diào)整,就可以憑借巨大的人口紅利,實現(xiàn)建立在二次“創(chuàng)新”基礎(chǔ)上的雙贏。

開源已經(jīng)成為一道分水嶺,如果養(yǎng)成了拿來就用的習(xí)慣、而不想貢獻(xiàn),當(dāng)然也就掌握不了核心競爭力。

同樣,在開源世界不能押注于確定性,如果依靠過往刻板的成見,可能永遠(yuǎn)也無法理解Hugging Face。

Clément Delangue認(rèn)為:初創(chuàng)公司可以通過某種方式為開放的社區(qū)賦能,此種方法產(chǎn)生的價值,比通過搭建一個專有工具,產(chǎn)生的價值高出上千倍。

這也對應(yīng)著人工智能時代的商業(yè)邏輯,當(dāng)大模型的復(fù)雜程度越來越高,管理和部署模型的成本也越來越不可控。Hugging Face 的開源模型庫不但可以幫為開發(fā)者和公司縮短研發(fā)周期,還可以為其優(yōu)化高達(dá)千萬美元的計算資源。

Clément Delangue說:公司不需要從創(chuàng)造的價值中獲取 100% 的紅利,只需將其中 1% 的價值變現(xiàn),但即便只是 1%,也足夠讓你成為一家高市值的公司。

04. & so on

綠色清潔的AI將是長期話題

這半年來,科技領(lǐng)域的公眾人物們都在不停展望著五年、十年之后大模型帶來摧枯拉朽的變革。

李彥宏說:十年后,全世界50%的工作,都會是提示詞工程師。但是,Sam Altman說:5年內(nèi),我們就不太會需要提示詞工程師。因為隨著AI的進(jìn)化,就能理解人類的自然語言,可以跟人正常交流,不需要專門寫提示詞。周鴻則表示:在三到五年里,各種行業(yè)都要被GPT重塑一遍,所以現(xiàn)在是誰不擁抱人工智能,誰就要被淘汰。

但其實初代iPhone發(fā)布后的幾年內(nèi),智能終端上最醒目的應(yīng)用無非是憤怒的小鳥、捕魚達(dá)人、水果忍者等等這些。

與其鼓吹所謂iPhone時刻之于大模型,不如更多對比關(guān)注iPhone出現(xiàn)之前多點觸控、二維碼之類的變遷,可能更容易發(fā)現(xiàn)機會。

在Clément Delangue看來,機器學(xué)習(xí)正在取代軟件成為構(gòu)建技術(shù)的新方式,過去,采用傳統(tǒng)軟件架構(gòu)和編程方法可能需要編寫上百萬行代碼,但機器學(xué)習(xí)完全不需要這樣做,而且效果更好、速度更快。

大模型、人工智能必將是一場持久戰(zhàn),相比于口水仗、預(yù)言和批評,業(yè)界應(yīng)該更多關(guān)注些實際問題,否則這場消耗戰(zhàn)耗費的算力資源恐怕至少堪比挖礦。

BLOOM的訓(xùn)練過程在法國超算Jean Zay上完成,全程使用了384塊80GB內(nèi)存版本的A100 GPU。

在BLOOM訓(xùn)練時Hugging Face發(fā)表了一篇題為《估算 1760 億參數(shù)語言模型 BLOOM 的碳足跡》(Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model)的論文,并且對外公布了一種全新的方法,來精確計算訓(xùn)練模型所產(chǎn)生的碳排放量,該方法可以覆蓋模型的整個生命周期,而不僅僅是訓(xùn)練期間。

訓(xùn)練大模型無疑會消耗大量能源,比如據(jù)公開報道,訓(xùn)練一個BERT模型大約會產(chǎn)生1,438磅二氧化碳,相當(dāng)于從紐約到舊金山之間的一次往返航班所產(chǎn)生的碳排放量。

BLOOM的訓(xùn)練吞吐量約為150 TFLOP,使用的超算由低碳的核能提供動力,所產(chǎn)生的熱量被循環(huán)利用給學(xué)校供暖。

正如在AI倫理方面的嚴(yán)謹(jǐn),Hugging Face在ESG方面所承擔(dān)的責(zé)任更讓人相信這是一家靠譜的人工智能公司。

對于未來,Clément Delangue也不甚明了,他說:我們意識到計算資源越多,并不一定足以解決問題,導(dǎo)致回報開始下降。如果投資者跟進(jìn),并不意味著他們都會成功,但這是一種有趣的風(fēng)險,我非常期待看到這些公司將來能創(chuàng)造出什么。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港