展會(huì)信息港展會(huì)大全

復(fù)制一個(gè)OpenAI,for Science | AI周
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-08-20 13:51:43   瀏覽:12045次  

導(dǎo)讀:谷歌前CEO埃里克施密特(Eric Schmidt)對(duì)此很感興趣。他正在籌備一家新的AI非營利組織(nonprofit initiative),已經(jīng)聘請(qǐng)了至少兩名科學(xué)家:他們相對(duì)年輕,已是各自領(lǐng)域的專家,發(fā)表了大量高質(zhì)量論文,而且都強(qiáng)烈相信人工智能即將顛覆科學(xué)。 弗朗西斯克里...

谷歌前CEO埃里克施密特(Eric Schmidt)對(duì)此很感興趣。他正在籌備一家新的AI非營利組織(nonprofit initiative),已經(jīng)聘請(qǐng)了至少兩名科學(xué)家:他們相對(duì)年輕,已是各自領(lǐng)域的專家,發(fā)表了大量高質(zhì)量論文,而且都強(qiáng)烈相信人工智能即將顛覆科學(xué)。

弗朗西斯·克里克研究所(Francis Crick Institute)的應(yīng)用生物技術(shù)實(shí)驗(yàn)室的創(chuàng)始人塞繆爾·羅德里格斯(Samuel Rodriques),借助于人工智能研究過敏、抑郁癥和阿爾茨海默病等。羅切斯特大學(xué)教授安德魯·懷特(Andrew White)今年剛發(fā)了一篇論文,指出大模型可能會(huì)改變化學(xué)的未來。

施密特的新機(jī)構(gòu),以O(shè)penAI最初的模樣為藍(lán)圖,不以賺錢為目的。資金主要來自施密特的個(gè)人財(cái)富,未來也可能引入志同道合的外部資金,保證向頂尖的科學(xué)家與人工智能學(xué)者支付足夠的薪酬,以及在學(xué)術(shù)界難以獲得的算力資源。

施密特一直熱衷于用AI重塑科學(xué)研究的未來。他在擔(dān)任谷歌CEO期間,收購了DeepMind,稱之為“現(xiàn)代最偉大的英國的成功故事之一”。除了用AI預(yù)測蛋白質(zhì)結(jié)構(gòu),DeepMind還在嘗試訓(xùn)練AI學(xué)習(xí)精準(zhǔn)控制托卡馬克內(nèi)包含等離子體的磁場,這是邁向商用核聚變技術(shù)的關(guān)鍵一步。

上個(gè)月,他撰文描繪了科學(xué)已經(jīng)重塑的未來,由人工智能驅(qū)動(dòng)的工具,不僅既可以解放人類免于無意義且耗時(shí)的勞動(dòng),也可以引導(dǎo)人類進(jìn)行創(chuàng)造性的發(fā)明和發(fā)現(xiàn),加快實(shí)現(xiàn)那些本來需要幾十年才能取得的突破。

他的文章發(fā)表在《MIT技術(shù)評(píng)論》雜志上,題為《人工智能將如何革命科學(xué)研究》。差不多同時(shí),《自然》雜志也刊登了題為《人工智能時(shí)代的科學(xué)發(fā)現(xiàn)》的論文。對(duì)于人工智能驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)的前景,充滿期待。

人工智能正在改變文獻(xiàn)綜述的方式。像 PaperQA 和 Elicit 這樣的工具,可以利用大模型掃描文章數(shù)據(jù)庫,并生成簡潔準(zhǔn)確的摘要,甚至給出關(guān)鍵引用。然后,科學(xué)家提出一個(gè)新的需要驗(yàn)證的假設(shè)。大模型特別適合處理這種有著固有的科學(xué)層次結(jié)構(gòu)的問題。它還能擴(kuò)大與縮小篩選的范圍。在實(shí)驗(yàn)階段,人工智能與大模型可以與自動(dòng)化機(jī)器人實(shí)驗(yàn)平臺(tái)合作。其實(shí)它已經(jīng)到來,出現(xiàn)在Emerald Cloud Lab等公司以及阿貢國家實(shí)驗(yàn)室等地方。在分析階段,人工智能會(huì)總結(jié)這一次的實(shí)驗(yàn)結(jié)果,分析并給出下一次實(shí)驗(yàn)所需要驗(yàn)證的目標(biāo)與流程。

隨著資本涌入大模型,各類應(yīng)用層出不窮,但目前遇到了諸多安全與倫理問題,正在跨越鴻溝。相比之下,AI for science反倒是最沒有爭議的應(yīng)用場景之一。

它甚至不會(huì)帶來下崗危機(jī)?茖W(xué)家仍是這個(gè)場景的主導(dǎo)者,但隨著大模型能夠輔助構(gòu)建代碼,STEM學(xué)生將不再需要掌握晦澀的編程語言,這將使那些真正有志于基礎(chǔ)研究的科學(xué)家,更容易涉足自己想去往的領(lǐng)域。

它最大的爭議就是費(fèi)錢,而且不直接來錢。這也是為什么非營利的OpenAI,最終走向了利潤上限(capped-profit)模式;而現(xiàn)代英國最成功的DeepMind最終被吞入美國科技巨頭。

最近幾十年來,科技行業(yè)一直被硅谷所主導(dǎo),后來“科技”這一標(biāo)簽,又為“互聯(lián)網(wǎng)”所取代。互聯(lián)網(wǎng)賺錢的最重要的方式之一就是廣告,以至于主流媒體和大多數(shù)風(fēng)險(xiǎn)投資家有點(diǎn)忘記了,創(chuàng)新的出發(fā)點(diǎn)之一就是提升創(chuàng)新能力。

如果AI for Science是科學(xué)研究的第五次范式革命的話,它還需要研究模式的革命。算力都集中在科技巨頭和AI新貴手中,而大學(xué)里有大量的科學(xué)家亟待用AI來幫助加快常年未突破的研究項(xiàng)目。如何設(shè)計(jì)一種新的模式,把算力和腦力的資源融合到一起。

施密特設(shè)想這樣一套創(chuàng)新體系:由人工智能平臺(tái)支撐早期探索,比如AlphaFold模型對(duì)單個(gè)蛋白質(zhì)結(jié)構(gòu)的預(yù)測;達(dá)到基準(zhǔn),足以有科學(xué)信服力之后,由科學(xué)家來改進(jìn)模型,比如華盛頓大學(xué)發(fā)布的RoseTTAFold,能夠預(yù)測蛋白質(zhì)復(fù)合物的結(jié)構(gòu)。它們最終形成有價(jià)值的知識(shí)產(chǎn)權(quán)。政府可以幫助開發(fā)大型、高質(zhì)量的數(shù)據(jù)集,并對(duì)高社會(huì)回報(bào)但低財(cái)務(wù)回報(bào)的緊迫的項(xiàng)目予以扶持。

本周,還有這些發(fā)生在AI領(lǐng)域的事件值得關(guān)注:

一、風(fēng)險(xiǎn)、監(jiān)管與倫理

英國AI安全峰會(huì)考慮邀請(qǐng)中國。該峰會(huì)定于11月初,在白金漢郡的布萊切利園舉辦,二戰(zhàn)期間圖靈等英國密碼破譯者,就在這個(gè)基地工作。谷歌DeepMind、微軟、OpenAI和Anthropic等公司的高管和頂尖學(xué)者在受邀之列。英國沒有忽視中國,但仍在考慮以何種形式與議題邀請(qǐng)。峰會(huì)將廣泛討論人工智能的安全性,而不僅僅是生成人工智能,也包括包括如何在戰(zhàn)爭和網(wǎng)絡(luò)安全中使用AI等議題。

美聯(lián)社公布生成式AI使用標(biāo)準(zhǔn)。該機(jī)構(gòu)提出,員工可以謹(jǐn)慎使用ChatGPT進(jìn)行實(shí)驗(yàn),但不可使用ChatGPT來創(chuàng)建用于發(fā)表的內(nèi)容,生成式AI工具的任何輸出都應(yīng)被視為未經(jīng)審查的材料,使用生成式AI來更改照片、視頻或音頻等也被限制使用等7項(xiàng)規(guī)定。

中國提議負(fù)面清單與專設(shè)機(jī)構(gòu)監(jiān)管人工智能。中國社會(huì)科學(xué)院國情調(diào)研重大項(xiàng)目《我國人工智能倫理審查和監(jiān)管制度建設(shè)狀況調(diào)研》起草組發(fā)布《人工智能法示范法1.0(專家建議稿)》,建議采用負(fù)面清單管理制度,負(fù)面清單內(nèi)的研發(fā)、提供活動(dòng)采取許可機(jī)制,實(shí)行事前監(jiān)管,負(fù)面清單外的研發(fā)、提供活動(dòng)則采取備案機(jī)制,事后監(jiān)管機(jī)制,并設(shè)立研發(fā)者相應(yīng)豁免條款;提出國家人工智能辦公室作為主管機(jī)構(gòu),以單獨(dú)的主管機(jī)關(guān)模式,避免互聯(lián)網(wǎng)平臺(tái)時(shí)代的九龍治水困境。

炒作AI的假新聞登上了倫交所官網(wǎng)。AI時(shí)代的虛假新聞問題已經(jīng)纏上了AI自身。一份宣傳Ripplewood將向OpenAI投資10億美元的新聞稿出現(xiàn)在倫敦證券交易所網(wǎng)站上,隨后被倫交所發(fā)現(xiàn)并刪除。Ripplewood已聘請(qǐng)律師調(diào)查虛假公告出現(xiàn)的原因。OpenAI未回應(yīng)。目前多方正在調(diào)查誰要為此事負(fù)責(zé),或許還要接受金融監(jiān)管處罰。

二、中美科技巨頭

谷歌大模型Gemini將在秋季發(fā)布。谷歌目前有數(shù)百人組成的團(tuán)隊(duì),正在訓(xùn)練該大模型,計(jì)劃超越其他所有同類產(chǎn)品,并讓后者無法望其項(xiàng)背。它很可能是首個(gè)能夠同時(shí)處理視頻、文本和圖像的多模態(tài)模型。外界估計(jì)谷歌在訓(xùn)練中用到了YouTube視頻、谷歌圖書、龐大的搜索索引以及 Google Scholar上的學(xué)術(shù)資料。

Meta將推編程模型Code Llama。它將對(duì)標(biāo)OpenAI旗下的Codex模型,并較Meta的開源大語言模型Llama 2顯著增強(qiáng)。最快將于下周開源發(fā)布。

微軟將在Azure銷售Databricks軟件。這可以幫助企業(yè)從頭開始打造人工智能模型,或重新利用開源模型。繼與Meta的Llama 2合作后,微軟在尋找OpenAI替代方案的路上越走越遠(yuǎn)。

騰訊專有基礎(chǔ)大模型下半年末升級(jí)。在財(cái)報(bào)電話會(huì)議上,騰訊高管透露已開始在公司內(nèi)部不同場景中測試專有基礎(chǔ)模型,包括騰訊云、金融、科技、游戲部門,并開始調(diào)整模型性能,下半年會(huì)有升級(jí)。目前,騰訊云MaaS上架了包括Llama 2在內(nèi)的20多個(gè)主流模型。此外,騰訊云還發(fā)布了面向廣告平臺(tái)、UGC平臺(tái)、SaaS企業(yè)的文案創(chuàng)作AI工具。

小米打造手機(jī)上的大模型。目前小米AI團(tuán)隊(duì)超過3000人,以“輕量化、本地部署”為思路,讓大模型上手機(jī)。雷軍表示,目前一款13億參數(shù)的模型已經(jīng)在手機(jī)端跑通,且在某些場景下,可以媲美 60 億模型在云端的運(yùn)算結(jié)果。

三、大模型和行業(yè)應(yīng)用

醫(yī)療巨頭Epic用大模型梳理臨床文檔。它的合作方是成立于2020年的Abridge,后者的產(chǎn)品與服務(wù)將集成到Epic的臨床工作流程中,使醫(yī)療服務(wù)提供者能夠生成實(shí)時(shí)、結(jié)構(gòu)化的患者談話摘要,并具有完全的可審計(jì)性。

普華永道試用內(nèi)部生成式AI工具ChatPwC。它可作為員工的對(duì)話式人工智能助手。該工具采用了OpenAI的技術(shù),并根據(jù)相關(guān)數(shù)據(jù)進(jìn)行了微調(diào)。目前,約有1000名員工可以使用該工具,公司計(jì)劃在今年夏天重點(diǎn)擴(kuò)大使用范圍。

火山引擎采用視覺大模型修復(fù)經(jīng)典影片。老片中常見的清晰度低、流暢度低、色彩失真、有瑕疵等畫質(zhì)問題,在抖音的海量投稿里也廣泛存在。通過服務(wù)抖音,火山引擎已經(jīng)形成了一套較為完整的智能處理技術(shù)方案。這是其首次將AIGC視覺大模型應(yīng)用于老片修復(fù)中。

達(dá)摩院發(fā)布癌癥分析通用模型。針對(duì)市面上醫(yī)療AI模型出現(xiàn)的高假陽性、漏檢等問題,達(dá)摩院醫(yī)療AI團(tuán)隊(duì)聯(lián)合多家醫(yī)院單位,提出了統(tǒng)一的多癌影像分析通用模型,適用于八種主流的高發(fā)高致死癌癥以及相關(guān)器官中的腫瘤子類型。

四、資金流向

OpenAI收購Global Illumination。后者業(yè)務(wù)主要集中在面向視覺的產(chǎn)品和服務(wù)上,最新的一款產(chǎn)品是 Biomes,類似可以在瀏覽器上運(yùn)行的 Minecraft。外界推測這是一場針對(duì)人才和團(tuán)隊(duì)的收購,或許還有可能是看到了將AI代理部署到3D世界的潛在市常

韓國電信巨頭1億美元投資Anthropic。兩家公司計(jì)劃共同開發(fā)面向全球電信的多語言大語言模型,并構(gòu)建AI平臺(tái)。尚不清楚具體交易細(xì)節(jié)。不久前,該巨頭已與德國、阿聯(lián)酋與新加坡的電信巨頭達(dá)成聯(lián)盟,共同研發(fā)電信領(lǐng)域的人工智能業(yè)務(wù)。

Elemental Cognition獲近6000萬美元融資。該公司致力于開發(fā)“先思考后說話”的AI產(chǎn)品,它提供兩種企業(yè)產(chǎn)品Cogent和Cora,本質(zhì)上是針對(duì)不同場景設(shè)計(jì)的聊天機(jī)器人,可用于金融服務(wù)、交互式旅行規(guī)劃以及生命科學(xué)領(lǐng)域的自動(dòng)化研究發(fā)現(xiàn)。

Transformer論文作者成立Sakana AI。該公司總部位于東京,專注于開發(fā)基于自然啟發(fā)智能的新型基礎(chǔ)模型,這將是一個(gè)有別于Transformer架構(gòu),且能在非西方社會(huì)文化中表現(xiàn)良好的大模型。該公司的首席技術(shù)官Llion Jones,是提出Transformer深度學(xué)習(xí)架構(gòu)論文的作者之一;首席執(zhí)行官David Ha此前曾擔(dān)任Stability AI研究主管和谷歌大腦研究員。

中科加禾完成數(shù)千萬元種子輪融資。該公司聚焦芯片編譯與優(yōu)化技術(shù),包括大模型推理優(yōu)化工具、CUDA兼容編譯器和中長尾芯片定制編譯器。為解決國產(chǎn)芯片的生態(tài)碎片化問題,該公司的技術(shù)能讓用戶把英偉達(dá)上的應(yīng)用程序無縫移植到國產(chǎn)芯片。

五、基礎(chǔ)設(shè)施

英偉達(dá)全年全球有望出貨55萬個(gè)H100芯片。它們主要將銷往美國科技公司。中國科技巨頭則向英偉達(dá)采購了10萬塊A800芯片,約10億美元,今年交付;另有約40億美元的芯片將在明年交付。A800是A100的功能縮水版本,A100是H00的上一代版本。此外,媒體透露臺(tái)積電7nm制程的A800目前產(chǎn)能不足,部分交貨將延期。

三星將為Groq生產(chǎn)AI芯片。Groq主要針對(duì)云計(jì)算市場開發(fā)AI芯片,主要成員曾參與研發(fā)谷歌TPU。三星晶圓代工部門將為其生產(chǎn)4nm制程的AI加速器芯片。該生產(chǎn)基地位于美國得克薩斯州泰勒縣,預(yù)計(jì)于今年底前竣工,主要生產(chǎn)5nm以下先進(jìn)制程。

耐能推出KL730芯片,支持輕量級(jí)GPT。該芯片以實(shí)現(xiàn)AI功能為目的,集成了車規(guī)級(jí)神經(jīng)處理單元(NPU)和圖像信號(hào)處理器(ISP),可無縫接入圖像、視頻、音頻和毫米波等數(shù)字信號(hào),使得用戶能夠部分或完全離線地在終端運(yùn)行輕量級(jí)的GPT模型。

聯(lián)想推出AI大模型訓(xùn)練服務(wù)器。服務(wù)器采用的是英偉達(dá)的H800芯片。聯(lián)想集團(tuán)還宣布,今后讓100%算力基礎(chǔ)設(shè)施產(chǎn)品支持AI,50%基礎(chǔ)設(shè)施研發(fā)投入在AI領(lǐng)域。

六、開源生態(tài)

多模態(tài)預(yù)訓(xùn)練語料“書生萬卷”開源發(fā)布。上海人工智能實(shí)驗(yàn)室聯(lián)合中央廣播電視總臺(tái)、人民網(wǎng)、國家氣象中心、中國科學(xué)技術(shù)信息研究所、上海報(bào)業(yè)集團(tuán)、上海文廣集團(tuán)等大模型語料數(shù)據(jù)聯(lián)盟成員,共同開源發(fā)布“書生萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料,目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開源的數(shù)據(jù)總量超過2TB。

微軟開源大模型WizardMath發(fā)布。在參數(shù)只有700億,遠(yuǎn)不及后三者的情況下,WizardMath數(shù)學(xué)能力擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型。目前,其相關(guān)代碼、復(fù)現(xiàn)方式及論文都已開源或上線。論文共9位作者,均為華人。

清華系團(tuán)隊(duì)開源多模態(tài)生物醫(yī)藥大模型。清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)及其孵化的大模型初創(chuàng)公司水木分子,開源了多模態(tài)生物醫(yī)藥百億參數(shù)大模型BioMedGPT-10B。該模型可用于提升包括新藥立項(xiàng)評(píng)估、藥物設(shè)計(jì)和優(yōu)化、臨床試驗(yàn)設(shè)計(jì)、適應(yīng)癥拓展等多個(gè)藥物研發(fā)環(huán)節(jié)的效率。該團(tuán)隊(duì)一同上線了BioMedGPT-LM-7B,號(hào)稱是“首個(gè)可商用、生物醫(yī)藥專用的Llama2大模型”。

七、論文

殘差網(wǎng)絡(luò)論文4作者獲獎(jiǎng)。ResNet 的四位作者何愷明、孫劍、任少卿、張祥雨因提出深度殘差學(xué)習(xí),為人工智能做出了基礎(chǔ)性貢獻(xiàn),獲得“數(shù)學(xué)與計(jì)算機(jī)科學(xué)獎(jiǎng)”。關(guān)于 ResNet(殘差網(wǎng)絡(luò))的論文解決了深度網(wǎng)絡(luò)的梯度傳遞問題。這篇論文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究領(lǐng)域被引用次數(shù)最多的論文,并建立了現(xiàn)代深度學(xué)習(xí)模型的基本組成部分(例如在 Transformers、AlphaGo Zero、AlphaFold 中)。其中的孫劍博士2015年帶領(lǐng)何愷明等人開發(fā)了深度殘差網(wǎng)絡(luò)(ResNet),是世界上首個(gè)上百層的深度神經(jīng)網(wǎng)絡(luò),開創(chuàng)了深度學(xué)習(xí)領(lǐng)域的一個(gè)里程碑。2022 年 6 月 14 日,孫劍博士因突發(fā)疾病去世。

文本引導(dǎo)人類試衣,栩栩如生。TeCH 通過利用 1) 描述性文本提示(例如服裝、顏色、發(fā)型)來重建 3D 人體,這些描述性文本提示是通過服裝解析模型和視覺問答 (VQA) 自動(dòng)生成的,2) 個(gè)性化的微調(diào)文本到圖像擴(kuò)散模型(T2I),它可以學(xué)習(xí)“難以描述”的外觀。TeCH 生產(chǎn)出高保真 3D 人體服裝,具有一致細(xì)膩的紋理和詳細(xì)的全身幾何形狀。

Transformer 的局限性。將多步組合推理簡化為線性子圖匹配,讓Transformer來解決組合任務(wù),它不一定會(huì)形成系統(tǒng)性的問題解決能力。關(guān)于抽象多步推理問題的理論論證也表明,隨著任務(wù)復(fù)雜性的增加,Transformer 的性能將迅速下降。通俗地說,在需要真正的多步組合操作的某些智力任務(wù)中,如乘法和邏輯謎題,Transformer 可能存在根本性的弱點(diǎn)。但這只是一項(xiàng)初步研究。

何時(shí)出現(xiàn)“涌現(xiàn)”。大語言模型中,為什么某些能力在訓(xùn)練數(shù)據(jù)超過規(guī)模閾值時(shí)會(huì)突然”涌現(xiàn)“,這篇論文提出了令一些專家感到滿意的解釋。論文提出了神經(jīng)縮放定律的量化模型,解釋了模型和數(shù)據(jù)規(guī)模的觀察到的損失冪律下降以及隨著規(guī)模的突然出現(xiàn)的新能力。這個(gè)模型是從所謂的量化假設(shè)中推導(dǎo)出來的,其中學(xué)習(xí)的網(wǎng)絡(luò)能力被量化為離散的塊(量子)。當(dāng)”量子“按照使用頻率遞減的順序?qū)W習(xí)時(shí),使用頻率的冪律可以解釋觀察到的損失的冪律縮放。

八、其他

北京要攻關(guān)多模態(tài)大模型的機(jī)器人創(chuàng)新。北京市經(jīng)濟(jì)和信息化局印發(fā)《北京市促進(jìn)機(jī)器人產(chǎn)業(yè)創(chuàng)新發(fā)展的若干措施》,提出要提升機(jī)器人關(guān)鍵技術(shù)創(chuàng)新能力,除了硬件方面的高性能專用芯片和伺服電機(jī)、減速器、控制器、傳感器等關(guān)鍵零部件,還強(qiáng)調(diào)了人工智能、多模態(tài)大模型等相關(guān)技術(shù)。對(duì)于產(chǎn)業(yè)關(guān)鍵技術(shù)攻關(guān)清單內(nèi)的投入,予以最高3000萬元的支持。

上海市印發(fā)數(shù)據(jù)要素發(fā)展行動(dòng)方案。上海市政府辦公廳正式印發(fā)《立足數(shù)字經(jīng)濟(jì)新賽道推動(dòng)數(shù)據(jù)要素產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案(2023-2025年)》,總體目標(biāo)是到2025年,數(shù)據(jù)要素市場體系基本建成,國家級(jí)數(shù)據(jù)交易所地位基本確立;數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)5000億元,形成1000個(gè)高質(zhì)量數(shù)據(jù)集;到2025年,算力總規(guī)模較“十三五”期末翻兩番。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: 復(fù)制 一個(gè) OpenAI for Science

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港