劃重點
01加拿大女王大學研究團隊提出AI基礎模型評審團方法,旨在提升AI研究效率。
02該團隊收集了來自17家頂尖科技公司的上千篇行業(yè)博客文章,創(chuàng)新性地使用基礎模型進行自動分類和標注。
03通過分析這些博客,研究團隊發(fā)現基礎模型對軟件工程的賦能以及軟件工程原則如何應用于基礎模型的開發(fā)和部署。
04為此,課題組提出了未來研究的方向,以期推動學術界與業(yè)界的深度結合。
05未來,該團隊將繼續(xù)升級基礎模型陪審團方法,并期待與企業(yè)深度合作,推動基礎模型在各個領域的廣泛應用。
以上內容由大模型生成,僅供參考
近年來,人工智能基礎模型(如 GPT-4 等大語言模型)快速發(fā)展,對各行各業(yè)產生了深遠影響。
然而,雖然學術界對這些模型在軟件工程中的應用進行了大量研究,但大部分研究主要聚焦于理論層面,很少涉及一線工程師在實際工作中的真實體驗和反饋。而這些反饋,往往僅在科技公司發(fā)布的行業(yè)博客中隱約可見。
這些行業(yè)博客通常由頂尖科技公司的工程師和研究人員撰寫,分享他們在開發(fā)、部署和應用基礎模型時的實踐經驗。
這些博客不僅是科技公司展示技術實力的窗口,還記錄了最新技術趨勢、解決方案和遇到的挑戰(zhàn)。
然而,由于這些內容屬于“灰色文獻”(即非正式出版物),缺乏系統(tǒng)性的分析,很容易被學術界忽視。
這就好比聆聽樂隊的錄音室專輯,卻未能親臨他們的現場演唱會缺乏的正是那種在一線“現場”工作的真實感受。
基于上述情況,來自加拿大女王大學的研究團隊決定轉換視角,直接傾聽那些實際使用這些模型的工程師們的聲音,包括:他們如何在日常工作中應用這些基礎模型,他們遇到了哪些具體的挑戰(zhàn)和機遇等。這些都是學術研究中難以觸及的寶貴信息。
圖|李豪(來源:李豪)
日前,相關論文以《軟件工程和基礎模型:使用基礎模型評審團從行業(yè)博客中獲取的見解》(Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models)為題發(fā)表在預印本網站 arXiv 上 [1]。
女王大學博士后研究員李豪是第一作者兼通訊作者,加拿大阿爾伯塔大學考爾保羅貝澤默(Cor-Paul Bezemer)教授和女王大學艾哈邁德E哈桑(Ahmed E. Hassan)教授擔任共同通訊作者。
圖|相關論文(來源:arXiv)
創(chuàng)新方法:利用基礎模型提升技術文獻分析效率
為了挖掘這座“寶藏”,該課題組收集了來自 17 家頂尖科技公司(如英偉達、谷歌等)的上千篇行業(yè)博客文章。面對海量數據,傳統(tǒng)的分析手段顯然難以勝任。于是他們提出:為什么不讓基礎模型自己來做這件事呢?
于是,研究人員創(chuàng)新地提出了“基礎模型陪審團”的方法。
簡單來說,讓多個基礎模型協(xié)作,對這些博客文章進行自動分類和標注,就像是讓 AI 幫人們讀懂這些文章。這種方法不僅大幅提升了研究效率,還展示了基礎模型在處理大量技術文獻上的潛力。
圖|研究方法學的概覽(來源:arXiv)
該團隊在這項研究中共經歷了七個重要階段,從最初的思路調整到最終的成果發(fā)布,每一步都深思熟慮,系統(tǒng)化推進。
起初,課題組將目光聚焦于白皮書,因其通常展現公司在基礎模型(FMs, Foundation Models)和軟件工程(SE,Software Engineering)領域的技術戰(zhàn)略。然而深入探討后發(fā)現,白皮書更多用于宣傳公司理念,缺乏一線工程師的實際操作經驗。
因此,他們轉而分析科技公司的技術博客。相較之下,博客內容往往由工程師撰寫,貼近真實的技術應用場景,成為研究基礎模型賦能軟件工程(FM4SE,FMs into SE practices)和軟件工程原則賦能基礎模型(SE4FM,SE methodologies to FMs)實踐的理想數據來源。
為明確研究方向,團隊提出了兩個關鍵問題:
(1)業(yè)界博客中涉及哪些基礎模型在軟件工程中的應用?
(2)軟件工程原則如何應用于基礎模型的開發(fā)和部署?這兩個問題貫穿研究始終,確保內容緊扣業(yè)界需求。
接下來,在數據收集階段,他們從全球頂尖科技公司的博客中篩選出四千多篇相關文章,涵蓋基礎模型、軟件開發(fā)、云計算等領域。
為了保證數據的相關性,引入了“基礎模型陪審團”方法,以關鍵詞篩查與人工復核結合,最終鎖定了千余篇符合主題的博客文章。這一方法避免了無關信息的干擾,確保數據內容的可靠性。
另外,研究人員面對海量非結構化數據,傳統(tǒng)手動標注不僅耗時且容易出錯。為此,課題組創(chuàng)新性地提出了“基礎模型陪審團”方法,讓多個大語言模型協(xié)作進行內容分類和信息提取。
每個模型如同陪審員,對內容進行評分與分類,最終以投票形式決定結果。這種方法提升了數據篩選的效率和準確性,使團隊能更迅速地聚焦于有價值的內容。
緊接著,在數據標注完成后,該團隊深入分析這些信息,發(fā)現 FM4SE 領域的熱點集中在代碼生成和代碼理解,而 SE4FM 則主要關注模型部署、系統(tǒng)架構和任務編排。通過這些分析,團隊進一步了解了業(yè)界在兩個方向上的實際需求和技術焦點。
基于這些洞見,課題組提出了未來研究的方向,以期推動學術界與業(yè)界的深度結合。
例如,如何利用基礎模型進行遺留系統(tǒng)現代化,如何在模型開發(fā)中提升性能并優(yōu)化數據管理等。這些方向不僅為學術研究提供了新思路,也為基礎模型的實際應用帶來啟示。
完成研究總結后,團隊還整理并發(fā)布了研究成果,希望能為學術界和業(yè)界提供實踐參考。同時,他們公開了數據與方法,期望其他研究者在此基礎上進一步優(yōu)化和拓展,以更好地應對未來的技術挑戰(zhàn)。
推動學術與行業(yè)的協(xié)同發(fā)展:基礎模型與軟件工程的前景
通過分析這些博客,研究團隊觀察到兩個有趣的趨勢。
首先是基礎模型對軟件工程的賦能。工程師們利用基礎模型優(yōu)化了軟件開發(fā)的各個流程,不僅包括代碼生成,還幫助理解復雜代碼、生成代碼摘要,以及推薦適合的應用程序編程接口。
這個“智能助手”角色為開發(fā)者提供了實用的支持,大幅提升了工作效率,減少了日常開發(fā)中的重復性工作。
其次,軟件工程的方法也在反過來賦能基礎模型的開發(fā)和部署。面對資源消耗巨大的大型模型,工程師們探討如何高效部署和運營這些模型,如何設計靈活的系統(tǒng)架構以支持模型擴展等問題。
他們分享的實踐經驗包括通過云服務部署模型,或利用模型壓縮技術使大型模型可在本地設備上運行,既解決了隱私問題,也顯著降低了硬件成本。
這些發(fā)現不僅對一線工程實踐有了更清晰的理解,也揭示了基礎模型與軟件工程之間的深度融合。
此次研究成果不僅在學術界產生了顯著影響,更在應用方面展現出重要的價值。
首先,這項研究為學術界提供了一份清晰的指南,揭示了基礎模型在促進軟件工程和軟件工程優(yōu)化基礎模型的關鍵難點。它有助于研究人員更精準地選擇研究方向,使學術探索更密切地貼合行業(yè)需求。
此外,該團隊提出的利用基礎模型自動化分析文獻的方法,如同為研究人員配備了一臺智能文獻助手。
在快速發(fā)展的科技領域中,這一方法能高效地收集、分類和解讀大量非正式文獻,為研究人員在海量信息篩選方面提供工具,以顯著提升研究效率。
總的來說,該研究展示了同行如何利用基礎模型提升代碼生成、漏洞檢測和模型部署等具體任務。這些經驗為開發(fā)者優(yōu)化工作流程提供了新思路,幫助基礎模型更好地融入項目實踐。
在教育領域,這項研究為課程內容的更新提供了寶貴的參考。教育者們可以通過融入這些前沿知識,培養(yǎng)出更加符合行業(yè)需求的新型人才,讓學生們在畢業(yè)后更快適應基礎模型在實際工作中的應用。
基于這一成果,課題組對基礎模型在不同領域的潛力充滿興趣,并計劃在這一“無人區(qū)”深入探索,挖掘更多“寶藏”。
據了解,“基礎模型陪審團”方法也在進一步升級中,該團隊希望將這把“萬能鑰匙”打磨得更加精致、高效,并嘗試應用于其他領域,以便在未來的技術探索中發(fā)揮更大作用。
此外,課題組還期待與企業(yè)深度合作,參與真實項目,通過了解開發(fā)者在應用基礎模型時面臨的實際挑戰(zhàn),進而推動這一技術在各個領域的廣泛應用。
參考資料:
1.https://doi.org/10.48550/arXiv.2410.09012
排版:何晨龍、劉雅坤