展會信息港展會大全

中國團隊再獲EMNLP最佳長論文!北大微信揭大模型上下文學習機制
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-12-11 17:46:51   瀏覽:73125次  

導讀:白交 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI EMNLP頂會落下帷幕,各種獎項悉數(shù)頒出。 最佳長論文獎被北大微信AI團隊收入囊中,由北大孫栩老師和微信周杰、孟凡東合作指導。 他們發(fā)現(xiàn)了大模型中關鍵能力上下文學習背后的工作機制。 通過理解這一機制,還提出一...

白交 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

EMNLP頂會落下帷幕,各種獎項悉數(shù)頒出。

最佳長論文獎被北大微信AI團隊收入囊中,由北大孫栩老師和微信周杰、孟凡東合作指導。

他們發(fā)現(xiàn)了大模型中關鍵能力上下文學習背后的工作機制。

通過理解這一機制,還提出一系列方法來提高其性能。

除此之外,斯坦福Christopher Manning教授做了最后的主題演講,告訴那些正在為大模型而感到焦慮的NLP博士生們,還有很多有意義的方向可以做。

EMNLP最佳長論文

上下文學習(in-context learning, ICL)是大語言模型的一個重要能力,通過提供少量示范示例,讓模型學會執(zhí)行各種下游任務,而無需更新參數(shù)。

目前ICL內在工作機制仍尚無定論,但缺乏對ICL過程的理解會限制能力進一步提升。

基于這一背景,北大&微信AI團隊首次從信息流這一角度來探索。此前相關分析研究主要從輸入作用和梯度角度進行分析。

首先,他們利用執(zhí)行ICL的GPT模型,將標簽詞之間的注意力互動模式(即信息流)可視化。

“淺層”或“第一層”指的是離輸入較近的層,而“深層”或“最后一層”指的是離輸出較近的層。

初步觀察表明,標簽詞在淺層聚合信息,并在深層分發(fā)信息。

為了清晰描述這一現(xiàn)象,研究人員提出了一個假設:標簽詞是ICL中聚合和分發(fā)信息的錨點。(Label Words are Anchors)

具體而言:

在淺層,標簽詞收集演示信息,為深層形成語義表征。

在深層,模型從標簽詞中提取信息,形成最終預測。

為了驗證這一假設,他們設計了兩個實驗,使用GPT2-XL和GPT-J在多個文本分類基準中驗證:

1、阻斷某些層中標簽詞的信息聚合路徑,結果發(fā)現(xiàn)在淺層隔離會顯著影響性能,這表明標簽詞在淺層中的前向傳播過程中收集了有用的信息。

2、目標位置標簽詞的注意力分布與模型最終預測結果的關系,結果表明兩者之間存在很強的正相關性。

基于這樣的發(fā)現(xiàn),他們提出了三種改進ICL的方法:一種重新加權方法來提高ICL性能;一種上下文壓縮技術來加速推理以及一種用于診斷 GPT2-XL 中 ICL 錯誤的分析框架。

其他情況

除此之外,最佳短論文、最佳主題論文、最佳論文Demo等各種獎項也全都揭曉。

其中最佳短論文:Faster Minimum Bayes Risk Decoding with Confidence-based Pruning,花落劍橋大學計算機系研究團隊,一作是華人博士生Julius Cheng。

最佳主題論文:Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition

(忽略此標題and HackAPrompt:通過全球黑客大賽揭露大模型的系統(tǒng)漏洞)

還有最佳論文Demo則是由艾倫AI研究所、MIT、UC伯克利、華盛頓大學等研究團隊獲得,他們提出了PaperMage,處理、表示和操作視覺豐富的科學文檔統(tǒng)一工具包。

值得一提的是,斯坦福Christopher Manning教授完成了EMNLP最后一場主題演講是,現(xiàn)場座無虛席。

主題是大模型時代下NLP的學術研究:Nothing but blue skies!

他告訴正面臨「生存危機」的NLP博士生們:

Aeronautics students do not build Boeings for their PhD theses. They do smaller models and still make meaningful contributions. There’s plenty of such opportunities for us too.

(航空專業(yè)的學生不會為他們的博士論文建造波音飛機。他們制造較小的模型,但仍然做出了有意義的貢獻。我們也有很多這樣的機會。)

隨后他又詳細地介紹了下有哪些機會可研究之,主要包括系統(tǒng)、待解決問題/數(shù)據(jù)驅動、機器學習、語言等層面。

系統(tǒng):極端量化的小模型;加速。

問題/數(shù)據(jù)驅動:尋找有效的評估方法;如何用哪個很少語言數(shù)據(jù)來建立NLP模型。

機器學習:如何實現(xiàn)持續(xù)學習;如何跟人類一樣能從少樣本事實中學習。

語言:較少數(shù)據(jù)獲得系統(tǒng)概括性更強的模型。

參考鏈接:

[1]https://twitter.com/emnlpmeeting/status/1733758625792016597

[2]https://x.com/annargrs/status/1733732418992160854?s=20

贊助本站

人工智能實驗室
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港