近期,北京航空航天大學、AI 初創(chuàng)公司零一萬物、清華大學等團隊合作,提出了一種 PopAlign 框架。
它集成了六種對比響應的引導生成策略,全面覆蓋了在響應生成過程中可能出現(xiàn)的各種對比先驗。
這些對比策略分別包括前綴對比、示例對比、引導對比、參數(shù)數(shù)量對比、排行榜對比和改良對比,涵蓋了從提示(Prompt)、模型(Model)到管道(Pipeline)的多個層級。
通過對這些對比引導策略的綜合應用,該課題組能夠幫助大模型構建出更加多樣化的偏好數(shù)據(jù)。并且,由于先驗足夠明確,也可以擺脫額外的人類或 AI 反饋標簽。
基于此,PopAlign 不但提升了對齊效果,而且降低了對齊成本,為大模型的安全性和魯棒性提供了保障。
圖丨 PopAlign 的工作流程(來源:arXiv)
近日,相關論文以《PopAlign:使對比模式多樣化,實現(xiàn)更全面的對齊》(PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment)為題在預印本平臺 arXiv 上發(fā)布 [1]。
北京航空航天大學碩士研究生王澤坤是第一作者,波形智能 CTO 周王春澍以及零一萬物算法副總裁黃文灝博士擔任聯(lián)合通訊作者。
圖丨相關論文(來源:arXiv)
助力大模型實現(xiàn)更全面的對齊效果
在訓練大模型的過程中,對齊是一個至關重要的階段。它旨在調(diào)整大模型的響應分布,使之更符合人類的價值觀或偏好。
當前,主流的對齊方法主要包括:基于人類反饋的強化學習,以及基于 AI 反饋的強化學習。
采用這些方法時,首先要讓大模型針對每個用戶指令生成成對的響應,再讓人類用戶或另一個大模型,根據(jù)用戶的價值觀或偏好,手工或自動地為這些成對的響應進行反饋標注,進而將它們分別標注為“更被偏好的”或“更被拒絕的”。
正是基于這些偏好標簽,大模型的響應分布才得以逐步貼近人類用戶所偏好的響應分布,同時遠離不被偏好的響應分布。
在此過程中,讓模型生成具有偏好對比度的成對響應至關重要。(編者注:這里的偏好對比度是指,一個響應與另一個響應相比,更被用戶偏好的程度。)
原因在于,這個偏好對比度決定了第二步反饋標注操作的準確性,且會影響后續(xù)進行模型響應分布調(diào)整的準確性。
不過,由于第一步引導模型生成顯式的成對響應,只是模型響應分布的一個采樣,因此在這些成對響應的“樣本”上,進行的模型響應分布優(yōu)化,可能會存在不全面之處。
而目前大多數(shù)對齊方法,不但只采取有限的采樣,而且不能保證響應的生成,有足夠的可以引導出偏好對比度的先驗。
舉例來說,大模型 LLaMA 2 只通過不同的模型變體或不同的文本解碼溫度,來生成偏好對比響應。
這種簡單的采樣,不足以將要對齊的模型中對于偏好模式的理解全部引導出來。
也就是說,這可能導致大模型在某個偏好模式下對齊得比較好,但在另一個偏好模式下對齊得不夠好。
圖丨對比模式及其對響應分布優(yōu)化的影響(來源:arXiv)
并且,生成的成對響應很容易同質(zhì)化,造成很難分辨孰好孰壞,進而影響后續(xù)對齊訓練的穩(wěn)定性。
PopAlign 框架正是在該背景下被提出的。
它的誕生,旨在解決以下兩個關鍵問題:
其一,如何引導出更加全面、豐富且有先驗的對比模式,以增強偏好對比數(shù)據(jù)的多樣性和對比度。
其二,探究這些多樣化的對比模式,對模型對齊性能的影響。
一般來說,大模型的訓練包括預訓練、監(jiān)督微調(diào)和對齊訓練三個階段。
其中,對齊訓練的目的是“3H 原則”,即模型要有幫助(Helpful)、無害(Harmless)和誠實(Honest)。
這意味著,模型不僅要提供有用的回答,還要避免包含任何冒犯或有害的內(nèi)容,且在回答中盡可能地做到真實可信。
也正是這些原則,確保了模型在實際應用中既能滿足用戶需求,又能安全、可靠地運作。
因此,從應用上看,PopAlign 框架致力于提升大模型對齊訓練的效果,其作用涵蓋大模型應用的方方面面,包括智能問答助手、客服、教育輔助機器人、寫作助手等。
圖丨王澤坤(來源:王澤坤)
研究中他們發(fā)現(xiàn),這些對比模式的引導方式大體上可以分成三類,分別是:數(shù)據(jù)層面、模型層面和框架層面。
“也就是 Prompt-Model-Pipeline 三個層級,即 PopAlign 這個名字的來源!蓖鯘衫そ忉尩馈
同時,他們得出的實驗結果,也與所預期的相符,就是讓對比模式更加多樣,能帶來更加全面的對齊增益。
“今后大模型對齊方面的研究和實踐,可以從我們的研究中汲取經(jīng)驗,進而幫助提升其對齊的綜合效果!蓖鯘衫け硎。
高校與企業(yè)的聯(lián)合培養(yǎng),促進在大模型領域收獲一系列成果
在做這項研究的同時,王澤坤還在做其他的研究。
其中,包括統(tǒng)一四個模態(tài)數(shù)據(jù)(文本、視頻、圖像、語音)的理解和生成大模型 MIO[2],提升大模型進行長度可控文本生成以及復制粘貼工具使用能力的方法 PositionID [3],以及針對大模型工具使用的多粒度基準評測集 MTU-Bench[4] 等
這也造成分配到每項研究上的時間比較有限。所以,為了協(xié)調(diào)各項研究的進度,他除了要增加自己的工作時間,還需要保證足夠的工作效率。
“這個狀態(tài)從 2024 年 2 月持續(xù)到 2024 年 10 月。在這半年多的時間里,我一直過著非常充實的生活!蓖鯘衫ふf。
據(jù)介紹,王澤坤本科就讀于北京航空航天大學中法工程師學院。值得一提的是,該學院在數(shù)學和物理方面的本科教育非常領先,而 AI 恰恰是一個需要數(shù)學、物理和計算機三大學科協(xié)同作用的領域。
“所以,我認為我所在的學院,為 AI 相關人才的培養(yǎng)提供了良好的范本,而我正是在這個環(huán)境中成長起來的!蓖鯘衫ふf。
因為王澤坤本科大部分學科都采用法語教學,所以他選擇在大一時著重提升自己的法語水平,大二大三致力于補足在數(shù)學、物理和計算機方面的知識和能力。
據(jù)他介紹,在他的大二暑假,也就是 2020 年 7 月,有兩件事的發(fā)生,促使他走向大模型這個研究方向。
一是 GPT-3 的誕生。
二是他閱讀了復旦大學邱錫鵬教授撰寫的書籍《神經(jīng)網(wǎng)絡與深度學習》。
“這本書重點講述了自然語言處理領域相關的內(nèi)容。在我閱讀它,并感受到‘為機器賦智能’這項事業(yè)的趣味和使命感時,GPT-3 也恰好出現(xiàn)了,后者掀起了大模型的一波小高潮。
這令我開始堅信與大模型相關技術,一定會在不久后促成一波革命性的影響。”王澤坤表示。
于是,他在整個大三時期,閱讀了大量與大模型相關的論文,并全力尋找與此相關的科研機會。
然而,由于當時學校的算力有限,不足以支撐大模型方向的科研,因此王澤坤選擇走出校門,到大模型企業(yè)尋找實習機會。
自 2021 年 9 月開始,王澤坤先后在瀾舟科技、北京智源人工智能研究院、零一萬物等企業(yè)開展實習,并與合作者聯(lián)合完成了一系列具有影響力的研究。
除了上面提到的 MIO,還涉及到首個大模型角色扮演數(shù)據(jù)模型評測全方案 RoleLLM[5],具有工業(yè)級性能的全透明開源大模型系列 MAP-Neo[6] 等多項成果。
與此同時,在學校里,他也得到了其碩士生導師許可教授的大量指導和幫助,并逐漸培養(yǎng)起較為完善的科研素養(yǎng)和能力。
王澤坤表示:“得益于學校和企業(yè)的聯(lián)合培養(yǎng),我才能夠在大模型領域獲得比較迅速的成長!
目前,王澤坤剛剛開始他碩士研究生第三年的學習生涯,并且也在字節(jié)跳動的大模型研究院繼續(xù)開展實習研究和探索。
他提到,接下來將繼續(xù)專注于統(tǒng)一理解和生成的多模態(tài)大模型、下一代大模型訓練方式、大模型角色扮演等方面的研究。
參考資料:
1.Wang Z M, Wang S, Zhu K, et al. PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment. arXiv:2410.13785, 2024. https://doi.org/10.48550/arXiv.2410.13785
2.Wang Z, Zhu K, Xu C, et al. Mio: A foundation model on multimodal tokens. arXiv:2409.17692, 2024. https://doi.org/10.48550/arXiv.2409.17692
3.Wang Z, Duan F, Zhang Y, et al. PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness. arXiv:2410.07035, 2024.https://doi.org/10.48550/arXiv.2410.07035
4.Wang P, Wu Y, Wang Z, et al. MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models.arXiv:2410.11710, 2024.https://doi.org/10.48550/arXiv.2410.11710
5.Wang Z M, Peng Z, Que H, et al. Rolellm: Benchmarking, eliciting, and enhancing role-playing abilities of large language models.arXiv:2310.00746,2023.https://doi.org/10.48550/arXiv.2310.00746
6.Zhang G, Qu S, Liu J, et al. Map-neo: Highly capable and transparent bilingual large language model series.arXiv:2405.19327, 2024.https://doi.org/10.48550/arXiv.2405.19327
運營/排版:何晨龍