劃重點
01西班牙瓦倫西亞理工大學(xué)團(tuán)隊在Nature發(fā)表論文,指出隨著大模型規(guī)模的擴大和可指導(dǎo)性增強,其可靠性反而下降。
02研究發(fā)現(xiàn),大模型在人類認(rèn)為超高難度的任務(wù)中表現(xiàn)良好,但在同一領(lǐng)域超低難度的任務(wù)中仍可能失敗。
03另一方面,新模型在復(fù)雜任務(wù)上的表現(xiàn)優(yōu)于簡單任務(wù),導(dǎo)致人類難以預(yù)測其錯誤輸出。
04該團(tuán)隊提出新的評估框架,根據(jù)人類對任務(wù)難度的預(yù)期更全面且穩(wěn)健地評估大模型的能力和風(fēng)險。
05為解決大模型不可靠性問題,研究人員建議利用人類對任務(wù)難度的預(yù)期來訓(xùn)練或微調(diào)模型,或引導(dǎo)模型在遇到超出自身能力范圍的問題時更加謹(jǐn)慎地應(yīng)對。
以上內(nèi)容由大模型生成,僅供參考
在過去幾年,大模型面臨著不可靠性演變的局限性和挑戰(zhàn)。隨著這些模型的擴展(使用更多的計算資源)以及后期塑造(使用人類反饋),大模型與人類用戶在交互中的可靠性卻沒有受到全面分析。
其中一個原因是學(xué)術(shù)界一直沒有重視在評測中利用任務(wù)難度去提高對通用人工智能系統(tǒng)評估的穩(wěn)健性與全面性。
圖|周樂鑫(來源:周樂鑫)
為了填補先前研究中的空白,改善人工智能評測的穩(wěn)健型與全面性,以及加深人們對大模型可靠性的理解,近日來自西班牙瓦倫西亞理工大學(xué)團(tuán)隊于 Nature 發(fā)表了《更大且更易于指導(dǎo)的語言模型變得不那么可靠了》(Larger and more instructable language models become less reliable)[1]。
瓦倫西亞理工大學(xué)本科畢業(yè)生周樂鑫是第一作者,何塞-埃爾南德斯-奧拉羅(Jose Hernandez-Orallo)教授擔(dān)任通訊作者。
圖|相關(guān)論文(來源:Nature)
該研究或是世界上首次對通用人工智能系統(tǒng)的穩(wěn)健評估,歸功于其在 0-100 的連續(xù)范圍內(nèi)納入了對人類對任務(wù)難度的預(yù)期考量。
在這次研究中,該團(tuán)隊從三個維度探討了大模型的可靠性和演變,其一是人類對任務(wù)難度的預(yù)期與大模型性能之間的不一致性現(xiàn)象。
他們的分析發(fā)現(xiàn),雖然更大且更遵循指令的大模型在人類認(rèn)為超高難度的許多任務(wù)中表現(xiàn)不錯,但是它們在許多同一領(lǐng)域超低難度的任務(wù)中仍然會失敗,而人類則不認(rèn)為它們應(yīng)當(dāng)失敗。
因此,目前大模型沒有一個“安全區(qū)”可以讓人類確信大模型可以完美地運行,哪怕只是針對非常低難度的任務(wù)區(qū)域。
實際上,較新的大模型只在高難度任務(wù)上有明顯進(jìn)步,這加劇了人類難度預(yù)期與大模型性能之間的不一致,導(dǎo)致人類更難通過任務(wù)困難度去預(yù)判模型的錯誤輸出。
這一點對于需要級高可靠性的應(yīng)用場景非常重要,因為其在使用大模型期間需要識別具有近乎為零錯誤率的“安全操作區(qū)域”。
這與人們的預(yù)期相悖,即隨著模型變得越來越大,其遵循指令的可靠性應(yīng)當(dāng)越來越強。
人們會理所當(dāng)然地認(rèn)為,新模型在完成簡單任務(wù)時的表現(xiàn)會更加可靠,從而用戶可以利用任務(wù)困難度去更好的預(yù)測的大模型的錯誤分布。
接著,該團(tuán)隊針對大模型的“任務(wù)回避行為”分析了大模型不可靠性的第二個維度。該課題組介紹了大模型如何通過回復(fù)“我不知道”,或偏離原問題來避免回答問題。
研究結(jié)果表明,早期的模型傾向于回避問題,從而暴露了大模型的局限性。
但是,新的模型相對于較早期的大模型(如 GPT-4 與 GPT-3), 錯誤率大幅上升,因為現(xiàn)在的模型很少規(guī)避回答超出其能力范圍的任務(wù)或問題。
在某些基準(zhǔn)測試中,研究人員甚至發(fā)現(xiàn)錯誤率的上升比正確率的提高更快。
這種從“回避”到“自信地給出錯誤回復(fù)”的轉(zhuǎn)變,增加了用戶誤判的風(fēng)險,從而可能導(dǎo)致用戶一開始過度依賴大模型來完成其并不擅長的任務(wù),不過從長遠(yuǎn)來看,他們可能會失望。
除了這一結(jié)果之外,該團(tuán)隊還評估了大模型是否會像人類一樣,隨著任務(wù)難度的增加而更頻繁地回避任務(wù)。不過測試情況并非如此:任務(wù)難度與回避任務(wù)之間的相關(guān)性基本為 0。
這種異于人類的自大行為模式,以及先前提到的模型錯誤不可預(yù)測性,導(dǎo)致了人類必須仔細(xì)審查模型的輸出,以便發(fā)現(xiàn)并糾正錯誤。
但正如課題組在另一項人類研究“人類監(jiān)督和監(jiān)督限制”中所展示的那樣,人類并不擅長這種工作。
該研究分析了大模型可靠性的第三個維度“模型性能對同一問題的微小表述變化的敏感度”。
目前對于如何提高模型對同一問題的不同提示語的魯棒性,人們對此知之甚少。研究人員觀察到,提示語的穩(wěn)定性隨著擴展和成型而提高。
然而,這種改進(jìn)似乎在逐漸減少,而且提示詞靈敏度仍然會導(dǎo)致最新模型出現(xiàn)不可靠的問題,暗示著當(dāng)前的科技范式很難使用戶在未來擺脫指令敏感度這個問題。
更令人吃驚的是,研究團(tuán)隊發(fā)現(xiàn),一些平均表現(xiàn)最好的提示詞格式實際上會因任務(wù)難度的不同而表現(xiàn)得更差。
例如,用戶可能誤以為某些提示詞效果出色,因為它們在處理復(fù)雜任務(wù)中表現(xiàn)良好,但其應(yīng)對在簡單任務(wù)時卻表現(xiàn)不佳。
這一趨勢令人擔(dān)憂,因為這些結(jié)果表明,人類很難預(yù)測模型何時會犯錯,以判斷整個交互過程的可靠性。
這可能會引發(fā)額外的成本,以及無法滿足對高可靠性有嚴(yán)格要求的用戶需求。
該課題組還發(fā)現(xiàn),在實驗完成后發(fā)布的其他新模型也在這三個維度當(dāng)中存在類似的不可靠性問題,包括:OpenAI o1 preview、o1 mini、LLaMA 3.1 405B Instruct 和 Claude 3.5 Sonnet[2]。
在分析完了三個模型不可靠性的維度之后,可以得出目前大模型和其演變的趨勢并不樂觀的結(jié)論。
因此,研究人員很想根據(jù)觀察結(jié)果,來了解人類監(jiān)督是否可作為緩解不可靠問題的解決方案。但是,在一項廣泛的人類研究中,他們發(fā)現(xiàn)情況其實有所不同。
實際上,人類不善于發(fā)現(xiàn)模型的錯誤,而且令人驚訝的是,人們經(jīng)常將不正確的模型輸出誤判為正確。
這表明人類沒有足夠的能力成為這些模型的可靠監(jiān)督者,從而使大模型在高風(fēng)險領(lǐng)域的應(yīng)用變得更加復(fù)雜。
為此,該研究論文引入了一個新的評估框架,可以根據(jù)人類對任務(wù)難度的預(yù)期來更全面且穩(wěn)健地評估大模型的能力和風(fēng)險。
雖然上面的這部分內(nèi)容在該論文中沒有太多的討論,但實際上在人工智能評估領(lǐng)域做出了重大貢獻(xiàn)。
這是因為評估人工智能系統(tǒng)的標(biāo)準(zhǔn)方法一直在使用側(cè)重于總分(如準(zhǔn)確率)的基準(zhǔn)。
然而,由于這些基準(zhǔn)通常擁有模糊且隨機的任務(wù)難度分布,它們無法穩(wěn)健或全面地描述人工智能系統(tǒng)的能力和局限性,也無法提供更多關(guān)于被評估模型在未來新任務(wù)中將如何表現(xiàn)的見解。
后者至關(guān)重要,因為它是人工智能評估的首要目標(biāo)之一。畢竟,人們想知道并預(yù)測何時何地可以安全地部署這些模型。
研究人員的方法通過描述大模型之于人類難度的能力,避開基準(zhǔn)測試中信息量小且對任務(wù)難度分布極為敏感的總分指標(biāo)(例如正確率),從而對人工智能進(jìn)行更穩(wěn)健的評估。
例如,當(dāng)所包含的任務(wù)實例太容易或太困難時,人工智能可以在衡量數(shù)學(xué)推理能力的基準(zhǔn)測試中分別獲得 100% 或 0% 的分?jǐn)?shù)。
這項工作始于他們在 GPT-4 紅隊的工作期間。研究團(tuán)隊的目標(biāo)是根據(jù)任務(wù)難度,對 GPT-4 及其前身的性能和不穩(wěn)定性如何演變進(jìn)行穩(wěn)健地評估,分析 GPT 系列過去三年的發(fā)展趨勢。
為了確保該團(tuán)隊的結(jié)果也適用于其他語言模型系列,研究人員還將 LLaMA 和 BLOOM 模型系列也納入了分析范圍。
圖| LLaMA 和 BLOOM 系列以及非指導(dǎo) GPT 模型的擴展分析(來源:Nature)
隨著模型越來越大、可指導(dǎo)性越來越強,研究團(tuán)隊對了解人類對任務(wù)難度的預(yù)期與大模型性能之間的差異的演變過程產(chǎn)生了興趣。
盡管 OpenAI 前聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞蘇茨克維(Ilya Sutskever)曾預(yù)測這種差異會隨著時間的推移而減少,但該團(tuán)隊發(fā)現(xiàn)事實并非如此。
正如之前他們在“新的評估框架”中提到的,加入對人類難度的考量比只關(guān)注挑戰(zhàn)性越來越高的任務(wù)(如基準(zhǔn)測試所做的)更穩(wěn)健、更全面,從而為了解模型的能力和風(fēng)險提供新的視角。
盡管這項研究并沒有直接解決大模型的可靠性問題,但是通過揭示現(xiàn)有的“擴大模型規(guī)模和提高模型的可指導(dǎo)性”的方法并未能有效解決大模型可靠性和安全性的根本問題,來重新審視這個問題。
它挑戰(zhàn)了之前的假設(shè),即更強大的模型自然會導(dǎo)致更可預(yù)測和更可靠的行為。
這表明,他們需要從根本上改變大模型的設(shè)計和評估方式,特別是對于需要高可靠性和安全性的應(yīng)用。
論文具體也分析了導(dǎo)致模型不可靠性的若干潛在原因以及可能的解決方法:
在擴大模型方面,近年來的基準(zhǔn)測試逐漸趨向于包含更多難度較高的示例,或者賦予所謂“權(quán)威”來源更大的權(quán)重,這使得研究人員更注重優(yōu)化模型在復(fù)雜任務(wù)上的表現(xiàn),從而在整體難度一致性上逐步惡化。
而在提高模型可指導(dǎo)性方面,有證據(jù)證明在后期塑造的方法(如強化學(xué)習(xí)與人類反饋,RLHF)中,受雇人員傾向于對回避任務(wù)的回答給予懲罰,使得模型在面對難以解決的難題時更傾向于“編造”答案。
針對如何解決這些不可靠性,論文提出了一些可能的策略,比如可以借助人類對任務(wù)難度的預(yù)期來更有效地訓(xùn)練或微調(diào)模型,或者利用任務(wù)難度和模型的自信度,引導(dǎo)模型在遇到超出自身能力范圍的問題時更加謹(jǐn)慎地應(yīng)對。
參考資料:
1. Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable.Nature 634, 6168 (2024). https://doi.org/10.1038/s41586-024-07930-y
2. https://x.com/lexin_zhou/status/1838961179936293098.
運營/排版:何晨龍