| 編輯:Anjana
GPT-4 是不是真的變笨了?
在 Twitter 和 OpenAI 的在線開發(fā)者論壇的評論中,用戶們表達(dá)了對 GPT-4 變笨性能下降的不滿,例如 GPT-4 的邏輯能力減弱、錯誤回答增多、對提供的信息失去追蹤能力……
許多用戶發(fā)現(xiàn),GPT-4 回復(fù)“對不起,我無法回答”的次數(shù)越來越多。有網(wǎng)友甚至把 3 小時 25 條消息額度一口氣用完,也沒有解決問題,無奈切換到 GPT-3.5,反倒解決了。
用戶稱這個模型與其幾個月前的版本,在推理能力和其他輸出上都變得懶惰和愚笨。
針對 GPT-4 變笨問題,網(wǎng)友給出了不同的判斷和分析。
有傳言表明,OpenAI 可能正在使用更孝更專門的 GPT-4 模型來更高效地處理用戶查詢,并根據(jù)成本和速度考慮將查詢發(fā)送給哪個模型。
Keras 創(chuàng)始人 Franois Chollet 在 6 月份的推特中表示:“我對這個說法非常懷疑。很有可能模型性能與 2 月份相比差不多甚至表現(xiàn)得更好。
但人們已經(jīng)花了大量時間與其互動,并且對它能做什么不能做什么有了更現(xiàn)實(shí)的期望它已經(jīng)失去了最初的神秘感。”
| Keras 創(chuàng)始人的看法
Hacker News 上也有網(wǎng)友持此類觀點(diǎn):“我認(rèn)為,我們沒有注意到我們的期望已經(jīng)提高了,也沒有注意到我們記住了成功的部分,進(jìn)而期待所有都是成功的。
一開始我們沒有注意到失敗,因?yàn)檫@和預(yù)期相符合,我們特別注意到了成功,因?yàn)檫@些是意料之外的,F(xiàn)在我們注意到了失敗,并期待成功。”
部分人認(rèn)為,當(dāng)最初的驚艷期過去,大家對 AI 回答問題的能力期待變高了,關(guān)注點(diǎn)發(fā)生了變化,對 GPT 失誤有了更高敏感度,因此會認(rèn)為 GPT-4 變笨了。
ChatGPT 于 2022 年 11 月發(fā)布后,上線 5 天后已有 100 萬用戶,上線兩個月后已有上億用戶。最初 ChatGPT 運(yùn)行在 GPT-3 和 GPT-3.5 之上。3 月中旬,GPT-4 發(fā)布,并迅速成為開發(fā)者和其他科技行業(yè)人士的首選模型。
OpenAI 聲稱模型從 2023 年 3 月就沒有改動過,公開層面確實(shí)沒有相關(guān)記錄。
ChatGPT 的更新日志中,分別在 1 月 9 日、1 月 30 日、2 月 13 日提到了對模型本身的更新,涉及改進(jìn)事實(shí)準(zhǔn)確性和數(shù)學(xué)能力等。
但自從 3 月 14 日 GPT-4 發(fā)布之后就沒提到模型更新了,只有網(wǎng)頁 APP 功能調(diào)整和添加聯(lián)網(wǎng)模式、插件模式、蘋果 APP 等方面的變化。
關(guān)于大量用戶反饋 GPT-4 大模型的回答質(zhì)量下降問題,OpenAI 于 7 月14 日澄清:“我們沒有把 GPT-4 弄笨。相反,我們讓 GPT-4 的每個新版本都比之前更聰明了。”
|OpenAI 于 7 月 14 日的回應(yīng)
為了驗(yàn)證 OpenAI 的說法,斯坦福大學(xué)和加利福尼亞大學(xué)伯克利分校的研究者,針對 ChatGPT 行為隨時間發(fā)生的變化,調(diào)查了 2023 年 3 月至 6 月期間 ChatGPT 性能的變化。
該論文評估了 GPT-3.5 和 GPT-4 的三月版和六月版的表現(xiàn)。
| 論文鏈接:https://arxiv.org/pdf/2307.09009.pdf
評估基于四大任務(wù):
1) 求解數(shù)學(xué)問題
2) 回答敏感 / 危險問題
3) 生成代碼
4) 視覺推理
| 論文圖片
調(diào)查結(jié)論是:GPT-4 性能確實(shí)變差了。
例如:GPT-4 一步步思考并回答“17077 是質(zhì)數(shù)嗎”這個數(shù)學(xué)問題,準(zhǔn)確率直接從 97.6% 降到了 2.4%,而 GPT-3.5 的準(zhǔn)確率則從 7.4% 上升到 86.8%。此外,GPT-4 的回答更簡潔,GPT-3.5 的回答則更長。
論文概要提到:“相同”的 LLM 服務(wù)的行為可以在相對短的時間內(nèi)發(fā)生顯著變化,突顯了對 LLM 質(zhì)量的持續(xù)監(jiān)控的必要性。
OpenAI 開發(fā)者推廣大使 Logan Kilpatrick 于 7 月 19 日在推特回應(yīng):
“向所有分享 GPT-4 模型性能體驗(yàn)的人表示感謝,@OpenAI 的所有人都希望推出最好的模型,幫助用戶更多地投入到他們感興趣的事情上。我們正在積極調(diào)查大家分享的報(bào)告。”
|OpenAI 于 7 月 19 日的回應(yīng)
同時他也表示,自 3月14日發(fā)布 GPT-4 以來,大模型的本體一直處于靜態(tài),不存在大量外部數(shù)據(jù)污染模型的情況。他也承認(rèn)由于大模型本身存在不穩(wěn)定性,對于某些提示詞的表現(xiàn)不一致。
對如此科學(xué)實(shí)驗(yàn)下的證據(jù),OpenAI 在博客“Function calling and other API updates”中更新回應(yīng)到:“確實(shí)在某些任務(wù)上的性能變差了。”
| OpenAI 官方博客
目前學(xué)術(shù)界有個觀點(diǎn)是,后來的 RLHF 訓(xùn)練雖然讓 GPT-4 更與人類對齊也就更聽從人類指示和符合人類價值觀但也讓其自身的推理等能力變差。
因?yàn)榇笳Z言模型有時會輸出有毒內(nèi)容,產(chǎn)生幻覺,從而帶來的社會偏見問題。OpenAI 公司十分關(guān)注安全問題,并對此做了大量的對齊工作。這也使得后續(xù)版本在安全性上有所提升,在推理能力上變得越來越糟糕。
與人類的價值觀對齊、同時不降低AI自身能力上限的訓(xùn)練方法,也成了現(xiàn)在很多團(tuán)隊(duì)的研究方向,但還在起步階段。
以下是改善 ChatGPT 體驗(yàn)的幾種方法:
提升 prompt 提示技能和寫作技能;
ChatGPT 反應(yīng)緩慢或無響應(yīng)時,使用 Claude 或 Bing Chat 等替代方法。
| 關(guān)于ChatGPT性能降低的笑話(挺真實(shí))
參考資料:
https://twitter.com/fchollet/status/1664036777416597505
https://twitter.com/OfficialLoganK/status/1681658410507354113
https://twitter.com/npew/status/1679538687854661637
https://openai.com/blog/function-calling-and-other-api-updates
https://arxiv.org/pdf/2307.09009.pdf