當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > OpenAI出手后，GPT-4真的不懶了？

OpenAI出手后，GPT-4真的不懶了？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-01-30 19:16:24 瀏覽：3250次

導(dǎo)讀：來源｜AI前線大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí)，如果人類本身越來越懶，那模仿人類的程序是不是也會越來越懶？ OpenAI 發(fā)布更新，解決 GPT-4變懶問題近日，OpenAI 在一篇博文中發(fā)布了多項(xiàng)更新，并表示更新后的 GPT-4 Turbo擁有比之前預(yù)覽模型更好的代碼生成等能力...

來源｜AI前線

大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí)，如果人類本身越來越懶，那模仿人類的程序是不是也會越來越懶？

OpenAI 發(fā)布更新，解決 GPT-4“變懶”問題

近日，OpenAI 在一篇博文中發(fā)布了多項(xiàng)更新，并表示更新后的 GPT-4 Turbo“擁有比之前預(yù)覽模型更好的代碼生成等能力，且減少了模型在任務(wù)中途罷工的「變懶」情況。”但該公司并沒有對更新內(nèi)容做進(jìn)一步解釋。

OpenAI 在帖子中提到，由于知識庫更新，已經(jīng)有超過 70% 的 GPT-4 API 用戶轉(zhuǎn)向了 GPT-4 Turbo。OpenAI 表示，未來幾個月內(nèi)將陸續(xù)推出更多 GPT-4 Turbo 更新，包括發(fā)布具有視覺模態(tài)處理能力的 GPT-4 Turbo 正式版。這意味著用戶將可輸入各類多模態(tài)提示詞，例如文本到圖像生成提示。

此外，OpenAI 還推出了被稱為“嵌入”的小體量 AI 模型。OpenAI 對于嵌入的定義，是“代表自然語言或代碼等內(nèi)容中概念的數(shù)字序列”。以此為基礎(chǔ)，即可搭配檢索增強(qiáng)生成（簡稱 RAG，一種從數(shù)據(jù)庫獲取信息、而非生成答案的 AI 方法）應(yīng)用找到各類可訪問內(nèi)容間的關(guān)系。這些新模型、text-embedding-3-small 嵌入乃至更強(qiáng)大的 text-embedding-3-large 版本現(xiàn)均已正式開放。

經(jīng)過改進(jìn)的各 GPT 模型現(xiàn)已通過 API 開放，包括質(zhì)量更高、價格更低廉的嵌入模型（e.gone 模型的成本僅為此前嵌入模型的五分之一，但性能更強(qiáng)）。

用戶抱怨 GPT-4 學(xué)會偷懶：越來越像人類了？

2023 年 12 月，有不少用戶抱怨稱，“這段時間使用 ChatGPT 或 GPT-4 API 時，會遇到高峰期速度非常慢、敷衍回答、拒絕回答、中斷會話等一系列問題”。

比如，某些時候，GPT-4 系統(tǒng)會給出一些特別模糊的答案，特別是關(guān)于 Docker、Kubernetes 以及其他 CI/CD 的問題。此外，GPT-4 還學(xué)會了“廢話文學(xué)”不直接回答問題，只是堆疊素材來講解應(yīng)該怎樣回答問題。有用戶反映，哪怕明確要求不要使用空白占位符，模型也仍然會用占位符把回答截得七零八落。這種限制回復(fù)質(zhì)量的作法倒是替服務(wù)商節(jié)約了資源，但卻極大浪費(fèi)了普通用戶的時間。

用戶 jonathanallengrant 在 OpenAI 社區(qū)一個名為“為什么我覺得 GPT 變懶了”的帖子中提到：“不少人注意到自從 Dev Day 活動以來，模型的輸出上限就變成了 850 個 token。換言之就是 ChatGPT 變懶了，不光留出大量空白，還常常在同一條消息里半天停在原地。我相信這應(yīng)該是 OpenAI 正在以某種方式擴(kuò)展模型的推理方法。”

用戶 manchkiran 表示自己也遇到過類似的情況，并吐槽“現(xiàn)在的模型絕對是變懶了，只會快速搜索并給出 Bing 引擎的鏈接”，他猜測大模型變懶的原因或許與“微軟加入 OpenAI 董事會后下調(diào)了算力分配”有關(guān)。

sasindujayashmaavmu 則從另一個角度分析了 GPT-4 變懶的原因：“我覺得這可能是人機(jī)回圈的鍋……大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí)，所以如果人類本身越來越懶，那模仿人類的程序也會越來越懶。”

對于漫天蓋地的吐槽聲，ChatGPT 官方通過 X 平臺通知用戶，“我們聽到了你們關(guān)于 GPT-4 變得越來越懶的反饋！我們自 11 月 11 日起就沒有更新過模型了，當(dāng)然這不是故意的。”

OpenAI 出手后，GPT-4 真的不懶了？

OpenAI 本次更新承諾解決了 GPT-4“變懶”問題，根據(jù)社區(qū)用戶反饋來看，如今的 GPT-4 似乎真的聰明多了。

用戶 Distinct_Salad_6683 提到，最近自己發(fā)現(xiàn) GPT 在編碼能力有所提升，能夠根據(jù)提示詞快速提供完整的示例。之前 GPT 經(jīng)常會拒絕給出具體示例，只是在描述自己要求它干的工作，并用“在此處插入函數(shù)邏輯”之類的廢話來搪塞問題。

也有用戶“陰陽”OpenAI：軟件只要更新一下就能解決“變懶”，真羨慕。要是能有補(bǔ)丁幫我扛過禮拜一就好了。

由于 OpenAI 并未對更新內(nèi)容做進(jìn)一步解釋，因此也有不少用戶開始分析其到底是怎么解決 GPT-4“變懶”問題的。語言學(xué)家 christelle.hilz 分析，GPT-4 變懶的問題跟算法無關(guān)，單靠打補(bǔ)丁恐怕無濟(jì)于事。這個問題還得從其他角度嘗試解決。“我好奇的是 OpenAI 愿意花多少錢來解決 GPT 變懶問題”。

也有觀點(diǎn)認(rèn)為，OpenAI 并未真正地解決問題。因?yàn)榇笳Z言模型就是算法加公式的組合，所以哪怕更新真的解決了變懶問題，只能用這種方法改進(jìn)模型本身也不是什么好兆頭。

chieffy99 則更悲觀地表示，哪怕是聘請了世界各地的專家，大語言模型自身的問題還是難以解決，畢竟任何專家都不可能確切了解每一個問題。因?yàn)樵绞窃绞菍Ｗ⒂谧约旱膶I(yè)積累，我們的視野反而變得越狹窄。chieffy99 還向 OpenAI 的管理團(tuán)隊(duì)“開炮”：

我向來敢于對OpenAI的缺點(diǎn)開炮，這里我也要明確表態(tài)：OpenAI一直認(rèn)為AI的問題不可能通過開發(fā)AI方案來解決，但我覺得這是錯的。

我自己沒有任何關(guān)于AI的知識和使用經(jīng)驗(yàn)，但擁有豐富的項(xiàng)目管理積累。抱怨變懶問題的用戶是誰、當(dāng)時是怎么操作的并不是重點(diǎn)，重點(diǎn)在于大模型為什么會傾向于消極工作。我本人喜歡從問題當(dāng)中尋找共性，而且從目前的情況看應(yīng)該不只是模型自身出了問題。我自己還沒有明確的答案，但OpenAI的態(tài)度明顯是“先嘗試從內(nèi)部做解決或者改進(jìn)，等影響到正常使用了再說”。

在我看來，OpenAI的管理思路很有問題。以常見的團(tuán)隊(duì)溝通規(guī)劃為例，只要提供足夠的信息，GPT-3.5的表現(xiàn)還是相當(dāng)不錯的。所以我猜OpenAI也是用這種方式蒙蔽了高管團(tuán)隊(duì)的判斷，畢竟精調(diào)提示詞并不困難，請個專人就能解決。正因?yàn)槿绱�，OpenAI才產(chǎn)生了單靠調(diào)整AI模型就能解決AI問題的思路。

我不知道現(xiàn)在大家說的這些問題到底跟變懶有沒有關(guān)系，畢竟引發(fā)問題的原因多種多樣。而且GPT大模型本身也不老實(shí)，甚至?xí)f謊來隱藏自己的真實(shí)行為。哪怕是被發(fā)現(xiàn)，OpenAI也可以解釋說是存在誤會或者提示詞存在不當(dāng)內(nèi)容。另外別太過迷信規(guī)則，基于規(guī)則的行為也不一定比隨機(jī)問題更穩(wěn)定，比如GPT-3.5就會訪問網(wǎng)站、并把外部聊天和相關(guān)數(shù)據(jù)保存成html文件。這其實(shí)是不符合GPT身份和功能定位的操作。我也遇到過中途“罷工”的情況，但這主要是大模型忘記了當(dāng)前上下文中的內(nèi)容必須與之前的上下文接續(xù)起來。普通用戶當(dāng)然分不清楚，所以很自然地認(rèn)為是大模型在偷懶。這跟之前的GPT幻覺差不多，剛開始似乎經(jīng)常發(fā)生，但使用的人越多、涉及的內(nèi)部信息越少，幻覺也開始逐漸緩解。

另外還有三點(diǎn)個人觀察。首先，我很好奇OpenAI的專家到底做了什么。這個問題始于去年12月，當(dāng)時外界認(rèn)為GPT過于迷信專業(yè)知識、甚至為此而傾向于輸出錯誤信息。比如通過知識文件向GPT自動輸入提示詞，那么生成的信息就會有所不同。而如果不輸入預(yù)設(shè)文件，GPT的表現(xiàn)則比較正常。我就遇到了這樣的情況，還專門向OpenAI上報了觀察結(jié)果，想搞清在RAG問題有最終結(jié)論之前，到底該采取什么措施加以避免。而且之前我還嘗試把知識跟行為區(qū)分開來做GPT訓(xùn)練，借此建立起純知識庫。在確保知識庫內(nèi)容與現(xiàn)實(shí)不沖突之后，再配合其他信息一起使用。第二點(diǎn)就是錯誤學(xué)習(xí)的問題。既然選擇把大模型向公眾開放，那能做純軟件修復(fù)的問題OpenAI肯定早就解決了。問題是時至今日，GPT還是沒法在不改變形狀的前提下，把不同尺度下相同顏色的圖表正確合并。還是那句話，如果能修復(fù)的話早該修復(fù)好了。最后一點(diǎn)就是GPT號稱全球最受歡迎的AI模型。這個評判標(biāo)準(zhǔn)實(shí)在太模糊了，我覺得應(yīng)該從功能層面做準(zhǔn)確描述。

總而言之，當(dāng)前關(guān)于GPT的種種報道明顯是刻意設(shè)計出來的�？膳碌氖荊PT明顯還沒做好準(zhǔn)備，因此無腦宣傳已經(jīng)在扭曲中立研究、造成現(xiàn)實(shí)損害、甚至讓AI制造出更多的社會問題。有人在違規(guī)使用GPT，甚至有人把它當(dāng)作非法工具來設(shè)計和實(shí)施犯罪。我不知道這次的更新能產(chǎn)生多大影響，但各種違規(guī)行為已經(jīng)真實(shí)存在，甚至對普通用戶產(chǎn)生直接影響。我想問問OpenAI，這一切是單靠更新AI模型就能解決的嗎？

值得一提的是，OpenAI 此番發(fā)布的更新針對的是 GPT-4 Turbo，即得到廣泛使用的特定 GPT-4 版本。這套模型根據(jù)截至 2023 年 4 月的最新信息訓(xùn)練而成，目前僅提供預(yù)覽版本。也就是說，大家如果繼續(xù)使用 GPT-4（使用截止于 2021 年 9 月的數(shù)據(jù)訓(xùn)練而成），那么“變懶”問題可能仍將存在。

參考鏈接：

https://www.theverge.com/2024/1/25/24050829/openai-gpt-4-turbo-lazy-ai-modelhttps://community.openai.com/t/i-wonder-how-much-openai-would-pay-to-cure-gpt-lazyness/604781https://community.openai.com/t/why-i-think-gpt-is-now-lazy/534332/11