展會信息港展會大全

OpenAI出手后,GPT-4真的不懶了?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-01-30 19:16:24   瀏覽:3250次  

導(dǎo)讀:來源|AI前線 大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí),如果人類本身越來越懶,那模仿人類的程序是不是也會越來越懶? OpenAI 發(fā)布更新,解決 GPT-4變懶問題 近日,OpenAI 在一篇博文中發(fā)布了多項(xiàng)更新,并表示更新后的 GPT-4 Turbo擁有比之前預(yù)覽模型更好的代碼生成等能力...

來源|AI前線

大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí),如果人類本身越來越懶,那模仿人類的程序是不是也會越來越懶?

OpenAI 發(fā)布更新,解決 GPT-4“變懶”問題

近日,OpenAI 在一篇博文中發(fā)布了多項(xiàng)更新,并表示更新后的 GPT-4 Turbo“擁有比之前預(yù)覽模型更好的代碼生成等能力,且減少了模型在任務(wù)中途罷工的「變懶」情況。”但該公司并沒有對更新內(nèi)容做進(jìn)一步解釋。

OpenAI 在帖子中提到,由于知識庫更新,已經(jīng)有超過 70% 的 GPT-4 API 用戶轉(zhuǎn)向了 GPT-4 Turbo。OpenAI 表示,未來幾個月內(nèi)將陸續(xù)推出更多 GPT-4 Turbo 更新,包括發(fā)布具有視覺模態(tài)處理能力的 GPT-4 Turbo 正式版。這意味著用戶將可輸入各類多模態(tài)提示詞,例如文本到圖像生成提示。

此外,OpenAI 還推出了被稱為“嵌入”的小體量 AI 模型。OpenAI 對于嵌入的定義,是“代表自然語言或代碼等內(nèi)容中概念的數(shù)字序列”。以此為基礎(chǔ),即可搭配檢索增強(qiáng)生成(簡稱 RAG,一種從數(shù)據(jù)庫獲取信息、而非生成答案的 AI 方法)應(yīng)用找到各類可訪問內(nèi)容間的關(guān)系。這些新模型、text-embedding-3-small 嵌入乃至更強(qiáng)大的 text-embedding-3-large 版本現(xiàn)均已正式開放。

經(jīng)過改進(jìn)的各 GPT 模型現(xiàn)已通過 API 開放,包括質(zhì)量更高、價格更低廉的嵌入模型(e.gone 模型的成本僅為此前嵌入模型的五分之一,但性能更強(qiáng))。

用戶抱怨 GPT-4 學(xué)會偷懶:越來越像人類了?

2023 年 12 月,有不少用戶抱怨稱,“這段時間使用 ChatGPT 或 GPT-4 API 時,會遇到高峰期速度非常慢、敷衍回答、拒絕回答、中斷會話等一系列問題”。

比如,某些時候,GPT-4 系統(tǒng)會給出一些特別模糊的答案,特別是關(guān)于 Docker、Kubernetes 以及其他 CI/CD 的問題。此外,GPT-4 還學(xué)會了“廢話文學(xué)”不直接回答問題,只是堆疊素材來講解應(yīng)該怎樣回答問題。有用戶反映,哪怕明確要求不要使用空白占位符,模型也仍然會用占位符把回答截得七零八落。這種限制回復(fù)質(zhì)量的作法倒是替服務(wù)商節(jié)約了資源,但卻極大浪費(fèi)了普通用戶的時間。

用戶 jonathanallengrant 在 OpenAI 社區(qū)一個名為“為什么我覺得 GPT 變懶了”的帖子中提到:“不少人注意到自從 Dev Day 活動以來,模型的輸出上限就變成了 850 個 token。換言之就是 ChatGPT 變懶了,不光留出大量空白,還常常在同一條消息里半天停在原地。我相信這應(yīng)該是 OpenAI 正在以某種方式擴(kuò)展模型的推理方法。”

用戶 manchkiran 表示自己也遇到過類似的情況,并吐槽“現(xiàn)在的模型絕對是變懶了,只會快速搜索并給出 Bing 引擎的鏈接”,他猜測大模型變懶的原因或許與“微軟加入 OpenAI 董事會后下調(diào)了算力分配”有關(guān)。

sasindujayashmaavmu 則從另一個角度分析了 GPT-4 變懶的原因:“我覺得這可能是人機(jī)回圈的鍋……大模型會從人類經(jīng)驗(yàn)中學(xué)習(xí),所以如果人類本身越來越懶,那模仿人類的程序也會越來越懶。”

對于漫天蓋地的吐槽聲,ChatGPT 官方通過 X 平臺通知用戶,“我們聽到了你們關(guān)于 GPT-4 變得越來越懶的反饋!我們自 11 月 11 日起就沒有更新過模型了,當(dāng)然這不是故意的。”

OpenAI 出手后,GPT-4 真的不懶了?

OpenAI 本次更新承諾解決了 GPT-4“變懶”問題,根據(jù)社區(qū)用戶反饋來看,如今的 GPT-4 似乎真的聰明多了。

用戶 Distinct_Salad_6683 提到,最近自己發(fā)現(xiàn) GPT 在編碼能力有所提升,能夠根據(jù)提示詞快速提供完整的示例。之前 GPT 經(jīng)常會拒絕給出具體示例,只是在描述自己要求它干的工作,并用“在此處插入函數(shù)邏輯”之類的廢話來搪塞問題。

也有用戶“陰陽”OpenAI:軟件只要更新一下就能解決“變懶”,真羨慕。要是能有補(bǔ)丁幫我扛過禮拜一就好了。

由于 OpenAI 并未對更新內(nèi)容做進(jìn)一步解釋,因此也有不少用戶開始分析其到底是怎么解決 GPT-4“變懶”問題的。語言學(xué)家 christelle.hilz 分析,GPT-4 變懶的問題跟算法無關(guān),單靠打補(bǔ)丁恐怕無濟(jì)于事。這個問題還得從其他角度嘗試解決。“我好奇的是 OpenAI 愿意花多少錢來解決 GPT 變懶問題”。

也有觀點(diǎn)認(rèn)為,OpenAI 并未真正地解決問題。因?yàn)榇笳Z言模型就是算法加公式的組合,所以哪怕更新真的解決了變懶問題,只能用這種方法改進(jìn)模型本身也不是什么好兆頭。

chieffy99 則更悲觀地表示,哪怕是聘請了世界各地的專家,大語言模型自身的問題還是難以解決,畢竟任何專家都不可能確切了解每一個問題。因?yàn)樵绞窃绞菍W⒂谧约旱膶I(yè)積累,我們的視野反而變得越狹窄。chieffy99 還向 OpenAI 的管理團(tuán)隊(duì)“開炮”:

我向來敢于對OpenAI的缺點(diǎn)開炮,這里我也要明確表態(tài):OpenAI一直認(rèn)為AI的問題不可能通過開發(fā)AI方案來解決,但我覺得這是錯的。

我自己沒有任何關(guān)于AI的知識和使用經(jīng)驗(yàn),但擁有豐富的項(xiàng)目管理積累。抱怨變懶問題的用戶是誰、當(dāng)時是怎么操作的并不是重點(diǎn),重點(diǎn)在于大模型為什么會傾向于消極工作。我本人喜歡從問題當(dāng)中尋找共性,而且從目前的情況看應(yīng)該不只是模型自身出了問題。我自己還沒有明確的答案,但OpenAI的態(tài)度明顯是“先嘗試從內(nèi)部做解決或者改進(jìn),等影響到正常使用了再說”。

在我看來,OpenAI的管理思路很有問題。以常見的團(tuán)隊(duì)溝通規(guī)劃為例,只要提供足夠的信息,GPT-3.5的表現(xiàn)還是相當(dāng)不錯的。所以我猜OpenAI也是用這種方式蒙蔽了高管團(tuán)隊(duì)的判斷,畢竟精調(diào)提示詞并不困難,請個專人就能解決。正因?yàn)槿绱,OpenAI才產(chǎn)生了單靠調(diào)整AI模型就能解決AI問題的思路。

我不知道現(xiàn)在大家說的這些問題到底跟變懶有沒有關(guān)系,畢竟引發(fā)問題的原因多種多樣。而且GPT大模型本身也不老實(shí),甚至?xí)f謊來隱藏自己的真實(shí)行為。哪怕是被發(fā)現(xiàn),OpenAI也可以解釋說是存在誤會或者提示詞存在不當(dāng)內(nèi)容。另外別太過迷信規(guī)則,基于規(guī)則的行為也不一定比隨機(jī)問題更穩(wěn)定,比如GPT-3.5就會訪問網(wǎng)站、并把外部聊天和相關(guān)數(shù)據(jù)保存成html文件。這其實(shí)是不符合GPT身份和功能定位的操作。我也遇到過中途“罷工”的情況,但這主要是大模型忘記了當(dāng)前上下文中的內(nèi)容必須與之前的上下文接續(xù)起來。普通用戶當(dāng)然分不清楚,所以很自然地認(rèn)為是大模型在偷懶。這跟之前的GPT幻覺差不多,剛開始似乎經(jīng)常發(fā)生,但使用的人越多、涉及的內(nèi)部信息越少,幻覺也開始逐漸緩解。

另外還有三點(diǎn)個人觀察。首先,我很好奇OpenAI的專家到底做了什么。這個問題始于去年12月,當(dāng)時外界認(rèn)為GPT過于迷信專業(yè)知識、甚至為此而傾向于輸出錯誤信息。比如通過知識文件向GPT自動輸入提示詞,那么生成的信息就會有所不同。而如果不輸入預(yù)設(shè)文件,GPT的表現(xiàn)則比較正常。我就遇到了這樣的情況,還專門向OpenAI上報了觀察結(jié)果,想搞清在RAG問題有最終結(jié)論之前,到底該采取什么措施加以避免。而且之前我還嘗試把知識跟行為區(qū)分開來做GPT訓(xùn)練,借此建立起純知識庫。在確保知識庫內(nèi)容與現(xiàn)實(shí)不沖突之后,再配合其他信息一起使用。第二點(diǎn)就是錯誤學(xué)習(xí)的問題。既然選擇把大模型向公眾開放,那能做純軟件修復(fù)的問題OpenAI肯定早就解決了。問題是時至今日,GPT還是沒法在不改變形狀的前提下,把不同尺度下相同顏色的圖表正確合并。還是那句話,如果能修復(fù)的話早該修復(fù)好了。最后一點(diǎn)就是GPT號稱全球最受歡迎的AI模型。這個評判標(biāo)準(zhǔn)實(shí)在太模糊了,我覺得應(yīng)該從功能層面做準(zhǔn)確描述。

總而言之,當(dāng)前關(guān)于GPT的種種報道明顯是刻意設(shè)計出來的?膳碌氖荊PT明顯還沒做好準(zhǔn)備,因此無腦宣傳已經(jīng)在扭曲中立研究、造成現(xiàn)實(shí)損害、甚至讓AI制造出更多的社會問題。有人在違規(guī)使用GPT,甚至有人把它當(dāng)作非法工具來設(shè)計和實(shí)施犯罪。我不知道這次的更新能產(chǎn)生多大影響,但各種違規(guī)行為已經(jīng)真實(shí)存在,甚至對普通用戶產(chǎn)生直接影響。我想問問OpenAI,這一切是單靠更新AI模型就能解決的嗎?

值得一提的是,OpenAI 此番發(fā)布的更新針對的是 GPT-4 Turbo,即得到廣泛使用的特定 GPT-4 版本。這套模型根據(jù)截至 2023 年 4 月的最新信息訓(xùn)練而成,目前僅提供預(yù)覽版本。也就是說,大家如果繼續(xù)使用 GPT-4(使用截止于 2021 年 9 月的數(shù)據(jù)訓(xùn)練而成),那么“變懶”問題可能仍將存在。

參考鏈接:

https://www.theverge.com/2024/1/25/24050829/openai-gpt-4-turbo-lazy-ai-modelhttps://community.openai.com/t/i-wonder-how-much-openai-would-pay-to-cure-gpt-lazyness/604781https://community.openai.com/t/why-i-think-gpt-is-now-lazy/534332/11

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞: OpenAI 出手 GPT-4 真的 不懶 來源 前線 大模

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港