91热国产在线观看,国产手机在线亚洲精品观看,午夜一级做a爱片毛毛片

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 14:52:44 瀏覽：1305次

導(dǎo)讀：劃重點(diǎn) 01華人學(xué)者Tianhao Wu及其團(tuán)隊(duì)提出了一種名為思考偏好優(yōu)化（Thought Preference Optimization）的方法，使模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時(shí)間的思考。 02該方法將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中，通過(guò)迭代優(yōu)化提升思考質(zhì)量，無(wú)需額外人工標(biāo)注數(shù)據(jù)。 03實(shí)...

劃重點(diǎn)

01華人學(xué)者Tianhao Wu及其團(tuán)隊(duì)提出了一種名為思考偏好優(yōu)化（Thought Preference Optimization）的方法，使模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時(shí)間的思考。

02該方法將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中，通過(guò)迭代優(yōu)化提升思考質(zhì)量，無(wú)需額外人工標(biāo)注數(shù)據(jù)。

03實(shí)驗(yàn)結(jié)果顯示，TPO模型在AlpacaEval、Arena-Hard基準(zhǔn)測(cè)試中性能比基線提升約4%。

04此外，TPO在推理、數(shù)學(xué)、營(yíng)銷(xiāo)、健康、一般知識(shí)等非推理任務(wù)上也表現(xiàn)出優(yōu)勢(shì)。

05該研究由Meta FAIR、加州大學(xué)伯克利分校、紐約大學(xué)的研究人員共同提出，論文已發(fā)表在arXiv.org上。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

西風(fēng) 發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

OpenAI-o1替代品來(lái)了，大模型能根據(jù)任務(wù)復(fù)雜度進(jìn)行不同時(shí)間的思考。

不限于推理性的邏輯或數(shù)學(xué)任務(wù)，一般問(wèn)答也能思考的那種。

最近暢銷(xiāo)書(shū)《Python機(jī)器學(xué)習(xí)》作者Sebastian Raschka推薦了一項(xiàng)新研究，被網(wǎng)友們齊刷刷碼住了。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

論文一作為華人學(xué)者Tianhao Wu，導(dǎo)師之一是2011年清華特獎(jiǎng)得主焦劍濤。

團(tuán)隊(duì)提出了一種稱(chēng)作思考偏好優(yōu)化（Thought Preference Optimization）的方法，能讓模型像OpenAI-o1一樣，通過(guò)內(nèi)部“思考”輸出更好答案，最終只顯示結(jié)果，不展示思考過(guò)程。

TPO將思維鏈?zhǔn)教崾?推理融入訓(xùn)練中：

在回答之前，用思維鏈式方法進(jìn)行思考；使用一個(gè)LLM評(píng)判來(lái)評(píng)估響應(yīng)（不包括由LLM生成的想法）；根據(jù)被拒絕和優(yōu)選的響應(yīng)形成偏好對(duì)進(jìn)行DPO（包括這些響應(yīng)中的想法）。

基于Llama 3 8B Instruct的結(jié)果表明，TPO效果相當(dāng)好。

有意思的是，如果添加了思維提示，但Llama 3 8B Instruct基礎(chǔ)模型沒(méi)有在偏好對(duì)上經(jīng)歷DPO微調(diào)，那么這個(gè)基礎(chǔ)模型的性能會(huì)比沒(méi)有思維提示時(shí)差得多。

在指令數(shù)據(jù)（直接響應(yīng)基線）上對(duì)模型進(jìn)行微調(diào)（無(wú)需思考提示）就能顯著提升基模型的性能。

進(jìn)一步加入TPO，在AlpacaEval、Arena-Hard基準(zhǔn)測(cè)試中，性能比基線再提升約4%。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

網(wǎng)友紛紛表示這項(xiàng)研究很有意思，簡(jiǎn)單而又實(shí)用。

如果你已經(jīng)在進(jìn)行DPO，那么采用這種方法幾乎就是不二之選了。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

所以，TPO到底長(zhǎng)啥樣？

兩種思考提示模板，無(wú)需額外人工標(biāo)注數(shù)據(jù)TPO的基本思路就是讓模型在給出最終回答前先生成“思考”過(guò)程，且思考過(guò)程對(duì)用戶不可見(jiàn)，僅作為模型內(nèi)部計(jì)算過(guò)程，然后通過(guò)迭代優(yōu)化來(lái)提升思考的質(zhì)量，無(wú)需額外的人工標(biāo)注數(shù)據(jù)。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

具體來(lái)說(shuō)，它的實(shí)現(xiàn)過(guò)程始于一個(gè)經(jīng)過(guò)指令微調(diào)的基礎(chǔ)語(yǔ)言模型，首先通過(guò)提示詞引導(dǎo)模型生成包含思考過(guò)程和最終回答兩個(gè)部分的輸出。

這個(gè)提示詞可以是通用型的，簡(jiǎn)單要求模型寫(xiě)下思考過(guò)程；也可以是具體型的，明確要求模型先寫(xiě)出草稿回答并進(jìn)行評(píng)估。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

對(duì)于每個(gè)用戶指令，模型會(huì)生成多個(gè)不同版本的輸出，每個(gè)都包含思考和回答部分。

且思考過(guò)程采用自然語(yǔ)言形式，便于解釋和利用預(yù)訓(xùn)練知識(shí)。

然后系統(tǒng)會(huì)將這些輸出中的回答部分（不含思考過(guò)程）提供給一個(gè)評(píng)判模型來(lái)打分。

評(píng)判模型可以是像ArmoRM這樣直接對(duì)單個(gè)回答評(píng)分的模型，也可以是像Self-Taught Evaluator這樣通過(guò)比較兩個(gè)回答來(lái)選出更好者的模型。

基于評(píng)判結(jié)果，系統(tǒng)會(huì)選出得分最高和最低的回答，連同它們對(duì)應(yīng)的思考過(guò)程一起構(gòu)成偏好對(duì)。

這些偏好對(duì)隨后被用于直接偏好優(yōu)化（DPO）訓(xùn)練，通過(guò)這種方式，模型能夠逐步學(xué)習(xí)到哪些思考方式能帶來(lái)更好的回答。

整個(gè)過(guò)程是迭代進(jìn)行的，每輪訓(xùn)練后得到的新模型會(huì)被用于下一輪的思考和回答生成。

為了防止回答變得過(guò)于冗長(zhǎng)，TPO還引入了長(zhǎng)度控制機(jī)制，通過(guò)在評(píng)分中加入長(zhǎng)度懲罰項(xiàng)來(lái)平衡回答的質(zhì)量和簡(jiǎn)潔性。

值得注意的是，在實(shí)際使用時(shí)，模型生成的思考過(guò)程會(huì)被隱藏，只向用戶展示最終的回答部分。

更多細(xì)節(jié)，感興趣的童鞋可自行查看原論文。

通過(guò)這種訓(xùn)練方法，即使是像Llama-3-8B-Instruct這樣相對(duì)較小的模型也能在AlpacaEval等基準(zhǔn)測(cè)試中取得接近甚至超過(guò)一些更大模型的性能。

在AlpacaEval基準(zhǔn)測(cè)試中，TPO模型獲得52.5%的勝率，比基線提升4.1%；在Arena-Hard測(cè)試上，TPO模型獲得37.3%的勝率，比基線提升4.3%。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

研究發(fā)現(xiàn)，雖然在訓(xùn)練初期，帶思考的模型表現(xiàn)不如直接回答的基線模型，但經(jīng)過(guò)多輪迭代訓(xùn)練后，TPO模型的表現(xiàn)明顯超過(guò)基線。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

更細(xì)致的分析顯示，思考不僅對(duì)推理和數(shù)學(xué)等傳統(tǒng)認(rèn)為需要思考的任務(wù)有幫助，在營(yíng)銷(xiāo)、健康、一般知識(shí)等非推理任務(wù)上也表現(xiàn)出優(yōu)勢(shì)，模型會(huì)隨著訓(xùn)練逐漸學(xué)會(huì)更高效的思考（思考長(zhǎng)度縮短）。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

華人一作這項(xiàng)研究由來(lái)自Meta FAIR、加州大學(xué)伯克利分校、紐約大學(xué)的研究人員共同提出。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

論文一作為華人學(xué)者Tianhao Wu。

Tianhao Wu目前是加州大學(xué)伯克利分校博士生，導(dǎo)師是焦劍濤（Jiantao Jiao）和Kannan Ramchandran。

本科主修數(shù)學(xué)，合作導(dǎo)師是北大教授、清華交叉信息學(xué)院兼職教授王立威（Liwei Wang）。

他的研究重點(diǎn)是通過(guò)強(qiáng)化學(xué)習(xí)改善大語(yǔ)言模型的指令遵循和推理能力，目標(biāo)是構(gòu)建可以解決需要多步驟推理的復(fù)雜任務(wù)的大規(guī)模模型。

此外他還在開(kāi)發(fā)由Agent組成的AI社會(huì)，這些Agent可以以模塊化的方式連接起來(lái)，形成更強(qiáng)大的集體智能。

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化

論文鏈接：https://arxiv.org/abs/2410.10630

參考鏈接：[1]https://x.com/rasbt/status/1850177459930497118[2]https://thwu1.github.io/tianhaowu/

相關(guān)熱詞： OpenAI-o1 思考替代法火焦劍高徒一作提出

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 14:52:44 瀏覽：1305次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 14:52:44 瀏覽：1305次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI-o1思考替代法火了！焦劍濤高徒一作提出思考偏好優(yōu)化
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-28 14:52:44 瀏覽：1305次