av视频分类国产在线视频,小14萝自慰喷白浆

開源大模型新王干翻GPT4o，新技術(shù)可自我糾錯，數(shù)學99.2刷爆測試集

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:35 瀏覽：1495次

導讀：西風發(fā)自凹非寺量子位 | 公眾號 QbitAI 開源大模型王座突然易主，居然來自一家小創(chuàng)業(yè)團隊，瞬間引爆業(yè)界。新模型名為 Reflection 70B ，使用一種全新訓練技術(shù)，讓AI學會在推理過程中糾正自己的錯誤和幻覺。比如最近流行的數(shù)r測試中，一開始它犯了和大多...

西風發(fā)自凹非寺

量子位 | 公眾號 QbitAI

開源大模型王座突然易主，居然來自一家小創(chuàng)業(yè)團隊，瞬間引爆業(yè)界。

新模型名為Reflection 70B，使用一種全新訓練技術(shù)，讓AI學會在推理過程中糾正自己的錯誤和幻覺。

比如最近流行的數(shù)r測試中，一開始它犯了和大多數(shù)模型一樣的錯誤，但主動在<反思>標簽中糾正了自己。

在官方評測中，70B模型全面超越最強開源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特別是數(shù)學基準GSM8K上直接刷爆，得分99.2%。

這個結(jié)果也讓OpenAI科學家、德?lián)銩I之父Noam Brown激情開麥：

GSM8K得分99%！是不是可以正式淘汰這個基準了？

模型剛剛上線網(wǎng)友就把試玩擠爆了，對此Meta還主動支援了更多算力。

在網(wǎng)友測試中，Reflection 70B能回答對GSM8K數(shù)據(jù)集中本身答案錯誤的問題：

我向模型提供了GSM8K中存在的5個“ground_truth”本身就不正確的問題。

模型沒有重復數(shù)據(jù)集中的錯誤答案，而是全部回答對了，這很令人印象深刻，表明那99.2%的準確率并非來自于記憶測試集！

數(shù)各種r都不在話下，連生造詞“drirrrngrrrrrnnn”中有幾個r也能被正確數(shù)對。

網(wǎng)友紛紛對小團隊做出的開源超越頂流閉源感到驚訝，現(xiàn)在最強開源模型可以在本地運行了。

關(guān)鍵70B還只是個開始，官方表示下周還會發(fā)布更大的Reflection 405B。

預計405B性能將大幅優(yōu)于Sonnet和GPT-4o。

Reflection 70B權(quán)重已公開，API訪問將于今天晚些時候由Hyperbolic Labs提供。

模型能自我反思糾正錯誤目前關(guān)于Reflection 70B的更多細節(jié)如下。

Reflection 70B能力提升的關(guān)鍵，是采用了一種名為Reflection-Tuning的訓練方法，它能夠讓模型反思自己生成的文本，在最終確定回應前檢測并糾正自身推理中的錯誤。

訓練中的數(shù)據(jù)來自使用GlaiveAI平臺生成的合成數(shù)據(jù)。

Reflection 70B基于Llama 3.1 70B Instruct，可以使用與其它Llama模型相同的代碼、pipeline等從Reflection Llama-3.1 70B進行采樣。

它甚至使用了標準的Llama 3.1聊天格式。

不過，Reflection 70B引入了一些特殊tokens，結(jié)構(gòu)化輸出過程。

如下面這個例子所展示的，規(guī)劃過程分為一個獨立的步驟，這樣做可以提高CoT效果，并保持輸出精煉：

模型將從在和標簽內(nèi)輸出推理開始，一旦對其推理感到滿意，就會在

和標簽內(nèi)輸出最終答案。

所以它能夠?qū)⑵鋬?nèi)部思考和推理與最終答案分離。

在部分，模型可能會輸出一個或多個標簽，這表明模型發(fā)現(xiàn)了其推理中的錯誤，并將在提供最終答案之前嘗試糾正該錯誤。

系統(tǒng)提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside

tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.（你是一個世界級人工智能系統(tǒng)，能夠進行復雜的推理和反思。在標簽內(nèi)對查詢進行推理，然后在

標簽內(nèi)提供你的最終回應。如果你發(fā)現(xiàn)自己在任何時候推理出錯，請在標簽內(nèi)糾正自己。）

此外值得一提的是，基準測試中，所有基準都已通過LMSys的LLM Decontaminator檢查污染，隔離了

部分，并單獨對這一部分進行測試。

使用Reflection 70B的時候，官方還分享了小tips：

初步建議參數(shù)temperature為.7 ， top_p為.95

為提高準確性，最好附加“Think carefully.”在Prompt末尾

官方還表示，下周會發(fā)布一份報告，詳細介紹模型訓練過程和發(fā)現(xiàn)。

Agent創(chuàng)業(yè)團隊打造Reflection 70B的背后是一支小團隊，由HyperWriteAI的CEO Mutt Shumer帶領(lǐng)。

領(lǐng)英顯示，Mutt Shumer是一位連續(xù)創(chuàng)業(yè)者，畢業(yè)于美國錫拉丘茲大學，現(xiàn)任OthersideAI的聯(lián)合創(chuàng)始人兼CEO。

OthersideAI是一家AI應用公司，致力于通過大規(guī)模AI系統(tǒng)開發(fā)全球最先進的自動補全工具，也是HyperWrite的幕后公司。

HyperWrite是一個瀏覽器操作agent，可以像人一樣操作谷歌瀏覽器來完成一系列任務，比如訂披薩：

和gpt-llm-trainer一樣，你只需要用文字描述目標，它就會一邊列步驟，一邊執(zhí)行。

剛推出時號稱“比AutoGPT強”。

HyperWrite還可以在谷歌擴展程序中安裝。

另外，Mutt Shumer高中時期就創(chuàng)立了Visos，致力于開發(fā)用于醫(yī)療用途的下一代虛擬現(xiàn)實軟件。

還創(chuàng)立了FURI，這是一家旨在通過創(chuàng)造高性能產(chǎn)品并以公平的價格銷售它們來顛覆體育用品行業(yè)的公司。

雖然有Meta支持，但目前打開試玩，還是：暫時無法訪問。

感興趣的童鞋可以先碼住了～

https://reflection-playground-production.up.railway.app/

參考鏈接：[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B[2]https://x.com/mattshumer_/status/1831767014341538166[3]https://x.com/polynoamial/status/1831798985528635806[4]https://x.com/degeneratoor/status/1831809610451448196[5]https://x.com/kimmonismus/status/1831772661296345333

相關(guān)熱詞： 開源大模型新王干 GPT4o 新技術(shù) 自我糾錯數(shù)學

開源大模型新王干翻GPT4o，新技術(shù)可自我糾錯，數(shù)學99.2刷爆測試集
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:35 瀏覽：1495次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

開源大模型新王干翻GPT4o，新技術(shù)可自我糾錯，數(shù)學99.2刷爆測試集 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:35 瀏覽：1495次