欧美又大又粗午夜剧场,埃及艳后荒淫史一级毛片在线,宅男看片午夜大片啪啪

第一個超越ChatGPT的開源模型來了？網(wǎng)友并不買賬

來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-04 10:17:39 瀏覽：5340次

導(dǎo)讀：機器之心報道編輯：梓文開源模型真的超過 ChatGPT了嗎？大模型火了起來，每天我們都能看到各種「大」新聞。今天，又來了個 Big News：新開源的一個大模型超越了 ChatGPT。具體是什么呢？ OpenLLM 是一系列在極...

機器之心報道

編輯：梓文

開源模型真的超過 ChatGPT了嗎？

大模型火了起來，每天我們都能看到各種「大」新聞。

今天，又來了個 Big News：新開源的一個大模型超越了 ChatGPT。

具體是什么呢？

OpenLLM 是一系列在極孝多樣且高質(zhì)量的多輪對話數(shù)據(jù)集上進(jìn)行微調(diào)的開源語言模型。

這兩日，作者們更新了該系列模型，并宣稱：OpenChat 模型在 AlpacaEval 上獲得 80.9% 的勝率；在 Vicuna GPT-4 評估上，性能達(dá)到 ChatGPT 的 105%。

也就是上面推特截圖中，兩位博主宣稱的開源模型超越 ChatGPT/GPT-3.5。

OpenLLM 的特色是基于 LLaMA 開源模型，在只有 6,000 個 GPT4 對話的數(shù)據(jù)集上進(jìn)行微調(diào)，從而達(dá)到非常好的效果。

此次更新的模型型號與評審結(jié)果如下：

OpenChat：基于 LLaMA-13B，上下文長度為 2048。

在Vicuna GPT-4 評估中達(dá)到 ChatGPT 分?jǐn)?shù)的 105.7% 。

在 AlpacaEval 上達(dá)到 80.9% 的勝率。

OpenChat-8192：基于 LLaMA-13B，擴展上下文長度為 8192。

在 Vicuna GPT-4 評估中達(dá)到 ChatGPT 分?jǐn)?shù)的 106.6% 。

在 AlpacaEval 上實現(xiàn) 79.5% 的勝率。

也就是說，兩個模型在 Vicuna GPT-4 評估榜單上結(jié)果都超越了 ChatGPT。

但這種評審 + 宣傳的方式似乎并不被大家認(rèn)可。

網(wǎng)友：夸張

在 Twitter 討論中，有網(wǎng)友表明，這就是夸張的說法。

在此「大」新聞公布后，Vicuna 官方也迅速做出了回應(yīng)。

實際上，Vicuna 的測試基準(zhǔn)已被棄用，現(xiàn)在使用的是更高級的 MT-bench 基準(zhǔn)。該基準(zhǔn)的測試，有著更加具有挑戰(zhàn)性的任務(wù)，并且解決了 gpt4 評估中的偏差以及限制。

在 MT-bench 上，OpenChat 性能表現(xiàn)與 wizardlm-13b 相似。也就是說，開源模型與 GPT-3.5 仍然有著一定差距。這也正是 MT-bench 所強調(diào)的內(nèi)容開源模型不是完美無缺的，但是這將邁向更好的聊天機器人評估。

前幾日，機器之心報道內(nèi)容《「羊駝」們走到哪一步了？研究表明：最好的能達(dá)到 GPT-4 性能的 68%》，也對開源模型的性能進(jìn)行了評估。

評估還表明，在任何給定的評估中，最佳模型的平均性能達(dá)到 ChatGPT 的 83%、GPT-4 的 68%，這表明需要進(jìn)一步構(gòu)建更好的基礎(chǔ)模型和指令調(diào)優(yōu)數(shù)據(jù)以縮小差距。

相關(guān)熱詞： 第一個超越 ChatGPT 開源模型網(wǎng)友不買賬

第一個超越ChatGPT的開源模型來了？網(wǎng)友并不買賬
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-04 10:17:39 瀏覽：5340次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

第一個超越ChatGPT的開源模型來了？網(wǎng)友并不買賬 來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-07-04 10:17:39 瀏覽：5340次