无码中文字幕av免费放互动交流,日韩另类黄色天堂,成人无码视频

OpenAI o1 模型 PlanBench 規(guī)劃能力實測：準確率 97.8%

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:09:51 瀏覽：542次

導讀：IT之家 9 月 25 日消息，來自亞利桑那州立大學的科研團隊利用 PlanBench 基準，測試了 OpenAI o1 模型的規(guī)劃能力。研究結果表明 o1 模型取得了長足的進步，但仍然存在很大的局限性。 PlanBench 基準簡介PlanBench 開發(fā)于 2022 年，用于評估人工智能系統(tǒng)的...

IT之家 9 月 25 日消息，來自亞利桑那州立大學的科研團隊利用 PlanBench 基準，測試了 OpenAI o1 模型的規(guī)劃能力。研究結果表明 o1 模型取得了長足的進步，但仍然存在很大的局限性。

PlanBench 基準簡介PlanBench 開發(fā)于 2022 年，用于評估人工智能系統(tǒng)的規(guī)劃能力，包括 600 個來自 Blocksworld 領域的任務，其中積木必須按照特定順序堆疊。

OpenAI o1 模型成績在 Blocksworld 任務中，OpenAI 的 o1 模型準確率達到 97.8%，大大超過了之前的最佳語言模型 LLaMA 3.1 405B（準確率為 62.6%）。

在更具挑戰(zhàn)性的“Mystery Blocksworld”加密版本中，傳統(tǒng)模型幾乎全部失敗，而 OpenAI 的 o1 模型準確率達到 52.8%。IT之家附上報告圖片如下：

研究人員還測試了一種新的隨機變體，以排除 o1 的性能可能源于其訓練集中的基準數(shù)據(jù)。在這次測試中，O1 的準確率降至 37.3%，但仍遠遠超過了得分接近零的其它模型。

規(guī)劃步驟越多，性能下降越明顯隨著任務越來越復雜，o1 的表現(xiàn)也急劇下降。在需要 20 到 40 個規(guī)劃步驟的問題上，o1 在較簡單測試中的準確率從 97.8% 下降到只有 23.63%。

該模型在識別無法解決的任務方面也很吃力，只有 27% 的時間能夠正確識別。在 54% 的情況下，它錯誤地生成了完整但不可能完成的計劃。

“Quantum improvement”，但并非突破性雖然 o1 在基準性能上實現(xiàn)了“量子改進”（Quantum improvement），但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法，可以在更短的計算時間內(nèi)實現(xiàn)完美的準確性。

研究還強調(diào)了 o1 的高資源消耗，運行這些測試需要花費近 1900 美元，而經(jīng)典算法在標準計算機上運行幾乎不需要任何成本。

研究人員強調(diào)，對人工智能系統(tǒng)進行公平比較必須考慮準確性、效率、成本和可靠性。他們的研究結果表明，雖然像 o1 這樣的人工智能模型在復雜推理任務方面取得了進步，但這些能力還不夠強大。