9x9x精品国产,最新国产一级特黄av

前谷歌研究科學(xué)家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-13 13:37:32 瀏覽：4396次

導(dǎo)讀：機器之心報道編輯：陳萍該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。如果你經(jīng)常讀 AI 大模型方向的論文，Yi Tay 想必是一個熟悉的名字。作為前谷歌大腦高級研究科學(xué)家，Yi Tay 為許多知名的大型語言模型和多模態(tài)模型做出了貢獻，包...

機器之心報道

編輯：陳萍

該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。

如果你經(jīng)常讀 AI 大模型方向的論文，Yi Tay 想必是一個熟悉的名字。作為前谷歌大腦高級研究科學(xué)家，Yi Tay 為許多知名的大型語言模型和多模態(tài)模型做出了貢獻，包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根據(jù) Yi Tay 個人資料統(tǒng)計，在谷歌大腦工作的 3 年多的時間里，他總共參與撰寫了大約 45 篇論文，是其中 16 篇的一作。一作論文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。

和大多數(shù)離開谷歌自主創(chuàng)業(yè)的 Transformer 作者一樣，Yi Tay 在去年 3 月份宣布離開谷歌，并參與創(chuàng)辦了一家名為 Reka 的公司，Yi Tay 擔任該公司的首席科學(xué)家，主攻大型語言模型。

隨著時間的推移，剛剛，Yi Tay 宣布他們發(fā)布了新模型：

「很高興與大家分享 Reka Flash，這是一種具有 SOTA 性能的、全新的 21B 多模態(tài)模型，該模型在語言和視覺基準方面可與 Gemini Pro 和 GPT 3.5 相媲美。我們用相對有限的資源從零開始訓(xùn)練這個模型…… 與此同時，我們規(guī)模最大、功能最強的模型 Reka-Core 也即將完成，大家可以對我們接下來的工作期待一下�！�

Reka Flash：一個高效的多模態(tài)語言模型

Reka Flash 參數(shù)量為 21B，完全從頭開始訓(xùn)練，其性能可與更大規(guī)模的模型相媲美，在眾多語言和視覺基準測試中，Reka Flash 與 Gemini Pro 和 GPT-3.5 具有競爭力。

此外， Reka 團隊還提出了一個更緊湊的模型變體 Reka Edge，該模型參數(shù)量更少，只有 7B，并且效率更高，使其在資源受限（例如，在設(shè)備上、本地）的場景下也能運行。

值得一提的是，這兩種模型均處于公開測試階段，感興趣的讀者可以前去嘗試。

試用地址：https://chat.reka.ai/auth/login

與此同時，Reka 團隊宣布他們最大、功能最強的 Reka Core 模型將在未來幾周內(nèi)向公眾推出。

至于開源問題，該團隊表示還在考慮當中。

評估：語言

評估基準包括 MMLU（基于知識的問答）、GSM8K（推理和數(shù)學(xué)）、HumanEval（代碼生成）和 GPQA（Google-proof graduate-level question answering）。

結(jié)果顯示，Reka Flash 在這些基準測試中取得了非常出色的成績：在 MMLU 和 GPQA 上優(yōu)于 Gemini Pro，在 GSM8K 和 HumanEval 上取得了具有競爭力的結(jié)果。此外，在這些評估中，Reka Flash 明顯優(yōu)于許多較大的模型（例如 Llama 2 70B、Grok-1、GPT-3.5）。

評估：多語言推理

Reka Flash 在超過 32 種語言（包括英語，德語，中文，日語，法語，韓語，西班牙語，意大利語，阿拉伯語等）的文本上進行了預(yù)訓(xùn)練，因此 Reka Flash 可以看做是一個強大的多語言模型。研究者比較了不同模型在多語言基準上的性能，包括多語言常識推理、因果推理和問答。結(jié)果表明，Reka Flash 在所有這些任務(wù)上均優(yōu)于 Llama-2 70B 和 Mixtral。

評估：視覺和視頻

此外，該研究還在多模態(tài)基準上對 Reka Flash 進行了評估，包括視覺問答（MMMU、VQA-v2）、視頻字幕（VATEX）和視頻問答（Perception Test）。結(jié)果表明 Reka Flash 在所有四個基準測試中都比 Gemini Pro 具有競爭力。

該研究還進行了一系列人工評估來評估基于 Reka Flash 的聊天模型。研究者考慮了兩種設(shè)置，1）純文本聊天模型和 2）多模態(tài)聊天模型。評估過程中他們按照 Askell 等人的方法計算 ELO 分數(shù)和總體勝率。

純文本聊天：研究者以 GPT-4、Claude 2.1 和 Gemini Pro（API 版本）等領(lǐng)先模型為基準。此外研究者還比較了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的性能。

人工評估結(jié)果表明，Reka Flash 取得了具有競爭力的結(jié)果，優(yōu)于 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。Reka Edge 領(lǐng)先于另外兩款 7B 模型，接近 Claude Instant 1.2 的性能。

評估：多模態(tài)

該研究還將 Reka Flash 與 GPT4-V、Gemini Pro、Llava-1.6、IDEFICS 80b 和 Adept Fuyu-8B 等多模態(tài)語言模型進行了比較。結(jié)果表明，Reka Flash 的性能優(yōu)于除 GPT4-V 之外的所有模型。Reka Edge 也取得了不錯的排名，超越了基于 Mistral 7B 的 Llava 1.6 7B，并接近 Gemini Pro 的性能。

7B 參數(shù)的 Reka Edge 模型

Reka Edge 是更為緊湊的 7B 模型，專為本地部署和延遲敏感應(yīng)用程序而設(shè)計。在語言評估任務(wù)上，該研究報告了其與類似規(guī)模模型（即 Mistral 7B 和 Llama-2 7B）的比較。結(jié)果表明，Reka Edge 在標準語言基準測試中優(yōu)于 Llama 2 7B 和 Mistral 7B。

總結(jié)

Reka 團隊表示他們旨在構(gòu)建最先進的多模態(tài)語言模型，隨著 Reka Flash 和 Reka Edge 的發(fā)布，他們 AI 藍圖中的最初里程碑已經(jīng)實現(xiàn)。大家可以期待他們接下來的研究。

參考鏈接：https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/

相關(guān)熱詞： 谷歌研究科學(xué)家 Tay 官宣新模型模型 21B 媲美

前谷歌研究科學(xué)家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-13 13:37:32 瀏覽：4396次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

前谷歌研究科學(xué)家Yi Tay官宣新模型，21B媲美Gemini Pro、GPT-3.5 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-02-13 13:37:32 瀏覽：4396次