展會信息港展會大全

前谷歌研究科學(xué)家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-13 13:37:32   瀏覽:4396次  

導(dǎo)讀:機器之心報道 編輯:陳萍 該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。 如果你經(jīng)常讀 AI 大模型方向的論文,Yi Tay 想必是一個熟悉的名字。作為前谷歌大腦高級研究科學(xué)家,Yi Tay 為許多知名的大型語言模型和多模態(tài)模型做出了貢獻,包...

機器之心報道

編輯:陳萍

該團隊的新模型在多個基準測試中都與 Gemini Pro 、GPT-3.5 相媲美。

如果你經(jīng)常讀 AI 大模型方向的論文,Yi Tay 想必是一個熟悉的名字。作為前谷歌大腦高級研究科學(xué)家,Yi Tay 為許多知名的大型語言模型和多模態(tài)模型做出了貢獻,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。

根據(jù) Yi Tay 個人資料統(tǒng)計,在谷歌大腦工作的 3 年多的時間里,他總共參與撰寫了大約 45 篇論文,是其中 16 篇的一作。一作論文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。

和大多數(shù)離開谷歌自主創(chuàng)業(yè)的 Transformer 作者一樣,Yi Tay 在去年 3 月份宣布離開谷歌,并參與創(chuàng)辦了一家名為 Reka 的公司,Yi Tay 擔任該公司的首席科學(xué)家,主攻大型語言模型。

隨著時間的推移,剛剛,Yi Tay 宣布他們發(fā)布了新模型:

「很高興與大家分享 Reka Flash,這是一種具有 SOTA 性能的、全新的 21B 多模態(tài)模型,該模型在語言和視覺基準方面可與 Gemini Pro 和 GPT 3.5 相媲美。我們用相對有限的資源從零開始訓(xùn)練這個模型…… 與此同時,我們規(guī)模最大、功能最強的模型 Reka-Core 也即將完成,大家可以對我們接下來的工作期待一下!

Reka Flash:一個高效的多模態(tài)語言模型

Reka Flash 參數(shù)量為 21B,完全從頭開始訓(xùn)練,其性能可與更大規(guī)模的模型相媲美,在眾多語言和視覺基準測試中,Reka Flash 與 Gemini Pro 和 GPT-3.5 具有競爭力。

此外, Reka 團隊還提出了一個更緊湊的模型變體 Reka Edge,該模型參數(shù)量更少,只有 7B,并且效率更高,使其在資源受限(例如,在設(shè)備上、本地)的場景下也能運行。

值得一提的是,這兩種模型均處于公開測試階段,感興趣的讀者可以前去嘗試。

試用地址:https://chat.reka.ai/auth/login

與此同時,Reka 團隊宣布他們最大、功能最強的 Reka Core 模型將在未來幾周內(nèi)向公眾推出。

至于開源問題,該團隊表示還在考慮當中。

評估:語言

評估基準包括 MMLU(基于知識的問答)、GSM8K(推理和數(shù)學(xué))、HumanEval(代碼生成)和 GPQA(Google-proof graduate-level question answering)。

結(jié)果顯示,Reka Flash 在這些基準測試中取得了非常出色的成績:在 MMLU 和 GPQA 上優(yōu)于 Gemini Pro,在 GSM8K 和 HumanEval 上取得了具有競爭力的結(jié)果。此外,在這些評估中,Reka Flash 明顯優(yōu)于許多較大的模型(例如 Llama 2 70B、Grok-1、GPT-3.5)。

評估:多語言推理

Reka Flash 在超過 32 種語言(包括英語,德語,中文,日語,法語,韓語,西班牙語,意大利語,阿拉伯語等)的文本上進行了預(yù)訓(xùn)練,因此 Reka Flash 可以看做是一個強大的多語言模型。研究者比較了不同模型在多語言基準上的性能,包括多語言常識推理、因果推理和問答。結(jié)果表明,Reka Flash 在所有這些任務(wù)上均優(yōu)于 Llama-2 70B 和 Mixtral。

評估:視覺和視頻

此外,該研究還在多模態(tài)基準上對 Reka Flash 進行了評估,包括視覺問答(MMMU、VQA-v2)、視頻字幕(VATEX)和視頻問答(Perception Test)。結(jié)果表明 Reka Flash 在所有四個基準測試中都比 Gemini Pro 具有競爭力。

該研究還進行了一系列人工評估來評估基于 Reka Flash 的聊天模型。研究者考慮了兩種設(shè)置,1)純文本聊天模型和 2)多模態(tài)聊天模型。評估過程中他們按照 Askell 等人的方法計算 ELO 分數(shù)和總體勝率。

純文本聊天:研究者以 GPT-4、Claude 2.1 和 Gemini Pro(API 版本)等領(lǐng)先模型為基準。此外研究者還比較了 Reka Edge、Mistral 7B 和 Llama 2 7B 聊天模型的性能。

人工評估結(jié)果表明,Reka Flash 取得了具有競爭力的結(jié)果,優(yōu)于 GPT-3.5 Turbo、Claude、Mixtral 和 Gemini Pro。Reka Edge 領(lǐng)先于另外兩款 7B 模型,接近 Claude Instant 1.2 的性能。

評估:多模態(tài)

該研究還將 Reka Flash 與 GPT4-V、Gemini Pro、Llava-1.6、IDEFICS 80b 和 Adept Fuyu-8B 等多模態(tài)語言模型進行了比較。結(jié)果表明,Reka Flash 的性能優(yōu)于除 GPT4-V 之外的所有模型。Reka Edge 也取得了不錯的排名,超越了基于 Mistral 7B 的 Llava 1.6 7B,并接近 Gemini Pro 的性能。

7B 參數(shù)的 Reka Edge 模型

Reka Edge 是更為緊湊的 7B 模型,專為本地部署和延遲敏感應(yīng)用程序而設(shè)計。在語言評估任務(wù)上,該研究報告了其與類似規(guī)模模型(即 Mistral 7B 和 Llama-2 7B)的比較。結(jié)果表明,Reka Edge 在標準語言基準測試中優(yōu)于 Llama 2 7B 和 Mistral 7B。

總結(jié)

Reka 團隊表示他們旨在構(gòu)建最先進的多模態(tài)語言模型,隨著 Reka Flash 和 Reka Edge 的發(fā)布,他們 AI 藍圖中的最初里程碑已經(jīng)實現(xiàn)。大家可以期待他們接下來的研究。

參考鏈接:https://reka.ai/reka-flash-an-efficient-and-capable-multimodal-language-model/

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港