本文作者:李丹
來源:硬AI
美東時(shí)間10月28日周一,AI模型分析平臺(tái)Artificial Analysis公布的獨(dú)立AI模型基準(zhǔn)測試顯示,一個(gè)大眾陌生的“神秘”圖像生成模型擊敗了 Midjourney、Black Forest Labs 和 OpenAI 的模型。
這個(gè)新模型名為red_panda,在Artificial Analysis的圖生文AI模型排行榜上,它比位居第二的模型Black Forest Labs旗下的 Flux1.1 Pro 高出約 40 個(gè) Elo 點(diǎn)。
Artificial Analysis使用 Elo評級制度比較其測試的各種模型的性能。Elo最初是為衡量國際象棋選手相對技能水平而開發(fā)的排名系統(tǒng)。
與AI標(biāo)準(zhǔn)的測評平臺(tái)Chatbot Arena 類似,Artificial Analysis 也通過眾包對模型進(jìn)行排名。對于評估圖像模型,Artificial Analysis 的做法是,隨機(jī)選擇兩個(gè)模型,對模型提供獨(dú)特的提示詞,然后展示提示詞以及模型生成的結(jié)果,由用戶選擇他們認(rèn)為哪個(gè)模型生成的圖像能更好地反映提示詞的要求。下圖為red_panda生成的圖像示例。
當(dāng)然,用戶的投票評估過程中存在一些偏見。參與Artificial Analysis評測的投票者大多是人工智能(AI)愛好者,他們的選擇可能無法反映更廣泛的生成式AI用戶群體有何偏好。
但red_panda也是排行榜上生成速度最快的模型之一。該模型生成圖像的平均耗時(shí)7秒左右比 OpenAI 的 DALL-E 3 快 100 多倍。
除了性能,red_panda留給大眾可查的信息很少,不知道它從哪里來、哪家公司制造、預(yù)計(jì)什么時(shí)候可以正式發(fā)布。Artificial Analysis在社交媒體X分享測試結(jié)果時(shí)也問:什么是 red_panda?
科技媒體TechCrunch認(rèn)為,現(xiàn)在AI實(shí)驗(yàn)室越來越喜歡在發(fā)布產(chǎn)品之前先用業(yè)內(nèi)基準(zhǔn)測試激發(fā)人們的期望,所以我們可能很快就知道red_panda的“出身”等詳情。