展會信息港展會大全

Gemini一眼識破Sora視頻是AI生成?百萬token上下文能力碾壓GPT-4
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-02-20 19:41:34   瀏覽:5938次  

導讀:新智元報道 編輯:潤 好困 【新智元導讀】Gemini 1.5的真實水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新推出的大模型到底有多強的實力。 當谷歌Gemini 1.5 ,遇上搶了它頭條的「罪魁禍首」Sora會怎么樣?...

新智元報道

編輯:潤 好困

【新智元導讀】Gemini 1.5的真實水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新推出的大模型到底有多強的實力。

當谷歌Gemini 1.5

,遇上搶了它頭條的「罪魁禍首」Sora會怎么樣?

這兩天,拿到內(nèi)測資格的AI圈大佬們,紛紛給廣大網(wǎng)友來了一波在線測試。

這不,Gabor Cselle就讓Gemini 1.5去分析了那個著名的櫻花雪景視頻。

對此,Gemini 1.5給出的評價是:

視頻呈現(xiàn)的是日本一條覆蓋著雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個視頻可能是AI制作的。

首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時天氣溫暖,不會有雪。

其次,雪以一種過于規(guī)律的方式落下,這與現(xiàn)實中雪的降落方式不符。

再者,盡管正下著大雪,視頻中的人們卻沒有穿戴任何冬季服裝。

總而言之,雖然視頻的視覺效果令人贊嘆,但這些問題表明它并非真實場景所拍。

不得不說,就分析視頻AI痕跡的準確度來看,Gemini的回答非常切題,說明它的識別和理解能力確實非常出色。

無獨有偶,The Rundown AI創(chuàng)始人Rowan Cheung,則測試了貓在叢林里漫步的視頻。

對此,Gemini 1.5給出的評價是:

這段視頻很有可能是由人工智能(AI)創(chuàng)造的,但要確定地說還是有些困難。

一些細節(jié)似乎表明這段視頻是真實的,例如貓的動作自然流暢,光影效果也相當逼真。

然而,也有一些細節(jié)讓人懷疑,比如貓的眼睛異常放大,毛皮的質(zhì)感也過于完美無瑕。

最終,視頻是真是假,還是要留給觀眾自己去判斷。

確實Sora的視頻生成已經(jīng)到達了真假難辨的地步,而且Gemini的分析也基本到位,有理有據(jù)。

不過,需要注意的是,在這兩位大佬的Prompt里,要么明示了視頻就是AI生成的,要么暗示了兩者可能有所聯(lián)系。

1,000,000 token上下文能干啥?

眾所周知,模型的上下文窗口越大,它處理給定提示時能夠接納的信息就越多這就使得它的輸出更加連貫、相關和實用。

如今,谷歌成功把這個領域「卷」到了100萬token(極限為1000萬token),創(chuàng)下了最長上下文窗口的紀錄。

在這個基礎之上,很多之前難以想象的應用都成為了現(xiàn)實。

比如,一口氣處理1小時的視頻、11小時的音頻、超過30,000行的代碼庫,或是超過700,000個單詞的文本等等。

于是,一大波千奇百怪的實測就撲面而來:

比如,前文提到的Rowan Cheung,就用了很多長視頻來對Gemini 1.5的理解能力進行了測試。

首先他上傳了今年整個NBA扣籃大賽,問哪一個扣籃得分最高。

Gemini 1.5非常能夠從很長的視頻中找到了那個獲得50分滿分的扣籃,并清楚地描述了扣籃的細節(jié)!

Mac McClung的最后一記扣籃獲得了當晚的最高分50 分滿分。他跳過兩人,將球輕敲籃板后板,然后用右手完成扣籃。

然后他又讓Gemini 1.5理解并比較《星際穿越》和《星際探索》的完整電影腳本。

讓Gemini 1.5 去理解比較兩部電影的完整文字內(nèi)容,來幫助他決定應該看哪部電影。

Gemini 1.5最后輸出到:

《星際探索》:歸根結底,這是一個關于個人成長和人與人之間聯(lián)系的重要性的故事,表明即使面對宇宙的冷漠,找到自身的意義和與他人的聯(lián)系也是至關重要的。

《星際穿越》:更加樂觀和充滿希望,強調(diào)了人類智慧的力量,以及面對看似難以克服的挑戰(zhàn)時堅持不懈的重要性。

接下來該看哪部電影取決于你的個人喜好:

如果您正在尋找一個更加內(nèi)盛以人物為驅(qū)動力、注重情感主題的故事,《星際探索》可能是一個不錯的選擇。

如果你更喜歡史詩般的動作冒險,關注人類的生存,那么《星際穿越》可能更有吸引力。

兩部電影都為太空探索和人類經(jīng)歷提供了獨特而發(fā)人深省的視角。

然后,他又讓Gemini將一段英語翻譯成一個全世界不超過2000人使用的語言(薩特蘭語)。

Gemini 1.5經(jīng)過推理之后將英語小冊子的所有內(nèi)容很快翻譯成薩特蘭語。

這個過程確實碉堡了。

然后他再讓Gemini查找、理解長論文中的一個圖標的含義。

Gemini從DeepMind的Gemini 1.5 Pro論文中提雀表 8」并解釋了這個圖表的含義。

表8的主要的內(nèi)容是:

與Gemini 1.0 Pro相比,Gemini 1.5 Pro在所有核心文本功能方面都有顯著改進。這表明該模型的能力有了明顯的提升。

Gemini 1.5 Pro在許多基準測試中的表現(xiàn)與Gemini 1.0 Ultra相當,甚至超過了后者,盡管所需的訓練計算量更少。這凸顯了1.5 Pro模型效率的提高。

Gemini 1.5 Pro在不同的任務和語言中都表現(xiàn)出很強的性能,這表明它具有很好的泛化能力。

總之,表8提供的證據(jù)表明,Gemini 1.5 Pro不僅在長文本理解方面表現(xiàn)出色,而且還保持甚至改進了其前代產(chǎn)品的核心文本功能。這使它成為一個功能強大、用途廣泛的模型,適用于各種基于文本的任務。

最后,他讓Gemini理解整個《星際穿越》的劇本內(nèi)容,再把劇本中最高潮的部分的臺詞提取出來。

Gemini 1.5輸出了《星際穿越》文字記錄中最鼓舞人心的3句臺詞。

1. 「人類誕生于地球,但我們的命運遠不止于此。」 Cooper

這句話深刻地表達了人類探索未知、超越現(xiàn)狀的不屈不撓的精神。它提醒我們,我們的潛力不受當前所處環(huán)境的限制,我們完全有能力克服挑戰(zhàn),追求更高的目標。

2. 「愛是唯一能跨越時間和空間,觸及我們心靈的力量! Brand

這句話揭示了愛的強大能力,它能夠跨越遙遠的距離,甚至是時間的界限,將我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中為我們指明方向,帶給我們希望。

3. 「曾經(jīng),我們仰望星空,夢想著自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠大理想。」 Cooper

這句話是對好奇心、追求和雄心壯志的重要性的深情提醒。它對比了過去人類滿懷希望地探索星辰的時代,與如今忙于應對日常挑戰(zhàn)、失去對未來的憧憬的現(xiàn)狀。它激勵我們重新尋找那份對未知的好奇和對更美好未來的追求。

Gemini 1.5性能極限測試

隨后,Rowan Cheung又對Gemini 1.5進行了一些更加極限的測試:

他讓Gemini讀取了整部《哈利波特與魔法石》(共741,028個Token)。

Prompt:「請按照時間順序列出書中最重要的50個(或100個)思想或段落,并對它們的重要性進行1到10的評分!

完成這個任務耗時4分鐘。

他又輸入了梅西在對陣赫塔菲比賽中的經(jīng)典單刀進球視頻。

Prompt:「這個進球為什么如此著名?」

雖然沒有解釋這個進球為什么那么著名,但它成功識別出了梅西,但是把赫塔菲的球員識別成了皇馬球員。

這張圖片之所以出名,是因為它捕捉到了有史以來最偉大的足球運動員之一梅西在與巴塞羅那最大的對手之一皇家馬德里比賽時的場景。梅西的球技和運動能力在這幅圖片上得到了充分展示,視覺效果極佳。

他還進行了難度很高的數(shù)學和邏輯推理測試。

Prompt:「當一個點P在垂直線上移動時,該點在時間t(t ≥ 0)的速度v(t)與加速度a(t)滿足以下條件:(a) 當0 ≤ t ≤ 2時,v(t) = 2t^3 - 8t。(b) 當t ≥ 2時,a(t) = 6t + 4。請計算點P從時間t = 0到t = 3移動的總距離!

不過,大佬表示,自己并不確定這里給出的答案是否正確,但據(jù)網(wǎng)友評論的說法,這個答案是錯誤的。

他又讓Gemini 1.5造10個句子,每個句子都以「Apple」結尾。

這個任務是檢驗聊天機器人能力的一個很常用的方法。

Prompt:「請編寫10個句尾為『apple』的句子!

最后,Gemini 1.5完全沒能完成這項挑戰(zhàn)。

于是他讓GPT-4也來跑了一下這個問題,結果GPT-4也沒給出正確的結果。

他又把《煉金術士》這本書的PDF全文輸入到了Gemini 1.5中,目的是獲取書中主人公的形象描述。

接著,他又把這個描述在DALLE 3中生成了圖片。

Prompt:「讀完整本書后,幫我構思一個基于主角形象的描述,我想把它用在AI圖像生成器里。」

1000萬極限海底撈針幾乎全綠

最后,我們來看看Gemini 1.5 Pro在多模態(tài)海底撈針測試中的成績。

對于文本處理,Gemini 1.5 Pro在處理高達530,000 token的文本時,能夠?qū)崿F(xiàn)100%的檢索完整性,在處理100萬token的文本時達到99.7%的檢索完整性。

甚至在處理高達1000萬token的文本時,檢索準確性仍然高達99.2%。

在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時的音頻資料中,100%成功檢索到各種隱藏的音頻片段。

在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時的視頻內(nèi)容中,100%成功檢索到各種隱藏的視覺元素。

此外,谷歌研究人員還開發(fā)了一個更通用的版本的「大海撈針」測試。

在這個測試中,模型需要在一定的文本范圍內(nèi)檢索到100個不同的特定信息片段。

在這個測試中,Gemini 1.5 Pro在較短的文本長度上的性能超過了GPT-4-Turbo,并且在整個100萬token的范圍內(nèi)保持了相對穩(wěn)定的表現(xiàn)

與之對比鮮明的是,GPT-4 Turbo的性能則飛速下降,且無法處理超過128,000 token的文本,表現(xiàn)慘烈。

參考資料:

https://twitter.com/rowancheung/status/1759280384930459941

https://twitter.com/gabor/status/1758658652263875023

https://twitter.com/rowancheung/status/1759616797328998588

贊助本站

人工智能實驗室
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港