展會信息港展會大全

又是瘋狂的一周,全世界都“AI麻了”
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-19 16:56:56   瀏覽:4888次  

導(dǎo)讀:是因為「勞動節(jié)」嗎?全世界所有的公司,都選擇在 5 月第三周,將最新的 AI 產(chǎn)品和技術(shù),集中釋放。 喪心病狂的一周! 鋪墊了許久的「周一見」,OpenAI 用 GPT-4o 奪走了注意力。24 小時后的發(fā)布會上,谷歌也沒有「掉鏈子」,Veo 視頻模型、Project Astra、...

是因為「勞動節(jié)」嗎?全世界所有的公司,都選擇在 5 月第三周,將最新的 AI 產(chǎn)品和技術(shù),集中釋放。

喪心病狂的一周!

鋪墊了許久的「周一見」,OpenAI 用 GPT-4o 奪走了注意力。24 小時后的發(fā)布會上,谷歌也沒有「掉鏈子」,Veo 視頻模型、Project Astra、新版 AI 搜索都留下了驚艷的記憶點。

地表最強但風格迥異的兩場發(fā)布會,只在一點上達成共識電影《Her》一般的超強語音助手(GPT-4o 和 Project Astra),這也變相公布了 2024 年大模型賽道的競賽點GPT-4o 和 Astra 背后的多模態(tài)融合技術(shù)。

大洋彼岸的另一端,姍姍來遲的字節(jié)跳動發(fā)布了豆包大模型家族,騰訊終于交出了「GPTs」和大模型助手 App 的答卷。

今天看來,無論是「拖家?guī)Э凇沟拇髲S,還是「沒有包袱」的創(chuàng)業(yè)公司,產(chǎn)品形態(tài)都一再擴展:從聊天機器人,到 AI 搜索、「GPTs」、多模態(tài)語音助手.... 玩得越來越花。

不知道你麻沒麻,反正我們是幸福地麻了。

5 月 13 日(周一)

AI 化身/人形智能體正在快速演進:宇樹發(fā)布 Unitree G1 人形機器人

9.9 萬元起,遠低于行業(yè)售價

大語言模型出圈,讓可以實現(xiàn)具身智能的人形機器人火了。

2023 年 8 月,宇樹科技發(fā)布了人形機器人 H1,預(yù)售價為 9 萬美元(約合 65 萬元人民幣)。本周,宇樹推出的新版人形機器人 Unitree G1 將價格降到 9.9 萬元人民幣起,便宜了超 80%。

與第一代產(chǎn)品相比,Unitree G1 能力顯著提升:開瓶蓋、砸核桃、顛鍋、跑步、舞棍、自我蜷縮……在宇樹科技發(fā)布的產(chǎn)品演示視頻里,身體和雙腿能旋轉(zhuǎn)近 360°,Unitree G1 像人類一樣用機械雙臂靈活地完成一系列工作。

圖片來源:宇樹科技

開源閉源并進:零一萬物發(fā)布千億參數(shù) Yi-Large 模型

開源構(gòu)建生態(tài),閉源探索 AI 上限

零一萬物成立一周年之際,其千億參數(shù) Yi-Large 閉源模型正式亮相,在斯坦福最新的 AlpacaEval 2.0 達到全球大模型 Win Rate 第一。

同時,零一萬物將早先發(fā)布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級為 Yi-1.5 系列,每個版本達到同尺寸中 SOTA 性能最佳。

Yi 大模型 API 開放平臺 | 圖片來源:零一萬物

5 月 14 日(周二)

「Her」真的來了:「GPT-4o」將語音助手帶到了新高度

多模態(tài)融合模型,只是工程的進步嗎?

OpenAI 發(fā)布了新一代旗艦?zāi)P?GPT-4o,它可以讓人們在手機上與 ChatGPT 對話,就像他們與 Siri 和其他語音助手對話一樣。不同的是,ChatGPT 語音助手的理解能力有了質(zhì)的飛躍,還可以分析和討論它所看到的圖像或視頻,并能識別用戶說話時的不同情緒。

有了 GPT-4o 的加持,ChatGPT 可以根據(jù)你的想法引導(dǎo)你做數(shù)學(xué)題目、按照你的實時要求講一個睡前故事。OpenAI 稱 GPT-4o 是為了創(chuàng)建一個對音頻、圖像和文本有更深入、更自然理解的模型,這依舊是為了向 AGI 目標行進。

OpenAI 的發(fā)布,也在 AI 圈引起了廣泛討論。業(yè)界普遍認為,GPT-4o 的驚艷之處在于兩點:1)將語音交互延遲縮短到 300ms;2)端到端多模態(tài)原生大模型

P.S.: 留一個觀察作業(yè):GPT-4o 會顯著提升 ChatGPT 的日活和用戶粘性嗎?有了更高 AI 能力的智能助手,2016 年的百箱大戰(zhàn)會席卷重來?Siri 一樣的語音助手會成為入口級的必爭之地?

圖片來源:OpenAI

5 月 15 日(周三)

沒有一款產(chǎn)品沒有被 AI 改造:谷歌全面進入 Gemini 時代

Sora 尚且是科技巨頭的選做題,但多模態(tài)融合就是大模型公司的必做題。

提了 121 次 AI,谷歌 I/O 2024 開發(fā)者大會發(fā)布了一籮筐,從搜索到 Gmail、TPU,再到語音助手 Astra 和多模態(tài)視頻模型 Veo 等。

三個產(chǎn)品值得關(guān)注:

Project Astra 的多模態(tài) AI 助手。如果說 2023 年的競賽點是 Copilot,2024 年,賽點則進化為多模態(tài)融合的 Agent,背后是從 LLM(大語言模型)到 One-network-multimodality(一個框架下的多模態(tài)大模型)的技術(shù)路徑遷移,最終邁向跟通用的人工智能。

多模態(tài)語音助手正在與用戶實時對話|圖片來源:Google

Veo:Veo 可以根據(jù)文本、圖像和視頻提示創(chuàng)建 AI 生成的視頻,并且即將登陸 YouTube,幫助創(chuàng)作者快速制作更專業(yè)品質(zhì)的視頻。AI 搜索:谷歌展示了如何進一步將人工智能集成到搜索中,從而實現(xiàn)更復(fù)雜形式的研究和規(guī)劃(例如,根據(jù)查詢生成三天的素食計劃)。

圖片來源:谷歌黑板報

大模型之字節(jié)打法:沒準備好就不發(fā),否則一次發(fā)布 9 個模型

模型發(fā)得晚,應(yīng)用沒少做,怎么想的?

字節(jié)跳動自研大模型豆包大模型(原云雀大模型)家族帶著 9 個模型,首次對外亮相。字節(jié)跳動方面稱,之所以是這 9 個模型,是根據(jù)后臺模型調(diào)用量和需求而來,做了最強通用模型、性價比之癬和場景優(yōu)化模型。

豆包大模型的推理價格成為一大亮點,其主力模型在企業(yè)市場的定價只有 0.0008 元/千 Tokens,0.8 厘就能處理 1500 多個漢字。

值得注意的是,字節(jié)發(fā)布會沒有介紹模型參數(shù)、數(shù)據(jù)和語料,甚至沒有給出豆包模型的評測數(shù)據(jù),而是直接把模型能力在場景里做了垂直細分。字節(jié)可能是在建立用戶反愧數(shù)據(jù)反饋,從而做更精準地場景和服務(wù)。根據(jù)不同的數(shù)據(jù)鏈反饋,決定產(chǎn)品或者模型的下一步動作。

過去大半年,字節(jié)跳動推出的 AI 應(yīng)用幾乎涵蓋了所有熱門賽道,「豆包」、AI 應(yīng)用開發(fā)平臺「扣子」、互動娛樂應(yīng)用「貓箱」,以及星繪、即夢等。

圖片來源:字節(jié)跳動

大模型隊伍的隱秘玩家:DeepSeek Chat 通過大模型備案

降成本!我?guī)ь^!

國內(nèi)擁有超過 1 萬枚 GPU 的企業(yè)不超過 5 家,幻方這家千億規(guī)模的量化基金就是其中之一。意外地提前壓中大模型的入場券囤卡,但幻方做大模型是認真的。

今年 1 月以來,幻方旗下公司的 DeepSeek 模型被頻繁作為開源社區(qū)里討論的對標對象。本月,幻方開源了第二代 MoE 模型:DeepSeek-V2,主打參數(shù)更多、能力更強、成本更低。其在能力逼近第一梯隊閉源模型的前提下,推理成本降到了 1 塊錢 per million token,也就是說,成本是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。而且,DeepSeek v2 還有利潤。

DeepSeek v2 發(fā)布后,引來了大模型價格戰(zhàn),智譜、面壁、字節(jié)相繼宣布了模型推理價格降低。這背后是模型架構(gòu)、系統(tǒng)、工程的一系列進步。你有沒有發(fā)現(xiàn),OpenAI 的價格也降低了 10 倍不止。

Anyway,現(xiàn)在,DeepSeek-V2 已經(jīng)通過備案,你可以聯(lián)網(wǎng)體驗,隱秘玩家的隱秘實力究竟如何?

圖片來源:DeepSeek

5 月 16 日(周四)

文生圖、文生視頻:DiT 架構(gòu)正在被廣泛擁抱

開源力量大

騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平臺及 Github 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費商用。

混元文生圖大模型是中文原生的 DiT(Diffusion Models with transformer)架構(gòu)文生圖開源模型,這也是 Sora 和 Stable Diffusion 3 的同款架構(gòu)和關(guān)鍵技術(shù),是一種基于 Transformer 架構(gòu)的擴散模型。過去,視覺生成擴散模型主要基于 U-Net 架構(gòu),但隨著參數(shù)量的提升,基于 Transformer 架構(gòu)的擴散模型展現(xiàn)出了更好的擴展性,有助于進一步提升模型的生成質(zhì)量及效率。

5 月 17 日(周五)

「GPTs」和大模型助手 App:大廠必備,騰訊版來了

已接入 600 多個騰訊內(nèi)部業(yè)務(wù)和場景

本周,騰訊公布了大模型研發(fā)、應(yīng)用產(chǎn)品的系列進展。

騰訊混元大模型升級,推出在質(zhì)量和成本上有不同特點的三個模型版本,其內(nèi)部已經(jīng)有 600 多個業(yè)務(wù)接入大模型。

在工具層,發(fā)布了騰訊云大模型知識引擎、圖像創(chuàng)作引擎、視頻創(chuàng)作引擎三大 PaaS 工具鏈,簡化數(shù)據(jù)接入、模型精調(diào)、應(yīng)用開發(fā)流程。

值得注意的是,騰訊終于推出了自家「GPTs」元器,用戶可以使用騰訊官方的插件和知識庫直接創(chuàng)建智能體。開發(fā)完成后,將智能體一鍵分發(fā)到 QQ、微信客服、騰訊云等渠道上。騰訊還將于月底推出基于混元大模型的全新助手 App「騰訊元寶」。

騰訊元器官網(wǎng)開放申請試用

寫在最后:

本周,與上述 AI 產(chǎn)品、技術(shù)發(fā)布一同進展的,還有各大 AI 公司的「水下操作」。

什么都無法阻擋 Scaling Law 的腳步:

主導(dǎo)超級對齊的 OpenAI 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Ilya Sutskever 在社交平臺 X 上宣布,他將離開公司。隨后,超級對齊團隊負責人之一 Jan Leike 也宣布離職,并發(fā)推稱,超級對齊團隊在公司內(nèi)部被邊緣化,無法獲取計算資源做研究。AWS CEO Adam Selipsky 離職,或由于 AWS 錯失 AI 投資和研發(fā)的最佳時機。微軟宣布將在法國投資 40 億歐元,大部分將集中在 AI 領(lǐng)域馬斯克的 xAI 斥資近 100 億美元租用 Oracle 人工智能服務(wù)器

AI 應(yīng)用正在拓展既有想象力:

企業(yè)級可用大模型的 Anthropic 從 Instagram 挖來了 CTO 做產(chǎn)品,或進軍 ToC APP。Meta Platforms 正在開發(fā)的帶有攝像頭的人工智能耳機項目,攝像頭將使耳機能夠識別佩戴者周圍物理世界中的物體。Sam Altman 最近也被曝和前蘋果設(shè)計大師 Jony Ive 正在探索開發(fā)帶有攝像頭的 AI 耳機,「很快你的耳朵里也會長出眼睛」。

微軟 Build 大會官網(wǎng)|圖片來源:微軟

下周,北京時間 5 月 22 日凌晨,AI 的另一大玩家微軟,即將在西雅圖舉辦 Hybrid:Microsoft Build 大會。官方網(wǎng)頁上大大的「How will AI shape your future?」,強調(diào)了本次大會的主題。

金錢永不眠,AI 也是。

贊助本站

人工智能實驗室

相關(guān)熱詞: 又是 瘋狂 一周 全世界 麻了

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港