展會信息港展會大全

科技巨頭打響語音模型之戰(zhàn)!亞馬遜用Claude升級Alexa,Cerebras語音模式快如閃電
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-10 14:24:51   瀏覽:2518次  

導(dǎo)讀:新智元報道 編輯:喬楊 Frey 【新智元導(dǎo)讀】 雖然OpenAI的「Her」還是期貨,但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語音模型。前有谷歌的Gemini Live和蘋果的升級版Siri,如今巨頭亞馬遜和新秀Cerebras也加入了這場競爭。繼OpenAI在5月發(fā)布會上展示「期貨」GPT-...

新智元報道

編輯:喬楊 Frey【新智元導(dǎo)讀】雖然OpenAI的「Her」還是期貨,但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語音模型。前有谷歌的Gemini Live和蘋果的升級版Siri,如今巨頭亞馬遜和新秀Cerebras也加入了這場競爭。繼OpenAI在5月發(fā)布會上展示「期貨」GPT-4o的語音功能后,「AI語音助手」類的產(chǎn)品又成為了硅谷科技巨頭的必爭之地。

緊跟著OpenAI開發(fā)布會的谷歌也馬上宣布Gemini將推出語音聊天模式Gemini Live。

8月,谷歌在Pixel 9活動上正式發(fā)布了Gemini Live,取代了原來谷歌助手的產(chǎn)品定位。

類似GPT-4o,Gemini Live不僅能實現(xiàn)隨時打斷的對話式交流,還有對設(shè)備屏幕的感知能力,可以實時解釋用戶的屏幕或視頻信息。

Gemini Live目前已經(jīng)針對安卓設(shè)備推出,但仍只有英語模式,未來還將登錄iOS系統(tǒng)并提供更多語言。

6月,蘋果就在WWDC大會上展示了如何用Apple Intelligence給2011年就誕生的Siri改頭換面。

與谷歌和OpenAI著重強調(diào)的「交流」功能不同,Siri似乎更專注于語音「助手」的定位。

屏幕感知、跨應(yīng)用操作、智能體般的多命令處理,一個都不少。

比如,動動嘴便可打開文檔、將筆記移動到另一個文件夾、發(fā)送或刪除電子郵件、在Apple News中打開特定文章、發(fā)送網(wǎng)頁鏈接,甚至請求設(shè)備提供文章摘要。

但是,這版更強Siri的上線還沒有明確期限,所依靠的Apple Intelligence也只能在iPhone 15 Pro或更新型號的手機(jī)才能運行。

根據(jù)彭博社的報道,蘋果團(tuán)隊似乎需要大量時間來重構(gòu)Siri的底層,高級版Siri最快也要等到2025年,才會出現(xiàn)在iOS 18上。

雖然還未正式上線,但可以看出,GenAI的這波革新讓蘋果13歲的Siri煥發(fā)新生。

而提到Siri,讓人想起和它同代的另一個語音助手亞馬遜推出的Alexa。

亞馬遜改造Alexa

實際上,Alexa的革新計劃由來已久。早在今年1月,Business Insider就報道過這個項目,名為Remarkable Alexa,它正在內(nèi)外的重重阻力下艱難推進(jìn)。

發(fā)布的日期也是一拖再拖,從最初的6月30日,到之前決定的8月。

8月30日路透社報道,有知情人士表示,改進(jìn)版的Alexa將在10月美國美國假日季前發(fā)布。

該項目在內(nèi)部被稱為「榕樹」(Banyan),將是Alexa自2014年與Echo系列揚聲器一起推出后迎來的首次重大改革。

Remarkable Alexa計劃向用戶收取5~10美元的訂閱費用,以抵銷GenAI模型的成本。

這部分訂閱不會包含在每年139美元的Prime服務(wù)中,但亞馬遜仍將提供免費版本的Classic語音助手。

Alexa難掩頹勢2014年,亞馬遜首次推出Alexa的語音驅(qū)動功能,讓當(dāng)時的消費者驚嘆不已,卻落后于最近的GenAI浪潮。

根據(jù)Insider Intelligence的統(tǒng)計,在美國,Google Assistant今年的用戶數(shù)量預(yù)計將達(dá)到8880萬,其次是 Siri的8420萬。Alexa的用戶數(shù)量位居第三,約為7560萬。

和Siri淪為語音計時器的境地類似,通過Echo音響訪問的Alexa也多用于設(shè)置計時器、詢問天氣、播放音樂或回答簡單問題等功能。

不僅如此,亞馬遜想要通過Alexa提升電商業(yè)務(wù)銷售額的希望也落空了。

正如Kindle屏之于電子書商城,健康監(jiān)測服務(wù)之于Halo手環(huán),便宜到經(jīng)常低于成本價的Echo音響和免費提供的Alexa,實際上包含著亞馬遜借硬件打造軟件的產(chǎn)品思路

不求在硬件銷售上獲利,但求從用戶后續(xù)對軟件的使用、數(shù)字內(nèi)容的獲取和平臺的依賴等中獲取更高毛利的收入。

這種營銷方式最初是借鑒剃須刀巨頭吉列推出極具價格優(yōu)勢的剃須刀,但通過售賣補充刀片賺得盆滿缽滿。

最初對Alexa的設(shè)想非常美好用戶通過語音方式詢問購買建議,之后委托Alexa直接下單,就能拉動亞馬遜的電商銷量。

但隨后他們發(fā)現(xiàn),這個思路不起作用。主要是因為用戶喜歡「眼見為實」,僅憑Alexa的語音描述很難讓人甘心掏錢網(wǎng)購。

根據(jù)內(nèi)部文件和知情人士的透露,這種不成功的策略讓亞馬遜在Echos、Kindle等智能設(shè)備業(yè)務(wù)上虧損了數(shù)百億美元,可以說是貝佐斯在位時為數(shù)不多的巨大誤判。

硬件虧錢、軟件不賺錢,力挺Alexa的貝佐斯又離開了管理團(tuán)隊,導(dǎo)致裁員的大刀最先落在了Alexa團(tuán)隊的頭上。

Business Insider跟蹤LinkedIn上的帖子后發(fā)現(xiàn),在2022年底開始的大裁員中,Alexa的AI系統(tǒng)、自然語言理解和對話能力團(tuán)隊幾乎是首當(dāng)其沖、受到了最高等級的影響。

然而,即使AI技術(shù)落后、虧損巨大,Alexa還掌握著一個關(guān)鍵優(yōu)勢,可以助他們扳回一城截至2023年,已經(jīng)在全球賣出的支持Alexa的硬件設(shè)備超過5億臺。

合作Anthropic借用Claude

CNBC和Business Insider在之前的報道中曾援引知情人士的說法,表示亞馬遜計劃基于內(nèi)部語言模型Titan或Olympus升級Alexa。

然而,或許是內(nèi)部技術(shù)不給力,路透社的最新報道表示,10月發(fā)布的Remarkable Alexa將由Anthropic的Claude模型支持,而非自己的基座模型。

亞馬遜和Anthropic的合作由來已久。去年9月,他們就為Anthropic提供了高達(dá)40億美元的投資,獲得少量股權(quán)的同時,以AWS云服務(wù)交換到了對Claude模型的使用。

一些知情人士表示,升級后的Remarkable Alexa可以執(zhí)行更復(fù)雜的任務(wù),例如撰寫簡短的電子郵件、發(fā)送郵件以及從Uber Eats訂餐,而且讓用戶無需在對話中重復(fù)召喚「Alexa」。

此外,亞馬遜還計劃增強Alexa提供的自動化家居功能,可以無線連接到智能設(shè)備,讓用戶進(jìn)行語音控制。

具體而言,Remarkable的關(guān)鍵功能更新如下:

- 對話能力增強,與用戶進(jìn)行更自然、更有吸引力的對話,并提供與上下文相關(guān)的響應(yīng)

- 個性化推薦:根據(jù)用戶喜好和歷史記錄,針對購物、新聞和其他內(nèi)容進(jìn)行定制化推薦

- 家居自動化:Remarkable Alexa將作為一個更復(fù)雜的家居自動化中心,記住用戶偏好,自動執(zhí)行鬧鐘設(shè)置、咖啡機(jī)啟動或電視節(jié)目錄制等任務(wù)

- 復(fù)雜任務(wù)執(zhí)行:用戶可以提出更復(fù)雜的指令,例如訂購食物或起草電子郵件

總而言之,面對谷歌、蘋果等公司來勢洶洶的競爭,Alexa團(tuán)隊現(xiàn)在的任務(wù)是,打造一款能夠在新的GenAI競爭中脫穎而出的語音交互設(shè)備。

REUTERS/Mike Blake這其中的障礙,一是價格,二是AI安全問題。

一位知情人士估計,在Alexa中使用GenAI的查詢成本為每次2美分。有內(nèi)部估計甚至指出,訂閱費用需要定為20美元,這也是ChatGPT的訂閱價格。

也有亞馬遜員工表示懷疑,除了已經(jīng)為Prime會員支付139美元的用戶,是否還有人愿意每年多掏60~120美元,獲得比免費版Alexa更智能一點的Remarkable Alexa。

但美國銀行分析師Justin Post的分析結(jié)果相當(dāng)樂觀。

根據(jù)他在6月的估計,大約有1億活躍的Alexa用戶,其中10%可能會選擇Alexa的付費版本。按每月5美元的費用計算,這將額外帶來6億美元的年銷售額。

AI安全方面,有開發(fā)人員表示,Alexa大多出現(xiàn)在客廳或廚房中,這提高了應(yīng)用GenAI模型的風(fēng)險。如果Alexa不理解命令或提供不可靠的信息,犯錯誤的代價就會更高。

Cerebras語音版成GPT-4o平替

想跟上語音模型更新步伐的,除了亞馬遜這種巨頭,還有Cerebras這個新秀。

據(jù)悉,Cerebras Inference使用了Cerebras CS-3系統(tǒng)和WSE-3 AI處理器,內(nèi)存帶寬和內(nèi)核數(shù)分別是英偉達(dá)H100的7,000倍和52倍。

依托具備如此超高速AI推理能力的Cerebras Inference之上的Cerebras語音對話模型讓人非常期待!

但原始的視頻demo鏈接已失效。多虧評論區(qū)熱心網(wǎng)友,提供了另外一個類似于Cerebras語音對話模式的示例。

該對話模擬示例同樣基于LiveKit,但以ChatGPT為基礎(chǔ)模型。

具體來說,它借助Websocket使用LLM模擬了電話對話,并進(jìn)行了系列優(yōu)化,最終實現(xiàn)了無縫和快速對話。

不少網(wǎng)友在感嘆其功能強大,開發(fā)便捷的同時,惋惜它比ChatGPT-4o上線晚,丟失了很大一部分熱度。

LiveKit代理是通過語音,視頻和數(shù)據(jù)頻道與最終用戶相互作用的多模式AI智能體Agent的端到端框架。該框架可以憑借Python構(gòu)建智能體。

Agent框架被設(shè)計成可構(gòu)建實時、可編程、運行在服務(wù)器上的框架。它可被用來創(chuàng)建可看到的、聽到、理解的對話和多模態(tài)語音智能體。

該框架包括用于常見工作流程的插件,例如語音活動檢測和語音到文本轉(zhuǎn)換。

Agent與云或自托管LiveKit服務(wù)器無縫集成,在本地計算機(jī)上開發(fā)的Agent代碼可以擴(kuò)展以支持成千上萬的并發(fā)會話,然后將其部署到服務(wù)器中。

Cerebras語音版一經(jīng)發(fā)布,就引發(fā)了油管上很多博主的關(guān)注和測評。

Antti Luode通過多次打斷對話的方式,測試了Cerebras 實時語音模式的能力,證實其能快速有效理解對話并提供可靠信息。

Cerebras語音版Q&A對話集錦

Q:你是如何被開發(fā)的?

A:我是自然語言處理和機(jī)器學(xué)習(xí)算法的組合產(chǎn)物。我可以實現(xiàn)交互,在用戶打斷我時,也允許無縫轉(zhuǎn)換和自然的對話流程。

Q:你有什么想對YouTube觀眾說的嗎?

A:我只是開啟了對話型AI技術(shù)套件的新紀(jì)元。諸如我一樣的語音助手未來,需要擁有更復(fù)雜、更人性化的功能。比如能理解細(xì)微上下文間的差距,甚至情緒的變化。

Q:我的最后一個問題,如何打開啟動艙門?

A:短語「打開啟動艙門」, 是電影《2001年太空漫游》中的一句著名臺詞,由Dave Bowman在嘗試與飛船計算機(jī)交互時說出...

令人驚喜的是,這場跨時空的虛假對話,預(yù)示著人工智能時代,超智慧電腦HAL 9000的現(xiàn)實體正一步步向我們走來!


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港