當(dāng)前位置：人工智能實驗室> 語音識別 > 科技巨頭打響語音模型之戰(zhàn)！亞馬遜用Claude升級Alexa，Cerebras語音模式快如閃電

科技巨頭打響語音模型之戰(zhàn)！亞馬遜用Claude升級Alexa，Cerebras語音模式快如閃電
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-10 14:24:51 瀏覽：2518次

導(dǎo)讀：新智元報道編輯：喬楊 Frey 【新智元導(dǎo)讀】雖然OpenAI的「Her」還是期貨，但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語音模型。前有谷歌的Gemini Live和蘋果的升級版Siri，如今巨頭亞馬遜和新秀Cerebras也加入了這場競爭。繼OpenAI在5月發(fā)布會上展示「期貨」GPT-...

新智元報道

編輯：喬楊 Frey【新智元導(dǎo)讀】雖然OpenAI的「Her」還是期貨，但硅谷的科技巨頭們已經(jīng)開始相繼發(fā)力語音模型。前有谷歌的Gemini Live和蘋果的升級版Siri，如今巨頭亞馬遜和新秀Cerebras也加入了這場競爭。繼OpenAI在5月發(fā)布會上展示「期貨」GPT-4o的語音功能后，「AI語音助手」類的產(chǎn)品又成為了硅谷科技巨頭的必爭之地。

緊跟著OpenAI開發(fā)布會的谷歌也馬上宣布Gemini將推出語音聊天模式Gemini Live。

8月，谷歌在Pixel 9活動上正式發(fā)布了Gemini Live，取代了原來谷歌助手的產(chǎn)品定位。

類似GPT-4o，Gemini Live不僅能實現(xiàn)隨時打斷的對話式交流，還有對設(shè)備屏幕的感知能力，可以實時解釋用戶的屏幕或視頻信息。

Gemini Live目前已經(jīng)針對安卓設(shè)備推出，但仍只有英語模式，未來還將登錄iOS系統(tǒng)并提供更多語言。

6月，蘋果就在WWDC大會上展示了如何用Apple Intelligence給2011年就誕生的Siri改頭換面。

與谷歌和OpenAI著重強調(diào)的「交流」功能不同，Siri似乎更專注于語音「助手」的定位。

屏幕感知、跨應(yīng)用操作、智能體般的多命令處理，一個都不少。

比如，動動嘴便可打開文檔、將筆記移動到另一個文件夾、發(fā)送或刪除電子郵件、在Apple News中打開特定文章、發(fā)送網(wǎng)頁鏈接，甚至請求設(shè)備提供文章摘要。

但是，這版更強Siri的上線還沒有明確期限，所依靠的Apple Intelligence也只能在iPhone 15 Pro或更新型號的手機(jī)才能運行。

根據(jù)彭博社的報道，蘋果團(tuán)隊似乎需要大量時間來重構(gòu)Siri的底層，高級版Siri最快也要等到2025年，才會出現(xiàn)在iOS 18上。

雖然還未正式上線，但可以看出，GenAI的這波革新讓蘋果13歲的Siri煥發(fā)新生。

而提到Siri，讓人想起和它同代的另一個語音助手亞馬遜推出的Alexa。

亞馬遜改造Alexa

實際上，Alexa的革新計劃由來已久。早在今年1月，Business Insider就報道過這個項目，名為Remarkable Alexa，它正在內(nèi)外的重重阻力下艱難推進(jìn)。

發(fā)布的日期也是一拖再拖，從最初的6月30日，到之前決定的8月。

8月30日路透社報道，有知情人士表示，改進(jìn)版的Alexa將在10月美國美國假日季前發(fā)布。

該項目在內(nèi)部被稱為「榕樹」（Banyan），將是Alexa自2014年與Echo系列揚聲器一起推出后迎來的首次重大改革。

Remarkable Alexa計劃向用戶收取5～10美元的訂閱費用，以抵銷GenAI模型的成本。

這部分訂閱不會包含在每年139美元的Prime服務(wù)中，但亞馬遜仍將提供免費版本的Classic語音助手。

Alexa難掩頹勢2014年，亞馬遜首次推出Alexa的語音驅(qū)動功能，讓當(dāng)時的消費者驚嘆不已，卻落后于最近的GenAI浪潮。

根據(jù)Insider Intelligence的統(tǒng)計，在美國，Google Assistant今年的用戶數(shù)量預(yù)計將達(dá)到8880萬，其次是 Siri的8420萬。Alexa的用戶數(shù)量位居第三，約為7560萬。

和Siri淪為語音計時器的境地類似，通過Echo音響訪問的Alexa也多用于設(shè)置計時器、詢問天氣、播放音樂或回答簡單問題等功能。

不僅如此，亞馬遜想要通過Alexa提升電商業(yè)務(wù)銷售額的希望也落空了。

正如Kindle屏之于電子書商城，健康監(jiān)測服務(wù)之于Halo手環(huán)，便宜到經(jīng)常低于成本價的Echo音響和免費提供的Alexa，實際上包含著亞馬遜借硬件打造軟件的產(chǎn)品思路

不求在硬件銷售上獲利，但求從用戶后續(xù)對軟件的使用、數(shù)字內(nèi)容的獲取和平臺的依賴等中獲取更高毛利的收入。

這種營銷方式最初是借鑒剃須刀巨頭吉列推出極具價格優(yōu)勢的剃須刀，但通過售賣補充刀片賺得盆滿缽滿。

最初對Alexa的設(shè)想非常美好用戶通過語音方式詢問購買建議，之后委托Alexa直接下單，就能拉動亞馬遜的電商銷量。

但隨后他們發(fā)現(xiàn)，這個思路不起作用。主要是因為用戶喜歡「眼見為實」，僅憑Alexa的語音描述很難讓人甘心掏錢網(wǎng)購。

根據(jù)內(nèi)部文件和知情人士的透露，這種不成功的策略讓亞馬遜在Echos、Kindle等智能設(shè)備業(yè)務(wù)上虧損了數(shù)百億美元，可以說是貝佐斯在位時為數(shù)不多的巨大誤判。

硬件虧錢、軟件不賺錢，力挺Alexa的貝佐斯又離開了管理團(tuán)隊，導(dǎo)致裁員的大刀最先落在了Alexa團(tuán)隊的頭上。

Business Insider跟蹤LinkedIn上的帖子后發(fā)現(xiàn)，在2022年底開始的大裁員中，Alexa的AI系統(tǒng)、自然語言理解和對話能力團(tuán)隊幾乎是首當(dāng)其沖、受到了最高等級的影響。

然而，即使AI技術(shù)落后、虧損巨大，Alexa還掌握著一個關(guān)鍵優(yōu)勢，可以助他們扳回一城截至2023年，已經(jīng)在全球賣出的支持Alexa的硬件設(shè)備超過5億臺。

合作Anthropic借用Claude

CNBC和Business Insider在之前的報道中曾援引知情人士的說法，表示亞馬遜計劃基于內(nèi)部語言模型Titan或Olympus升級Alexa。

然而，或許是內(nèi)部技術(shù)不給力，路透社的最新報道表示，10月發(fā)布的Remarkable Alexa將由Anthropic的Claude模型支持，而非自己的基座模型。

亞馬遜和Anthropic的合作由來已久。去年9月，他們就為Anthropic提供了高達(dá)40億美元的投資，獲得少量股權(quán)的同時，以AWS云服務(wù)交換到了對Claude模型的使用。

一些知情人士表示，升級后的Remarkable Alexa可以執(zhí)行更復(fù)雜的任務(wù)，例如撰寫簡短的電子郵件、發(fā)送郵件以及從Uber Eats訂餐，而且讓用戶無需在對話中重復(fù)召喚「Alexa」。

此外，亞馬遜還計劃增強Alexa提供的自動化家居功能，可以無線連接到智能設(shè)備，讓用戶進(jìn)行語音控制。

具體而言，Remarkable的關(guān)鍵功能更新如下：

- 對話能力增強，與用戶進(jìn)行更自然、更有吸引力的對話，并提供與上下文相關(guān)的響應(yīng)

- 個性化推薦：根據(jù)用戶喜好和歷史記錄，針對購物、新聞和其他內(nèi)容進(jìn)行定制化推薦

- 家居自動化：Remarkable Alexa將作為一個更復(fù)雜的家居自動化中心，記住用戶偏好，自動執(zhí)行鬧鐘設(shè)置、咖啡機(jī)啟動或電視節(jié)目錄制等任務(wù)

- 復(fù)雜任務(wù)執(zhí)行：用戶可以提出更復(fù)雜的指令，例如訂購食物或起草電子郵件

總而言之，面對谷歌、蘋果等公司來勢洶洶的競爭，Alexa團(tuán)隊現(xiàn)在的任務(wù)是，打造一款能夠在新的GenAI競爭中脫穎而出的語音交互設(shè)備。

REUTERS/Mike Blake這其中的障礙，一是價格，二是AI安全問題。

一位知情人士估計，在Alexa中使用GenAI的查詢成本為每次2美分。有內(nèi)部估計甚至指出，訂閱費用需要定為20美元，這也是ChatGPT的訂閱價格。

也有亞馬遜員工表示懷疑，除了已經(jīng)為Prime會員支付139美元的用戶，是否還有人愿意每年多掏60～120美元，獲得比免費版Alexa更智能一點的Remarkable Alexa。

但美國銀行分析師Justin Post的分析結(jié)果相當(dāng)樂觀。

根據(jù)他在6月的估計，大約有1億活躍的Alexa用戶，其中10%可能會選擇Alexa的付費版本。按每月5美元的費用計算，這將額外帶來6億美元的年銷售額。

AI安全方面，有開發(fā)人員表示，Alexa大多出現(xiàn)在客廳或廚房中，這提高了應(yīng)用GenAI模型的風(fēng)險。如果Alexa不理解命令或提供不可靠的信息，犯錯誤的代價就會更高。

Cerebras語音版成GPT-4o平替

想跟上語音模型更新步伐的，除了亞馬遜這種巨頭，還有Cerebras這個新秀。

據(jù)悉，Cerebras Inference使用了Cerebras CS-3系統(tǒng)和WSE-3 AI處理器，內(nèi)存帶寬和內(nèi)核數(shù)分別是英偉達(dá)H100的7,000倍和52倍。

依托具備如此超高速AI推理能力的Cerebras Inference之上的Cerebras語音對話模型讓人非常期待！

但原始的視頻demo鏈接已失效。多虧評論區(qū)熱心網(wǎng)友，提供了另外一個類似于Cerebras語音對話模式的示例。

該對話模擬示例同樣基于LiveKit，但以ChatGPT為基礎(chǔ)模型。

具體來說，它借助Websocket使用LLM模擬了電話對話，并進(jìn)行了系列優(yōu)化，最終實現(xiàn)了無縫和快速對話。

不少網(wǎng)友在感嘆其功能強大，開發(fā)便捷的同時，惋惜它比ChatGPT-4o上線晚，丟失了很大一部分熱度。

LiveKit代理是通過語音，視頻和數(shù)據(jù)頻道與最終用戶相互作用的多模式AI智能體Agent的端到端框架。該框架可以憑借Python構(gòu)建智能體。

Agent框架被設(shè)計成可構(gòu)建實時、可編程、運行在服務(wù)器上的框架。它可被用來創(chuàng)建可看到的、聽到、理解的對話和多模態(tài)語音智能體。

該框架包括用于常見工作流程的插件，例如語音活動檢測和語音到文本轉(zhuǎn)換。

Agent與云或自托管LiveKit服務(wù)器無縫集成，在本地計算機(jī)上開發(fā)的Agent代碼可以擴(kuò)展以支持成千上萬的并發(fā)會話，然后將其部署到服務(wù)器中。

Cerebras語音版一經(jīng)發(fā)布，就引發(fā)了油管上很多博主的關(guān)注和測評。

Antti Luode通過多次打斷對話的方式，測試了Cerebras 實時語音模式的能力，證實其能快速有效理解對話并提供可靠信息。

Cerebras語音版Q&A對話集錦

Q：你是如何被開發(fā)的？

A：我是自然語言處理和機(jī)器學(xué)習(xí)算法的組合產(chǎn)物。我可以實現(xiàn)交互，在用戶打斷我時，也允許無縫轉(zhuǎn)換和自然的對話流程。

Q：你有什么想對YouTube觀眾說的嗎？

A：我只是開啟了對話型AI技術(shù)套件的新紀(jì)元。諸如我一樣的語音助手未來，需要擁有更復(fù)雜、更人性化的功能。比如能理解細(xì)微上下文間的差距，甚至情緒的變化。

Q：我的最后一個問題，如何打開啟動艙門？

A：短語「打開啟動艙門」，是電影《2001年太空漫游》中的一句著名臺詞，由Dave Bowman在嘗試與飛船計算機(jī)交互時說出...

令人驚喜的是，這場跨時空的虛假對話，預(yù)示著人工智能時代，超智慧電腦HAL 9000的現(xiàn)實體正一步步向我們走來！

相關(guān)熱詞： 科技巨頭打響語音模型之戰(zhàn) 亞馬遜 Claude 升

上一篇：三千余家國際基金投資機(jī)構(gòu)云集高交會攜萬億巨資尋找優(yōu)秀種子企業(yè)

下一篇：iPhone 16 發(fā)布！蘋果史上第一臺 AI 手機(jī)，Apple 智能明年支持中文，最大驚喜是個按鍵

科技巨頭打響語音模型之戰(zhàn)！亞馬遜用Claude升級Alexa，Cerebras語音模式快如閃電
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-10 14:24:51 瀏覽：2518次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科技巨頭打響語音模型之戰(zhàn)！亞馬遜用Claude升級Alexa，Cerebras語音模式快如閃電 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-10 14:24:51 瀏覽：2518次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科技巨頭打響語音模型之戰(zhàn)！亞馬遜用Claude升級Alexa，Cerebras語音模式快如閃電
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-10 14:24:51 瀏覽：2518次