深夜A级毛片免费视频,暖暖免费高清日本韩国视频,精品国品一二三产品区别在线观看

OpenAI放了一個(gè)大招，這才是真正的語(yǔ)音助手

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:50:30 瀏覽：4403次

導(dǎo)讀：在過(guò)去的幾年里，我們一直非常專注于提高這些模型的智能......但這是我們第一次在易用性方面真正邁出一大步。文｜周路平編｜游勇繼文生視頻模型Sora之后，OpenAI再一次給外界帶來(lái)驚喜。這一次，OpenAI向世人展現(xiàn)了強(qiáng)大且絲滑的語(yǔ)音對(duì)話等多模態(tài)能力。北...

在過(guò)去的幾年里，我們一直非常專注于提高這些模型的智能......但這是我們第一次在易用性方面真正邁出一大步。

文｜周路平

編｜游勇

繼文生視頻模型Sora之后，OpenAI再一次給外界帶來(lái)驚喜。這一次，OpenAI向世人展現(xiàn)了強(qiáng)大且絲滑的語(yǔ)音對(duì)話等多模態(tài)能力。

北京時(shí)間5月14日凌晨1點(diǎn)，在谷歌開(kāi)發(fā)者大會(huì)前一天，預(yù)熱已久的OpenAI正式向公眾發(fā)布了語(yǔ)音大模型GPT-4o（omnimodle，全能模型），可以綜合利用語(yǔ)音、文本和視覺(jué)信息進(jìn)行推理，扮演一個(gè)個(gè)人語(yǔ)音交互助手。而且，OpenAI將會(huì)對(duì)這一模型免費(fèi)向公眾開(kāi)放。

除了全新的大模型，OpenAI也正式宣布推出ChatGPT桌面版，“從今天開(kāi)始，我們將首先向Plus用戶推出macOS應(yīng)用，并在未來(lái)幾周內(nèi)向更廣泛的用戶開(kāi)放。我們還計(jì)劃在今年晚些時(shí)候推出Windows版本。”

情感化、對(duì)話絲滑，效果令人震撼

發(fā)布會(huì)全程只持續(xù)了26分鐘，OpenAI CEO奧特曼沒(méi)有現(xiàn)身，由公司CTO和兩位工程師來(lái)發(fā)布。它的界面是一個(gè)巨大的黑點(diǎn)，但現(xiàn)場(chǎng)演示的幾個(gè)GPT4o對(duì)話場(chǎng)景卻令人感到驚艷。

整個(gè)對(duì)話的過(guò)程非常絲滑，不僅能說(shuō)能聽(tīng)能看，還會(huì)有情緒的變化，就像是和一個(gè)真實(shí)的人在打視頻電話。

而通過(guò)OpenAI現(xiàn)場(chǎng)演示的幾個(gè)場(chǎng)景，我們也仿佛看到了《Her》的場(chǎng)面，科幻正在成為現(xiàn)實(shí)。

場(chǎng)景一：緩解情緒

演示嘉賓說(shuō)自己現(xiàn)在有點(diǎn)緊張要如何緩解，大模型立馬安撫他別緊張，慢下來(lái)，可以深呼吸。然后演示嘉賓故意做出非�？鋸埱壹贝俚暮粑�。大模型很快糾正了這種不正確的呼吸方式，在它的指導(dǎo)下如何緩慢地呼氣和吸氣。

場(chǎng)景二：講睡前故事

要求大模型講一個(gè)關(guān)于機(jī)器人與愛(ài)的睡前故事。正當(dāng)大模型講得正起勁時(shí)，主持人趕緊打斷，提出聲音要更有感情，大模型很快切換到了非常有戲劇性的聲音。結(jié)果話還沒(méi)說(shuō)完，一位嘉賓接過(guò)話題，提出聲音需要更有沖擊力，大模型便以一種非�？鋸埖目谖抢^續(xù)講述著剛才的睡前故事。但是，對(duì)大模型的考驗(yàn)還沒(méi)有結(jié)束，另一位嘉賓又提出要切換到機(jī)器人的聲音。很快，大模型就開(kāi)始模仿機(jī)器人的腔調(diào)繼續(xù)講述。最終，大模型被要求以演唱一首歌結(jié)束了對(duì)話。

場(chǎng)景三：解代數(shù)方程

演示嘉賓在紙上寫(xiě)了一個(gè)簡(jiǎn)單的方程式，要求語(yǔ)音助手通過(guò)攝像頭獲得視覺(jué)能力后，實(shí)時(shí)視頻指導(dǎo)數(shù)學(xué)解題。

大模型剛開(kāi)始還出現(xiàn)了“幻覺(jué)”，在沒(méi)打開(kāi)攝像頭時(shí)就自信滿滿地說(shuō)理解了。當(dāng)演示嘉賓提示后，她才說(shuō)“oops，我太興奮了。”然后大模型一步一步提醒和講解他的解題思路。整個(gè)過(guò)程，大模型就像一個(gè)很有經(jīng)驗(yàn)且富有耐心的數(shù)學(xué)老師。

媽媽再也不用擔(dān)心我的學(xué)習(xí)了。

場(chǎng)景四：根據(jù)外表判斷情緒

演示嘉賓拿著手機(jī)攝像頭對(duì)著自己的臉和大模型對(duì)話，大模型很快通過(guò)識(shí)別視頻中的人物表情給出了自己的判斷。大模型說(shuō)，你看起來(lái)很開(kāi)心，帶著燦爛的笑容，甚至有一絲興奮，你能分享你快樂(lè)的來(lái)源嗎？當(dāng)演示嘉賓說(shuō)，開(kāi)心是因?yàn)橐故灸愣嗝从杏煤蛷?qiáng)大時(shí)，大模型甚至表現(xiàn)出了一絲絲的嬌羞。

在這個(gè)場(chǎng)景的演示中還出現(xiàn)了一個(gè)插曲，演示嘉賓一開(kāi)始打開(kāi)的是后置攝像頭，拍到的是一張桌子，大模型說(shuō)“這看起來(lái)像是一個(gè)木板的表面”。演示嘉賓很快說(shuō)自己拍錯(cuò)了畫(huà)面，然后轉(zhuǎn)換成前置攝像頭開(kāi)始自拍，大模型也快速反應(yīng)過(guò)來(lái)。

總結(jié)一下OpenAI語(yǔ)音大模型在演示中的幾個(gè)特點(diǎn)：

一是快，快速反應(yīng)，幾乎沒(méi)有時(shí)延，而且語(yǔ)速跟正常人沒(méi)有差別，仿佛在跟一個(gè)真實(shí)的人類在打電話。而此前，用戶使用語(yǔ)音功能與ChatGPT對(duì)話時(shí)，GPT-3.5的平均延遲為2.8秒，GPT-4為5.4秒。

二是可以隨時(shí)打斷，不用等它回答完，直接打斷，也能快速接著最新的話題往下聊，非常絲滑；

三是可以捕捉情緒變化，比如能判斷對(duì)方急促的呼吸方式不對(duì)。而且也可以扮演不同的角色，比如戲劇性的語(yǔ)氣，或者冰冷的機(jī)器人的聲音，切換自如。

四是多模態(tài)的能力很強(qiáng)，比如你可以用意大利語(yǔ)提問(wèn)，然后要求對(duì)方用英語(yǔ)回答，比如可以寫(xiě)一個(gè)方程式，語(yǔ)音助手可以通過(guò)手機(jī)攝像頭識(shí)別后，一步步教你解題步驟。甚至還可以用攝像頭對(duì)著自己，語(yǔ)音助手可以識(shí)別圖像來(lái)判斷你現(xiàn)在的情緒。從“軟件代碼中發(fā)生了什么？”到“這個(gè)人穿什么牌子的襯衫？”，大模型都能通過(guò)多模態(tài)的能力，很好地回答。

OpenAI 首席技術(shù)官穆里穆拉蒂 (Muri Murati) 表示，GPT-4o將提供與GPT-4同等水平的智能，但在文本、圖像以及語(yǔ)音處理方面均取得了進(jìn)一步提升，“GPT-4o可以綜合利用語(yǔ)音、文本和視覺(jué)信息進(jìn)行推理。”

對(duì)于這一模型，OpenAI并沒(méi)有像Sora一樣，遲遲未對(duì)公眾開(kāi)放使用。OpenAI宣布GPT-4o將在未來(lái)幾周內(nèi)分階段集成至OpenAI的各個(gè)產(chǎn)品之中。更關(guān)鍵的是，GPT-4o將免費(fèi)提供給所有用戶使用，付費(fèi)用戶則可以享受五倍的調(diào)用額度。

同時(shí)，OpenAI同步開(kāi)放了最新大模型的API接口的調(diào)用，價(jià)格方也便宜不少。GPT-4o的價(jià)格是GPT-4-turbo的一半，速度是GPT-4-turbo的兩倍。

不過(guò)，GPT-4o的API接口并非向所有客戶開(kāi)放。OpenAI以濫用風(fēng)險(xiǎn)為由，表示計(jì)劃在未來(lái)幾周內(nèi)首先向“一小群值得信賴的合作伙伴”推出對(duì)GPT-4o新音頻功能的支持。

AI搜索沒(méi)來(lái)，但桌面版ChatGPT來(lái)了

這次的發(fā)布基本坐實(shí)了一個(gè)事實(shí)，那就是蘋(píng)果的語(yǔ)音助手Siri將引入ChatGPT，GPT-4o強(qiáng)大的語(yǔ)音對(duì)話能力對(duì)Siri是個(gè)巨大的提升。而且，OpenAI的發(fā)布會(huì)演示過(guò)程中也出現(xiàn)了大量蘋(píng)果的設(shè)備。

不過(guò)，令人遺憾的是，此前外界盛傳已久的ChatGPT搜索產(chǎn)品沒(méi)有出現(xiàn)。

在此之前，外界一度盛傳OpenAI將發(fā)布AI搜索的功能，包括有媒體拿到了ChatGPT Search的提前體驗(yàn)版本界面仍然是對(duì)話交互，但ChatGPT在回答時(shí)會(huì)使用網(wǎng)絡(luò)信息進(jìn)行回答。

所以，一度有消息稱，ChatGPT的搜索功能會(huì)在5月10日上線，但最終還是被放了鴿子，ChatGPT CEO奧特曼回應(yīng)稱，不會(huì)有GPT5，也不會(huì)有搜索產(chǎn)品。

但不少用戶發(fā)現(xiàn)，ChatGPT已經(jīng)可以回答最新的信息，比如當(dāng)天的股票或者天氣，而且都是準(zhǔn)確的信息。ChatGPT可以回答網(wǎng)址，可以跳轉(zhuǎn)鏈接，時(shí)不時(shí)也可以提供最新的數(shù)據(jù)。但這與真正的AI搜索相差甚遠(yuǎn)。

昆侖萬(wàn)維CEO方漢認(rèn)為，用戶漲不上去是OpenAI現(xiàn)在最頭疼的事情。“目前看到的產(chǎn)品形態(tài)上來(lái)講，OpenAI的搜索產(chǎn)品，并沒(méi)有對(duì)海內(nèi)外所有的搜索引擎產(chǎn)品，形成碾壓，形成 SOTA（state-of-the-art，最佳表現(xiàn)），發(fā)布這個(gè)產(chǎn)品，可能會(huì)讓用戶有一點(diǎn)增長(zhǎng)，但不會(huì)讓用戶翻倍增長(zhǎng)。所以我認(rèn)為，這是在 Google I/O 前對(duì)谷歌的一次戰(zhàn)略狙擊，它的根本戰(zhàn)術(shù)上，還是在等待和籌備 GPT-4.5。”

“Open AI無(wú)論發(fā)布什么新產(chǎn)品，都是在給ChatGPT的強(qiáng)大能力重新定義場(chǎng)景，在找新的產(chǎn)品出路。”360董事長(zhǎng)周鴻也認(rèn)為，OpenAI在做場(chǎng)景的收縮和聚焦，如果大模型有一萬(wàn)種能力，而不要去承諾有一萬(wàn)種場(chǎng)景，而是在大模型中精選幾十種或者幾百種能力，聚焦到一兩個(gè)比較明確的場(chǎng)景上。

在此之前，OpenAI發(fā)布了GPT的應(yīng)用商店，通過(guò)GPTs讓用戶來(lái)定義場(chǎng)景，目前GPTs的數(shù)量超過(guò)了百萬(wàn)，但卻遭到了不少用戶的吐槽，一方面OpenAI不上心，另一方面也缺少客戶。正如周鴻說(shuō)，GPTs定義的場(chǎng)景太多太碎，也不算成功。Open AI也需要探索，做出幾個(gè)典型的大模型驅(qū)動(dòng)的產(chǎn)品，這個(gè)產(chǎn)品要明確定義用戶使用的場(chǎng)景。

不過(guò)相比于尋找場(chǎng)景，OpenAI這次發(fā)布了桌面版的ChatGPT和新的用戶界面，完善ChatGPT的協(xié)作能力。“我們認(rèn)識(shí)到這些模型正變得越來(lái)越復(fù)雜，” 穆拉蒂說(shuō)道，“但我們希望用戶與人工智能模型的交互體驗(yàn)?zāi)軌蚋幼匀�、輕松，讓用戶可以將注意力完全集中在與模型的協(xié)作上，而無(wú)需在意界面本身。”

比如，用戶可以通過(guò)Option + 空格鍵向ChatGPT提問(wèn)，并且可以在應(yīng)用內(nèi)截取和討論屏幕截圖。

“我們知道，隨著這些模型變得越來(lái)越復(fù)雜，我們希望交互體驗(yàn)變得更加自然，”穆拉蒂說(shuō)。“這是我們第一次在易用性方面真正邁出一大步。”

上一次，OpenAI用Sora狙擊了谷歌的Gemini，這一次OpenAI再一次選擇谷歌開(kāi)發(fā)者大會(huì)的前一天釋放大招，面對(duì)有實(shí)力又擅長(zhǎng)PR的奧特曼，谷歌又將如何應(yīng)對(duì)，明日的谷歌開(kāi)發(fā)者大會(huì)見(jiàn)分曉。

OpenAI放了一個(gè)大招，這才是真正的語(yǔ)音助手
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:50:30 瀏覽：4403次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI放了一個(gè)大招，這才是真正的語(yǔ)音助手 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:50:30 瀏覽：4403次