展會(huì)信息港展會(huì)大全

ChatGPT重磅更新!可以通過(guò)圖片和語(yǔ)音命令交互
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-09-26 09:51:32   瀏覽:7767次  

導(dǎo)讀:OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過(guò)常見(jiàn)的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問(wèn)題,比如通過(guò)大聲說(shuō)話或者上傳一張圖片。 隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,并且ChatGPT越來(lái)越接近成為一個(gè)真正多模式、有用的...

OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過(guò)常見(jiàn)的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問(wèn)題,比如通過(guò)大聲說(shuō)話或者上傳一張圖片。

隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,并且ChatGPT越來(lái)越接近成為一個(gè)真正多模式、有用的虛擬助手,維持住安全護(hù)欄會(huì)變得越來(lái)越困難。

OpenAI在其官網(wǎng)宣布,ChatGPT現(xiàn)在可以“看”、“聽(tīng)”和“說(shuō)”了。

自誕生以來(lái),ChatGPT的大部分更新主要在于,這個(gè)基于AI的機(jī)器人可以做什么、可以回答哪些問(wèn)題、可以訪問(wèn)哪些信息,以及如何改進(jìn)其基礎(chǔ)模型等方面。這一次,OpenAI正在調(diào)整使用ChatGPT的方式。

北京時(shí)間9月25日晚,OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過(guò)常見(jiàn)的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問(wèn)題,比如通過(guò)大聲說(shuō)話或者上傳圖片。

具體而言,在語(yǔ)音方面:第一,允許用戶進(jìn)行語(yǔ)音對(duì)話,提供更直觀的交互方式;第二,支持在iOS和Android移動(dòng)應(yīng)用上使用;第三,提供5種不同的語(yǔ)音選擇;第四,通過(guò)新型文本轉(zhuǎn)語(yǔ)音模型和語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)。

這應(yīng)該感覺(jué)就像與蘋(píng)果的Siri交談一樣,只是OpenAI希望,通過(guò)改進(jìn)基礎(chǔ)技術(shù)使其說(shuō)出更好的答案。目前,大多數(shù)虛擬助手,如亞馬遜的Alexa,都在以大語(yǔ)言模型(LLM)為基礎(chǔ)進(jìn)行改進(jìn)。

據(jù)OpenAI介紹,新的語(yǔ)音功能由一個(gè)新的文本到語(yǔ)音模型提供支持,該模型能夠從文本和幾秒鐘的語(yǔ)音樣本生成“類似人類的音頻”。OpenAI似乎還認(rèn)為該模型的潛力不止于此,其正在與流媒體音樂(lè)服務(wù)平臺(tái)Spotify合作,將播客翻譯成其他語(yǔ)言,同時(shí)保持播音者的聲音。合成語(yǔ)音有許多有趣的用途,而OpenAI可能會(huì)成為該行業(yè)的重要組成部分。

然而,只需幾秒鐘的音頻就能構(gòu)建出功能強(qiáng)大的合成音色,這也為各種問(wèn)題性用例敞開(kāi)了大門(mén)。“這些功能還帶來(lái)了新的風(fēng)險(xiǎn),比如惡意行為者冒充公眾人物或?qū)嵤┢墼p的可能性”,OpenAI在其宣布新功能的博文中寫(xiě)道。OpenAI表示,出于這個(gè)原因,該模型不會(huì)廣泛被使用,而更多受到特定用例和合作伙伴的限制。

在圖像方面,第一,允許用戶上傳圖像與ChatGPT進(jìn)行交互;第二,支持多張圖像;第三,提供移動(dòng)應(yīng)用上的繪圖工具;第四,使用多模態(tài)GPT模型(Generative Pre-Trained Transformer,生成式預(yù)訓(xùn)練Transformer模型)理解圖像;第五,在接下來(lái)的兩周內(nèi)首先面向Plus(付費(fèi)訂閱用戶)和企業(yè)用戶推出;第六,語(yǔ)音和圖像功能的推出采取漸進(jìn)策略,以確保安全性;第七,要注意模型局限性,避免高風(fēng)險(xiǎn)場(chǎng)景下對(duì)其依賴。

圖像搜索有點(diǎn)類似于Google Lens的功能,用戶拍攝自己感興趣的任何東西的照片,ChatGPT去嘗試了解用戶在詢問(wèn)什么,并做出相應(yīng)的回應(yīng)。用戶還可以使用應(yīng)用程序的繪圖工具幫助明晰自己的訴求,或配合圖像進(jìn)行說(shuō)話或?qū)懭雴?wèn)題。

這是ChatGPT希望實(shí)現(xiàn)的一個(gè)互動(dòng)特性:與其進(jìn)行一次搜索得到錯(cuò)誤答案,然后再重新進(jìn)行一次搜索,不如在進(jìn)行的過(guò)程中提示AI機(jī)器人完善答案。

不過(guò),顯然圖像搜索也有其潛在問(wèn)題。比如,如果用戶詢問(wèn)的是關(guān)于一個(gè)人的情況,ChatGPT該如何反應(yīng)?OpenAI表示,他們故意限制了ChatGPT“分析和直接陳述關(guān)于人的能力”,這既是為了準(zhǔn)確性,也是為了隱私原因。這意味著對(duì)于AI的一個(gè)極具科幻色彩的想象看著某人然后問(wèn)AI“那是誰(shuí)”,并不會(huì)很快實(shí)現(xiàn)。

在ChatGPT首次推出將近一年后,OpenAI似乎仍在尋找,如何為其AI機(jī)器人增加更多功能和能力而不會(huì)產(chǎn)生新的問(wèn)題和缺點(diǎn)。OpenAI也試圖通過(guò)有意限制其新模型的功能,來(lái)維持“更進(jìn)一步”和“降低風(fēng)險(xiǎn)”這兩者之間的平衡。但這種方法可能不會(huì)永遠(yuǎn)奏效。隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,并且ChatGPT越來(lái)越接近成為一個(gè)真正多模式、有用的虛擬助手,維持住這個(gè)護(hù)欄會(huì)變得越來(lái)越困難。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港