OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過(guò)常見(jiàn)的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問(wèn)題,比如通過(guò)大聲說(shuō)話或者上傳一張圖片。
隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,并且ChatGPT越來(lái)越接近成為一個(gè)真正多模式、有用的虛擬助手,維持住安全護(hù)欄會(huì)變得越來(lái)越困難。
OpenAI在其官網(wǎng)宣布,ChatGPT現(xiàn)在可以“看”、“聽(tīng)”和“說(shuō)”了。
自誕生以來(lái),ChatGPT的大部分更新主要在于,這個(gè)基于AI的機(jī)器人可以做什么、可以回答哪些問(wèn)題、可以訪問(wèn)哪些信息,以及如何改進(jìn)其基礎(chǔ)模型等方面。這一次,OpenAI正在調(diào)整使用ChatGPT的方式。
北京時(shí)間9月25日晚,OpenAI在其官網(wǎng)宣布,目前正在推出ChatGPT的新版本,除了通過(guò)常見(jiàn)的文本框交互外,現(xiàn)在它正在學(xué)會(huì)以新的方式理解人類的問(wèn)題,比如通過(guò)大聲說(shuō)話或者上傳圖片。
具體而言,在語(yǔ)音方面:第一,允許用戶進(jìn)行語(yǔ)音對(duì)話,提供更直觀的交互方式;第二,支持在iOS和Android移動(dòng)應(yīng)用上使用;第三,提供5種不同的語(yǔ)音選擇;第四,通過(guò)新型文本轉(zhuǎn)語(yǔ)音模型和語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)。
這應(yīng)該感覺(jué)就像與蘋(píng)果的Siri交談一樣,只是OpenAI希望,通過(guò)改進(jìn)基礎(chǔ)技術(shù)使其說(shuō)出更好的答案。目前,大多數(shù)虛擬助手,如亞馬遜的Alexa,都在以大語(yǔ)言模型(LLM)為基礎(chǔ)進(jìn)行改進(jìn)。
據(jù)OpenAI介紹,新的語(yǔ)音功能由一個(gè)新的文本到語(yǔ)音模型提供支持,該模型能夠從文本和幾秒鐘的語(yǔ)音樣本生成“類似人類的音頻”。OpenAI似乎還認(rèn)為該模型的潛力不止于此,其正在與流媒體音樂(lè)服務(wù)平臺(tái)Spotify合作,將播客翻譯成其他語(yǔ)言,同時(shí)保持播音者的聲音。合成語(yǔ)音有許多有趣的用途,而OpenAI可能會(huì)成為該行業(yè)的重要組成部分。
然而,只需幾秒鐘的音頻就能構(gòu)建出功能強(qiáng)大的合成音色,這也為各種問(wèn)題性用例敞開(kāi)了大門(mén)。“這些功能還帶來(lái)了新的風(fēng)險(xiǎn),比如惡意行為者冒充公眾人物或?qū)嵤┢墼p的可能性”,OpenAI在其宣布新功能的博文中寫(xiě)道。OpenAI表示,出于這個(gè)原因,該模型不會(huì)廣泛被使用,而更多受到特定用例和合作伙伴的限制。
在圖像方面,第一,允許用戶上傳圖像與ChatGPT進(jìn)行交互;第二,支持多張圖像;第三,提供移動(dòng)應(yīng)用上的繪圖工具;第四,使用多模態(tài)GPT模型(Generative Pre-Trained Transformer,生成式預(yù)訓(xùn)練Transformer模型)理解圖像;第五,在接下來(lái)的兩周內(nèi)首先面向Plus(付費(fèi)訂閱用戶)和企業(yè)用戶推出;第六,語(yǔ)音和圖像功能的推出采取漸進(jìn)策略,以確保安全性;第七,要注意模型局限性,避免高風(fēng)險(xiǎn)場(chǎng)景下對(duì)其依賴。
圖像搜索有點(diǎn)類似于Google Lens的功能,用戶拍攝自己感興趣的任何東西的照片,ChatGPT去嘗試了解用戶在詢問(wèn)什么,并做出相應(yīng)的回應(yīng)。用戶還可以使用應(yīng)用程序的繪圖工具幫助明晰自己的訴求,或配合圖像進(jìn)行說(shuō)話或?qū)懭雴?wèn)題。
這是ChatGPT希望實(shí)現(xiàn)的一個(gè)互動(dòng)特性:與其進(jìn)行一次搜索得到錯(cuò)誤答案,然后再重新進(jìn)行一次搜索,不如在進(jìn)行的過(guò)程中提示AI機(jī)器人完善答案。
不過(guò),顯然圖像搜索也有其潛在問(wèn)題。比如,如果用戶詢問(wèn)的是關(guān)于一個(gè)人的情況,ChatGPT該如何反應(yīng)?OpenAI表示,他們故意限制了ChatGPT“分析和直接陳述關(guān)于人的能力”,這既是為了準(zhǔn)確性,也是為了隱私原因。這意味著對(duì)于AI的一個(gè)極具科幻色彩的想象看著某人然后問(wèn)AI“那是誰(shuí)”,并不會(huì)很快實(shí)現(xiàn)。
在ChatGPT首次推出將近一年后,OpenAI似乎仍在尋找,如何為其AI機(jī)器人增加更多功能和能力而不會(huì)產(chǎn)生新的問(wèn)題和缺點(diǎn)。OpenAI也試圖通過(guò)有意限制其新模型的功能,來(lái)維持“更進(jìn)一步”和“降低風(fēng)險(xiǎn)”這兩者之間的平衡。但這種方法可能不會(huì)永遠(yuǎn)奏效。隨著越來(lái)越多的人使用語(yǔ)音控制和圖像搜索,并且ChatGPT越來(lái)越接近成為一個(gè)真正多模式、有用的虛擬助手,維持住這個(gè)護(hù)欄會(huì)變得越來(lái)越困難。