展會信息港展會大全

OpenAI發(fā)布免費新品GPT-4o:可對音頻、視覺和文本實時推理,與人自然對話,功能秒殺Siri
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-05-14 08:52:49   瀏覽:4803次  

導(dǎo)讀:GPT-4o可以對音頻、視覺和文本進行實時推理,在232毫秒內(nèi)響應(yīng)音頻輸入,與人類在對話中的響應(yīng)時間相似。 GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,音頻模式存在各種新風(fēng)險而未公開,未來音頻輸出將僅限于選定的預(yù)設(shè)聲音,并要遵守安全政策。 GPT-4o...

GPT-4o可以對音頻、視覺和文本進行實時推理,在232毫秒內(nèi)響應(yīng)音頻輸入,與人類在對話中的響應(yīng)時間相似。

GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,音頻模式存在各種新風(fēng)險而未公開,未來音頻輸出將僅限于選定的預(yù)設(shè)聲音,并要遵守安全政策。

GPT-4o生成圖像:機器人正在輸入日志條目,正文很大,清晰易讀,機器人的手在打字機上打字。

5月14日,OpenAI發(fā)布新產(chǎn)品,不是AI搜索引擎,也不是GPT-5,而是GPT-4o旗艦?zāi)P。OpenAI在ChatGPT中引入GPT-4o并免費提供更多功能。

GPT-4o的“o”代表“omni”,意為全能,與現(xiàn)有模型相比,它在視覺和音頻理解方面尤其出色。GPT-4o可以在音頻、視覺和文本中進行實時推理,接受文本、音頻和圖像的任何組合作為輸入,并生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒內(nèi)響應(yīng)音頻輸入,平均為320毫秒,這與人類在對話中的響應(yīng)時間相似。

在GPT-4o之前,用戶可以使用Voice Mode(由三個獨立模型組成)與ChatGPT通話,但平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。原理是Voice Mode利用一個簡單模型將音頻轉(zhuǎn)錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個簡單模型將文本轉(zhuǎn)換回音頻。

但這個過程會丟失大量信息,例如GPT-4不能直接觀察音調(diào)、多個說話者或背景噪音,也不能輸出笑聲、歌聲或情感表達。利用GPT-4o,OpenAI訓(xùn)練了一個跨文本、視覺和音頻的端到端新模型,這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理,這是OpenAI第一個結(jié)合所有這些模式的模型,OpenAI仍在探索模型的功能及其局限性。

新語音模式是一種語音聊天助手。據(jù)Business Insider(商業(yè)內(nèi)幕)報道,它能夠與用戶進行自然的來回對話,能夠帶著情感說話,它可以假裝興奮、友好,甚至諷刺。這可以秒殺Siri,用戶不需要像蘋果手機那樣使用“喚醒詞”或精確的命令比如“嘿Siri!”來使用語音功能。

OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman)表示,新的語音和視頻模式是他用過的最好的電腦界面,感覺就像電影里的AI。達到人類水平的反應(yīng)時間和表達能力是一個很大的變化。“對我來說,與電腦交談從來都不是一件很自然的事,現(xiàn)在它做到了。隨著我們增加(可選的)個性化、訪問你的信息、代表你采取行動的能力等等,我真的可以看到一個令人興奮的未來,我們能夠使用計算機做比以往任何時候都多的事情。”

從性能來看,OpenAI表示,在傳統(tǒng)基準(zhǔn)測試中,GPT-4o在文本、推理和代碼智能方面達到了GPT-4 Turbo級的性能,同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當(dāng),在非英文文本上有顯著改善。

通過過濾訓(xùn)練數(shù)據(jù)和訓(xùn)練后改進模型行為等技術(shù),GPT-4o在設(shè)計中內(nèi)置了跨模式的安全性,并創(chuàng)建了新的安全系統(tǒng),為語音輸出提供護欄。GPT-4o還與來自社會心理學(xué)、偏見和公平、錯誤信息等領(lǐng)域的70多名外部專家開展廣泛的外部紅隊合作,以識別新增加的模式引入或放大的風(fēng)險,提高與GPT-4o互動的安全性。

OpenAI表示,將繼續(xù)減少新發(fā)現(xiàn)的風(fēng)險。由于認(rèn)識到GPT-4o的音頻模式存在各種新的風(fēng)險,目前公開的是文本和圖像輸入以及文本輸出,在接下來的幾周和幾個月里將圍繞技術(shù)基礎(chǔ)設(shè)施、訓(xùn)練后的可用性、發(fā)布其他模式所需的安全性開展工作,例如音頻輸出將僅限于選定的預(yù)設(shè)聲音,并將遵守現(xiàn)有安全政策。

目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調(diào)用額度。在接下來的幾周內(nèi),OpenAI將在ChatGPT Plus中推出Voice Mode新版本,該版本帶有GPT-4o。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港