精品国产自产拍在线观看蜜桃,手机看片你懂的

OpenAI發(fā)布免費新品GPT-4o：可對音頻、視覺和文本實時推理，與人自然對話，功能秒殺Siri

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:52:49 瀏覽：4803次

導(dǎo)讀：GPT-4o可以對音頻、視覺和文本進行實時推理，在232毫秒內(nèi)響應(yīng)音頻輸入，與人類在對話中的響應(yīng)時間相似。 GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，音頻模式存在各種新風(fēng)險而未公開，未來音頻輸出將僅限于選定的預(yù)設(shè)聲音，并要遵守安全政策。 GPT-4o...

GPT-4o可以對音頻、視覺和文本進行實時推理，在232毫秒內(nèi)響應(yīng)音頻輸入，與人類在對話中的響應(yīng)時間相似。

GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，音頻模式存在各種新風(fēng)險而未公開，未來音頻輸出將僅限于選定的預(yù)設(shè)聲音，并要遵守安全政策。

GPT-4o生成圖像：機器人正在輸入日志條目，正文很大，清晰易讀，機器人的手在打字機上打字。

5月14日，OpenAI發(fā)布新產(chǎn)品，不是AI搜索引擎，也不是GPT-5，而是GPT-4o旗艦?zāi)Ｐ�。OpenAI在ChatGPT中引入GPT-4o并免費提供更多功能。

GPT-4o的“o”代表“omni”，意為全能，與現(xiàn)有模型相比，它在視覺和音頻理解方面尤其出色。GPT-4o可以在音頻、視覺和文本中進行實時推理，接受文本、音頻和圖像的任何組合作為輸入，并生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒內(nèi)響應(yīng)音頻輸入，平均為320毫秒，這與人類在對話中的響應(yīng)時間相似。

在GPT-4o之前，用戶可以使用Voice Mode（由三個獨立模型組成）與ChatGPT通話，但平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。原理是Voice Mode利用一個簡單模型將音頻轉(zhuǎn)錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個簡單模型將文本轉(zhuǎn)換回音頻。

但這個過程會丟失大量信息，例如GPT-4不能直接觀察音調(diào)、多個說話者或背景噪音，也不能輸出笑聲、歌聲或情感表達。利用GPT-4o，OpenAI訓(xùn)練了一個跨文本、視覺和音頻的端到端新模型，這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理，這是OpenAI第一個結(jié)合所有這些模式的模型，OpenAI仍在探索模型的功能及其局限性。

新語音模式是一種語音聊天助手。據(jù)Business Insider（商業(yè)內(nèi)幕）報道，它能夠與用戶進行自然的來回對話，能夠帶著情感說話，它可以假裝興奮、友好，甚至諷刺。這可以秒殺Siri，用戶不需要像蘋果手機那樣使用“喚醒詞”或精確的命令比如“嘿Siri!”來使用語音功能。

OpenAI首席執(zhí)行官山姆奧特曼（Sam Altman）表示，新的語音和視頻模式是他用過的最好的電腦界面，感覺就像電影里的AI。達到人類水平的反應(yīng)時間和表達能力是一個很大的變化。“對我來說，與電腦交談從來都不是一件很自然的事，現(xiàn)在它做到了。隨著我們增加（可選的）個性化、訪問你的信息、代表你采取行動的能力等等，我真的可以看到一個令人興奮的未來，我們能夠使用計算機做比以往任何時候都多的事情。”

從性能來看，OpenAI表示，在傳統(tǒng)基準(zhǔn)測試中，GPT-4o在文本、推理和代碼智能方面達到了GPT-4 Turbo級的性能，同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當(dāng)，在非英文文本上有顯著改善。

通過過濾訓(xùn)練數(shù)據(jù)和訓(xùn)練后改進模型行為等技術(shù)，GPT-4o在設(shè)計中內(nèi)置了跨模式的安全性，并創(chuàng)建了新的安全系統(tǒng)，為語音輸出提供護欄。GPT-4o還與來自社會心理學(xué)、偏見和公平、錯誤信息等領(lǐng)域的70多名外部專家開展廣泛的外部紅隊合作，以識別新增加的模式引入或放大的風(fēng)險，提高與GPT-4o互動的安全性。

OpenAI表示，將繼續(xù)減少新發(fā)現(xiàn)的風(fēng)險。由于認(rèn)識到GPT-4o的音頻模式存在各種新的風(fēng)險，目前公開的是文本和圖像輸入以及文本輸出，在接下來的幾周和幾個月里將圍繞技術(shù)基礎(chǔ)設(shè)施、訓(xùn)練后的可用性、發(fā)布其他模式所需的安全性開展工作，例如音頻輸出將僅限于選定的預(yù)設(shè)聲音，并將遵守現(xiàn)有安全政策。

目前，GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，Plus用戶可以享受到5倍的調(diào)用額度。在接下來的幾周內(nèi)，OpenAI將在ChatGPT Plus中推出Voice Mode新版本，該版本帶有GPT-4o。

相關(guān)熱詞： OpenAI 發(fā)布免費新品 GPT-4o 音頻視覺文

OpenAI發(fā)布免費新品GPT-4o：可對音頻、視覺和文本實時推理，與人自然對話，功能秒殺Siri
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:52:49 瀏覽：4803次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI發(fā)布免費新品GPT-4o：可對音頻、視覺和文本實時推理，與人自然對話，功能秒殺Siri 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-05-14 08:52:49 瀏覽：4803次