展會(huì)信息港展會(huì)大全

OpenAI發(fā)布DALL-E 3 API,每張圖收費(fèi)0.04美元起
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-07 09:19:20   瀏覽:8687次  

導(dǎo)讀:騰訊科技訊 11月7日消息,在周一美國(guó)舊金山舉辦的首屆全球開(kāi)發(fā)者大會(huì)OpenAI DevDay上,OpenAI發(fā)布了一系列新API(應(yīng)用程序接口)。 在把文本到圖像模型DALL-E 3首先集成到ChatGPT和Bing Chat之后,OpenAI周一正式發(fā)布了DALL-E 3的API。OpenAI表示,與之前發(fā)...

科技新聞?dòng)?11月7日消息,在周一美國(guó)舊金山舉辦的首屆全球開(kāi)發(fā)者大會(huì)“OpenAI DevDay”上,OpenAI發(fā)布了一系列新API(應(yīng)用程序接口)。

在把文本到圖像模型DALL-E 3首先集成到ChatGPT和Bing Chat之后,OpenAI周一正式發(fā)布了DALL-E 3的API。OpenAI表示,與之前發(fā)布的DALL-E和DALL-E 2類似,該API包含內(nèi)置的調(diào)節(jié)功能,有助于防止濫用。

DALL-E 3 API提供了不同的格式和質(zhì)量選項(xiàng),以及從1024×1024到1792×1024的分辨率,價(jià)格從每張生成的圖像0.04美元起。但是與DALL-E 2 API相比,它有一定的局限性至少目前是這樣。

與DALL-E 2 API不同,DALL-E 3不能通過(guò)讓模型替換現(xiàn)有圖像的某些區(qū)域或創(chuàng)建現(xiàn)有圖像的變體來(lái)創(chuàng)建圖像的編輯版本。

OpenAI表示,當(dāng)一個(gè)生成請(qǐng)求被發(fā)送到DALL-E 3時(shí),它會(huì)“出于安全原因”或“添加更多細(xì)節(jié)”自動(dòng)重寫--這可能會(huì)導(dǎo)致不太精確的結(jié)果。

此外,OpenAI現(xiàn)在提供了文本到語(yǔ)音的API--Audio API。它提供了六種預(yù)設(shè)的聲音--Alloy、Echo、Fable、Onyx、Nova和Shimer--可供選擇,還有兩種生成式人工智能模型變體。它從今天開(kāi)始正式運(yùn)行,每輸入1000個(gè)字符的起價(jià)為0.015美元。

OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman)表示:“這比我們聽(tīng)到的任何其他東西都要自然得多,可以使應(yīng)用程序更自然地互動(dòng),更容易訪問(wèn)。它還開(kāi)啟了許多用例,如語(yǔ)言學(xué)習(xí)和語(yǔ)音輔助。”

與一些語(yǔ)音合成平臺(tái)和工具不同,OpenAI沒(méi)有提供一種方法來(lái)控制生成的音頻的情感影響。該公司指出,“某些因素”可能會(huì)影響生成的聲音,比如會(huì)大聲讀出文本中的大寫或語(yǔ)法,但這些影響在OpenAI的內(nèi)部測(cè)試產(chǎn)生了“不同的結(jié)果”。OpenAI要求使用的開(kāi)發(fā)者告知用戶音頻是由人工智能生成的。

在一份相關(guān)的公告中,OpenAI發(fā)布了其開(kāi)源自動(dòng)語(yǔ)音識(shí)別模型的下一個(gè)版本--Whisper large-v3。該公司聲稱,該模型在跨語(yǔ)言方面具有更高的性能。Whisper large-v3已被發(fā)布在GitHub,開(kāi)發(fā)者可在獲準(zhǔn)的情況下進(jìn)行下載。(無(wú)忌)

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港