展會(huì)信息港展會(huì)大全

OpenAI推出“數(shù)據(jù)伙伴關(guān)系”,減少訓(xùn)練數(shù)據(jù)偏向西方國(guó)家的缺陷
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-11-10 17:48:39   瀏覽:6157次  

導(dǎo)讀:OpenAI宣布了數(shù)據(jù)伙伴關(guān)系計(jì)劃,旨在與第三方機(jī)構(gòu)合作,建立用于人工智能模型訓(xùn)練的公共和私有數(shù)據(jù)集。 OpenAI將收集反映全人類社會(huì)且目前不易在線訪問(wèn)的大規(guī)模數(shù)據(jù)集。該公司特別希望收集能表達(dá)人類意圖的數(shù)據(jù)(如長(zhǎng)篇寫作或?qū)υ挘,這些數(shù)據(jù)將跨越不同的語(yǔ)...

OpenAI宣布了“數(shù)據(jù)伙伴關(guān)系”計(jì)劃,旨在與第三方機(jī)構(gòu)合作,建立用于人工智能模型訓(xùn)練的公共和私有數(shù)據(jù)集。

OpenAI將收集“反映全人類社會(huì)”且目前不易在線訪問(wèn)的“大規(guī)模”數(shù)據(jù)集。該公司特別希望收集能“表達(dá)人類意圖”的數(shù)據(jù)(如長(zhǎng)篇寫作或?qū)υ挘,這些數(shù)據(jù)將跨越不同的語(yǔ)言、主題和格式。

訓(xùn)練人工智能模型的數(shù)據(jù)集存在嚴(yán)重缺陷,這是一個(gè)公開的秘密。比如圖像語(yǔ)料庫(kù)往往以美國(guó)為首的西方國(guó)家為中心,部分原因在于在編制數(shù)據(jù)集時(shí),這些地方的圖像在互聯(lián)網(wǎng)中占據(jù)主導(dǎo)地位。模型則以有害的方式放大了這些缺陷。

OpenAI在官網(wǎng)公布,它希望與外部機(jī)構(gòu)合作創(chuàng)建新的數(shù)據(jù)集來(lái)消除這些缺陷。

當(dāng)?shù)貢r(shí)間11月9日,OpenAI在官網(wǎng)公布,它希望與外部機(jī)構(gòu)合作創(chuàng)建新的數(shù)據(jù)集來(lái)消除這些缺陷。

OpenAI宣布了“數(shù)據(jù)伙伴關(guān)系”(Data Partnerships)計(jì)劃,旨在與第三方機(jī)構(gòu)合作,建立用于人工智能模型訓(xùn)練的公共和私有數(shù)據(jù)集。該公司在官網(wǎng)中表示,數(shù)據(jù)合作伙伴關(guān)系旨在“讓更多組織能夠幫助引導(dǎo)人工智能的未來(lái)”,并“從更有用的模型中獲益”。

“為了最終使(人工智能)安全且有益于全人類,我們希望人工智能模型能夠深入理解所有主題、行業(yè)、文化和語(yǔ)言,這就需要盡可能廣泛的訓(xùn)練數(shù)據(jù)集。”OpenAI寫道,“將你的數(shù)據(jù)納入其中可以增加人工智能模型對(duì)你所在領(lǐng)域的理解,從而對(duì)你更有幫助。”

作為數(shù)據(jù)合作伙伴計(jì)劃的一部分,OpenAI將收集“反映全人類社會(huì)”且目前不易在線訪問(wèn)的“大規(guī)模”數(shù)據(jù)集。該公司計(jì)劃在包括圖像、音頻和視頻在內(nèi)的各種模式下開展工作,不過(guò)其特別希望收集能“表達(dá)人類意圖”的數(shù)據(jù)(如長(zhǎng)篇寫作或?qū)υ挘,這些數(shù)據(jù)將跨越不同的語(yǔ)言、主題和格式。

OpenAI表示,如有必要,它將與組織合作,使用光學(xué)字符識(shí)別和自動(dòng)語(yǔ)音識(shí)別工具對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)字化處理,并在必要時(shí)刪除敏感或個(gè)人信息。

一開始,OpenAI希望創(chuàng)建兩種類型的數(shù)據(jù)集:一種是公開的開源數(shù)據(jù)集,任何人都可以在人工智能模型訓(xùn)練中使用;另一種是私有數(shù)據(jù)集,用于訓(xùn)練專有的人工智能模型。私有數(shù)據(jù)集的對(duì)象是那些希望數(shù)據(jù)保密,但又希望OpenAI的模型能夠更好地理解其領(lǐng)域的組織。

到目前為止,OpenAI已經(jīng)與冰島政府和語(yǔ)言技術(shù)公司Mieind ehf合作,提高了GPT-4的冰島語(yǔ)能力,并與自由法律項(xiàng)目(一個(gè)在美國(guó)注冊(cè)的非營(yíng)利組織,為法律領(lǐng)域的學(xué)術(shù)研究提供訪問(wèn)和分析工具)合作,提高了模型對(duì)法律文件的理解能力。

“總之,我們正在尋求合作伙伴,幫助我們教會(huì)人工智能理解我們的世界,以便最大限度地幫助每個(gè)人。”OpenAI寫道。

盡管OpenAI這篇博文看起來(lái)全然出于對(duì)人類利益的考慮,但其中似乎也有明顯的商業(yè)動(dòng)機(jī),即以犧牲他人利益為代價(jià)來(lái)提高OpenAI模型的性能,卻不給數(shù)據(jù)所有者相應(yīng)的補(bǔ)償。實(shí)際上,近期已經(jīng)有一些創(chuàng)作者的公開信和訴訟,稱OpenAI在未經(jīng)他們?cè)S可或支付報(bào)酬的情況下,用其作品訓(xùn)練了許多模型。7月,16人匿名起訴OpenAI及微軟公司,認(rèn)為他們?cè)谖唇?jīng)允許的情況下使用并泄露了個(gè)人隱私數(shù)據(jù),索賠金額高達(dá)30億美元。緊接著,兩位全職作者提出,OpenAI未經(jīng)允許使用了他們的小說(shuō)訓(xùn)練ChatGPT,構(gòu)成侵權(quán)。

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港