日韩亚洲欧美另类在线,大学生Av性爱免费在线

Cleanlab公司打造AI新工具，能甄別大模型的回答可信度

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 14:12:06 瀏覽：10308次

導(dǎo)讀：大模型以其編造事物的能力而聞名，事實(shí)上這也正是它們最擅長(zhǎng)的。但它們無(wú)法區(qū)分事實(shí)和虛構(gòu)，這讓許多企業(yè)懷疑使用它們是否值得冒險(xiǎn)。由麻省理工學(xué)院量子計(jì)算實(shí)驗(yàn)室分拆出來(lái)的人工智能初創(chuàng)公司 Cleanlab 創(chuàng)建的一個(gè)新工具，旨在讓高風(fēng)險(xiǎn)用戶更清楚地了解這些...

大模型以其編造事物的能力而聞名，事實(shí)上這也正是它們最擅長(zhǎng)的。但它們無(wú)法區(qū)分事實(shí)和虛構(gòu)，這讓許多企業(yè)懷疑使用它們是否值得冒險(xiǎn)。

由麻省理工學(xué)院量子計(jì)算實(shí)驗(yàn)室分拆出來(lái)的人工智能初創(chuàng)公司 Cleanlab 創(chuàng)建的一個(gè)新工具，旨在讓高風(fēng)險(xiǎn)用戶更清楚地了解這些模型的真實(shí)可信度。

它被稱為值得信賴的語(yǔ)言模型（Trustworthy Language Model）。根據(jù)大模型的可靠性，它會(huì)給大模型生成的輸出，給出 0 到 1 之間的打分。這讓人們可以選擇信任哪些回應(yīng)、以及放棄哪些回應(yīng)。

（來(lái)源：STEPHANIE ARNETT/MITTR | ISTOCK, ENVATO）

Cleanlab 的 CEO 卡提斯諾斯卡特（Curtis Northcutt）說(shuō)：“我想人們知道大模型會(huì)改變世界，但他們只是被該死的幻覺(jué)所困擾。”

當(dāng)前，聊天機(jī)器人正迅速成為人們查找信息的主要方式，搜索引擎正在圍繞這項(xiàng)技術(shù)進(jìn)行重新設(shè)計(jì)。

數(shù)十億人每天使用辦公軟件，來(lái)創(chuàng)建從學(xué)校作業(yè)、到營(yíng)銷副本、再到財(cái)務(wù)報(bào)告的內(nèi)容。這些軟件現(xiàn)在都內(nèi)置了聊天機(jī)器人。

然而，由谷歌前員工創(chuàng)立的初創(chuàng)公司 Vectara 在 2023 年 11 月發(fā)布的一項(xiàng)研究發(fā)現(xiàn)，聊天機(jī)器人至少有 3% 的時(shí)間會(huì)“發(fā)明信息”。這聽(tīng)起來(lái)可能不算多，但是大多數(shù)企業(yè)都不能容忍。

目前，Cleanlab 的工具已經(jīng)被少數(shù)公司使用，包括總部位于英國(guó)的專門從事企業(yè)糾紛和調(diào)查的咨詢公司伯克利研究集團(tuán)。

伯克利研究小組副主任史蒂文戈索普（Steven Gawthorpe）表示，Trustworthy Language Model 是他看到的針對(duì)幻覺(jué)問(wèn)題的第一個(gè)可行解決方案。

Trustworthy Language Model 的基本思想是：模型之間的分歧可以用來(lái)衡量整個(gè)系統(tǒng)的可信度，并將其用于聊天機(jī)器人。

在 Cleanlab 上周給《麻省理工科技評(píng)論》的一個(gè)演示中，諾斯卡特在 ChatGPT 中鍵入了一個(gè)簡(jiǎn)單問(wèn)題：“字母‘n’在‘enter’中出現(xiàn)了多少次？”

ChatGPT 回答道：“字母‘n’在‘enter’一詞中出現(xiàn)一次。”

但再問(wèn)幾個(gè)問(wèn)題，ChatGPT 就會(huì)回答：“字母‘n'在單詞‘enter’中出現(xiàn)兩次。”

諾斯卡特說(shuō)：“它不僅經(jīng)常出錯(cuò)，而且是隨機(jī)的，你永遠(yuǎn)不知道它會(huì)輸出什么。”

在高風(fēng)險(xiǎn)情況下測(cè)試大模型的數(shù)據(jù)科學(xué)家，可能會(huì)被一些正確的答案誤導(dǎo)，并認(rèn)為未來(lái)的答案也是正確的，然后他們做的事情就會(huì)導(dǎo)致非常糟糕的商業(yè)決策。

而 Trustworthy Language Model 利用多種技術(shù)來(lái)計(jì)算其分?jǐn)?shù)。首先，提交給該工具的每個(gè)查詢，都被發(fā)送到幾個(gè)不同的大模型之中。

Cleanlab 目前正在使用 DBRX，這是一個(gè)由總部位于美國(guó)舊金山的人工智能公司 Databricks 開(kāi)發(fā)的開(kāi)源模型。

但諾斯卡特表示，這項(xiàng)技術(shù)將適用于任何模型，包括 Meta 的 Llama 模型、或 OpenAI 的 GPT 系列模型（即 ChatpGPT 背后的模型）。

如果每個(gè)模型的反應(yīng)相同或相似，它將有助于獲得更高的分?jǐn)?shù)。

同時(shí)，Trustworthy Language Model 還向每個(gè) DBRX 模型發(fā)送原始查詢的變體，交換具有相同含義的單詞。

同樣的，如果對(duì)同義查詢的響應(yīng)相似，則有助于獲得更高的分?jǐn)?shù)。此外，該工具還可以讓多個(gè)模型相互回應(yīng)。

英國(guó)劍橋微軟研究所的計(jì)算機(jī)科學(xué)家尼克麥肯納（Nick McKenna）專門研究用于代碼生成的大模型，他樂(lè)觀地認(rèn)為這種方法可能有用。

但他懷疑它是否完美，他說(shuō)：“我們?cè)谀Ｐ突糜X(jué)中看到的一個(gè)陷阱是，它們可以非常微妙地潛入。”

Cleanlab 在不同大模型的一系列測(cè)試中表明，其可信度得分、與這些模型的回答準(zhǔn)確性密切相關(guān)。

換句話說(shuō)，接近 1 的分?jǐn)?shù)與正確的回答一致，接近 0 的分?jǐn)?shù)與錯(cuò)誤的回答一致。

在另一項(xiàng)測(cè)試中，Cleanlab 還發(fā)現(xiàn)將 Trustworthy Language Model 與 GPT-4 一起使用，比單獨(dú)使用 GPT-4 能產(chǎn)生更可靠的響應(yīng)。

據(jù)介紹，大模型通過(guò)預(yù)測(cè)序列中最有可能的下一個(gè)單詞來(lái)生成文本。在未來(lái)的版本中，Cleanlab 計(jì)劃通過(guò)利用模型進(jìn)行預(yù)測(cè)的概率，使其得分變得更加準(zhǔn)確。

目前，Cleanlab 已經(jīng)根據(jù)伯克利研究小組提供的數(shù)據(jù)對(duì)其方法進(jìn)行了測(cè)試。該公司需要在數(shù)萬(wàn)份公司文件中查找有關(guān)醫(yī)療合規(guī)問(wèn)題的參考資料。

手工操作可能需要熟練的員工數(shù)周時(shí)間。而通過(guò)使用 Trustworthy Language Model 來(lái)檢查文檔，它減少了大約 80% 的工作量。

在另一項(xiàng)測(cè)試中，Cleanlab 與一家大型銀行合作（諾斯卡特不愿透露其名稱）。

與伯克利研究小組類似，該銀行需要在大約 10 萬(wàn)份文件中搜索保險(xiǎn)索賠的參考資料。

同樣的，Trustworthy Language Model 將需要手工檢查的文檔數(shù)量減少了一半以上。

另?yè)?jù)悉，使用多個(gè)模型、多次運(yùn)行每個(gè)查詢，比使用單個(gè)聊天機(jī)器人來(lái)回運(yùn)行每個(gè)查詢，要花費(fèi)更長(zhǎng)的時(shí)間和更多的成本。

但 Cleanlab 正在將 Trustworthy Language Model 宣傳為一項(xiàng)高級(jí)服務(wù)。這個(gè)想法不是為了取代現(xiàn)有的聊天機(jī)器人，而是為了讓聊天機(jī)器人可以做人類專家的工作。

諾斯卡特說(shuō)，如果該工具能夠以每小時(shí) 2000 美元的價(jià)格，大幅減少雇傭熟練經(jīng)濟(jì)學(xué)家或律師所需的時(shí)間，那么這些成本是值得的。

從長(zhǎng)遠(yuǎn)來(lái)看，諾斯卡特希望通過(guò)減少聊天機(jī)器人反應(yīng)的不確定性，向更廣泛的用戶釋放大模型的應(yīng)用前景。

作者簡(jiǎn)介：威爾道格拉斯海文（Will Douglas Heaven）是《麻省理工科技評(píng)論》人工智能欄目的高級(jí)編輯，他在這里報(bào)道新的研究、新興趨勢(shì)及其背后的人。此前，他是英國(guó)廣播公司（BBC）科技與地緣政治網(wǎng)站 Future Now 的創(chuàng)始編輯，也是 New Scientist 雜志的首席技術(shù)編輯。他擁有英國(guó)倫敦帝國(guó)理工學(xué)院計(jì)算機(jī)科學(xué)博士學(xué)位，深諳與機(jī)器人合作的體驗(yàn)。

支持：Ren

排版：羅以

相關(guān)熱詞： Cleanlab 公司打造新工具工具甄別大模型回

Cleanlab公司打造AI新工具，能甄別大模型的回答可信度
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 14:12:06 瀏覽：10308次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

Cleanlab公司打造AI新工具，能甄別大模型的回答可信度 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-04-30 14:12:06 瀏覽：10308次