展會信息港展會大全

人工智能寫作檢測工具不靠譜,美國憲法竟被認(rèn)為是機(jī)器人寫的
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-07-17 16:47:39   瀏覽:14129次  

導(dǎo)讀:IT之家 7 月 16 日消息,近日有網(wǎng)友發(fā)現(xiàn),如果將美國最重要的法律文件美國憲法輸入一些專門用來檢測人工智能寫作的工具中,會得到一個令人驚訝的結(jié)果:美國憲法幾乎肯定是由人工智能寫的。除非詹姆斯麥迪遜(美國第四任總統(tǒng),美國憲法之父)是個穿越者,否則...

IT之家 7 月 16 日消息,近日有網(wǎng)友發(fā)現(xiàn),如果將美國最重要的法律文件美國憲法輸入一些專門用來檢測人工智能寫作的工具中,會得到一個令人驚訝的結(jié)果:美國憲法幾乎肯定是由人工智能寫的。除非詹姆斯·麥迪遜(美國第四任總統(tǒng),“美國憲法之父”)是個穿越者,否則這顯然是不可能的。那么為什么這些 AI 檢測工具會出現(xiàn)這樣的錯誤呢?外媒 Arstechnica 采訪了幾位專家,以及 AI 檢測工具 GPTZero 的開發(fā)者,來揭開其中的原因。

在教育領(lǐng)域,人工智能寫作引發(fā)了不少爭議。長期以來,教師們依賴于傳統(tǒng)的教學(xué)方法,將論文作為衡量學(xué)生對某一主題掌握程度的工具。很多老師試圖依靠 AI 工具來檢測 AI 生成的寫作,但迄今為止的證據(jù)表明,它們并不可靠。由于存在誤報的情況,AI 檢測工具如 GPTZero、ZeroGPT 和 OpenAI 的文本分類器都不靠譜,不能用來判斷文章是否是由大型語言模型(LLM)生成的。

當(dāng)將美國憲法的一部分輸入 GPTZero 時,GPTZero 會稱這段文字“很可能完全由 AI 寫成”。在過去的六個月里,其他 AI 檢測工具顯示出類似結(jié)果的截圖多次在社交媒體上瘋傳。實際上,如果輸入《圣經(jīng)》中的一些內(nèi)容,也會出現(xiàn)同樣的情況。要解釋為什么這些工具會犯這樣明顯的錯誤,我們首先需要了解它們是如何工作的。

據(jù)IT之家了解,不同的人工智能寫作檢測器使用略有不同的檢測方法,但基本原理相似:通過一個人工智能模型,在大量文本(包括數(shù)百萬個寫作示例)和一套假定的規(guī)則(用來確定寫作是更可能由人類還是人工智能生成)上進(jìn)行了訓(xùn)練。

例如,GPTZero 的核心是一個神經(jīng)網(wǎng)絡(luò),它在“一個大型、多樣化的語料庫上進(jìn)行了訓(xùn)練,該語料庫包括人類寫作和人工智能生成的文本,重點是英語散文”。接下來,該系統(tǒng)使用“困惑度”和“突發(fā)性”等屬性來評估文本并進(jìn)行分類。

在機(jī)器學(xué)習(xí)中,困惑度是衡量一段文本與一個人工智能模型在訓(xùn)練過程中所學(xué)習(xí)內(nèi)容之間偏離程度的指標(biāo)。測量困惑度的思路是,當(dāng)人工智能模型寫作時,它們會自然地選擇它們最熟悉的內(nèi)容,這些內(nèi)容來自于它們的訓(xùn)練數(shù)據(jù)。輸出越接近訓(xùn)練數(shù)據(jù),困惑度就越低。人類則是更混亂的寫作者,人類也可以用低困惑度來寫作,尤其是當(dāng)模仿法律或某些類型的學(xué)術(shù)寫作中使用的正式風(fēng)格時。而且,我們使用的很多短語都出奇地常見。

比如說,我們要猜測這個短語中的下一個詞:“我想要一杯_____。”大多數(shù)人會用“水”、“咖啡”或“茶”來填空。一個在大量英語文本上進(jìn)行訓(xùn)練的語言模型也會這樣做,因為這些短語在英語寫作中經(jīng)常出現(xiàn),這些結(jié)果中的任何一個都會有很低的困惑度。

GPTZero 測量的文本的另一個屬性是“突發(fā)性”,它是指某些單詞或短語快速連續(xù)出現(xiàn)或在文本中“突發(fā)”的現(xiàn)象。本質(zhì)上,突發(fā)性評估整個文本中句子長度和結(jié)構(gòu)的可變性。人類作家經(jīng)常表現(xiàn)出動態(tài)的寫作風(fēng)格,導(dǎo)致文本具有可變的句子長度和結(jié)構(gòu),而人工智能生成的文本往往更加一致和統(tǒng)一。然而,突發(fā)性也不是檢測人工智能生成內(nèi)容的萬無一失的指標(biāo)。與“困惑度”一樣,也有例外。人類作家可能會以高度結(jié)構(gòu)化、一致的風(fēng)格寫作,從而導(dǎo)致突發(fā)性得分較低。相反,人工智能模型可以經(jīng)過訓(xùn)練,在句子長度和結(jié)構(gòu)上模擬更接近人類的可變性,從而提高其突發(fā)性得分。事實上,隨著人工智能語言模型的改進(jìn),研究表明它們的寫作看起來越來越像人類的寫作。

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港