展會(huì)信息港展會(huì)大全

21歲SpaceX實(shí)習(xí)生用AI干出重大考古事件,斬獲40000美元
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2023-10-15 17:30:37   瀏覽:4095次  

導(dǎo)讀:金磊 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI 2000年前 的古卷軸(赫庫(kù)蘭尼姆卷軸),終于被一個(gè) 21歲 計(jì)算機(jī)少年給破譯了。 這個(gè)古卷軸可以說(shuō)是極其的特殊 在公元79年被一場(chǎng)火山爆發(fā)掩埋碳化,直到1752年才被挖掘出土。 而且由于古卷軸本身已經(jīng)太脆弱了,數(shù)百...

金磊 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

2000年前的古卷軸(赫庫(kù)蘭尼姆卷軸),終于被一個(gè)21歲計(jì)算機(jī)少年給破譯了。

這個(gè)古卷軸可以說(shuō)是極其的特殊

在公元79年被一場(chǎng)火山爆發(fā)掩埋碳化,直到1752年才被挖掘出土。

而且由于古卷軸本身已經(jīng)太脆弱了,數(shù)百年來(lái)沒(méi)人敢動(dòng)它,處理稍微不當(dāng)就可能化作塵埃的那種。

(注:赫庫(kù)蘭尼姆城和著名的龐貝古城相距8公里,位于意大利那不勒斯東南的維蘇威火山腳下;前者比龐貝古城更接近火山口。)

那么如何看到它上面記載了什么內(nèi)容,就成了困擾科學(xué)家們數(shù)百年的老大難問(wèn)題。

現(xiàn)如今,隨著這位計(jì)算機(jī)少年成功的破譯,使他成為了2000年來(lái)第一個(gè)從未打開(kāi)卷軸,卻“看”到了上面文字的人。

這項(xiàng)任務(wù)其實(shí)是來(lái)自一個(gè)叫做維蘇威火山的挑戰(zhàn)賽(Vesuvius Challenge):

要求參賽者在卷軸的4平方厘米區(qū)域內(nèi),至少找到10個(gè)字母

這位少年作為完成任務(wù)的第一人,也被活動(dòng)官方授予了40000美元的首字母獎(jiǎng)(First Letters Prize)。

很多小伙伴肯定好奇,少年破譯的文字到底是什么,不賣關(guān)子,直接揭曉謎底:

是古希臘語(yǔ)πορφυρα,意思是紫色染料或者紫色的衣服。

在結(jié)果出爐之后,比賽的贊助者、科技企業(yè)家Nat Friedman還手動(dòng)at了馬斯克,很驕傲地介紹這位少年:

他是你們SpaceX的實(shí)習(xí)生!

破解數(shù)千年古卷軸,AI立大功

這位少年名叫Luke Farritor(下文簡(jiǎn)稱盧克),是一位計(jì)算機(jī)專業(yè)學(xué)生。

而在講這位“屠龍少年”的故事之前,我們還需要鋪墊一下關(guān)于這個(gè)比賽的背景。

早在2019年,肯塔基大學(xué)EduceLab的Brent Seales教授,便在粒子加速器中,對(duì)赫庫(kù)蘭尼姆卷軸進(jìn)行了成像工作,并生成了分辨率高達(dá)4μm的3D CT掃描。

△Seales教授和團(tuán)隊(duì)在粒子加速器上掃描

這位教授的博士生Stephen Parsons,長(zhǎng)期致力于使用機(jī)器學(xué)習(xí)模型檢測(cè)CT掃描中的墨水。

于是他和他的團(tuán)隊(duì)掃描并拍攝了帶有可見(jiàn)墨水的分離卷軸碎片,從而提供了一個(gè)ground-truth數(shù)據(jù)集。

△來(lái)自Stephen的博士論文:在ground-truch數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型

這項(xiàng)研究成功引起了科技企業(yè)家Nat Friedman和Daniel Gross的注意;于是乎,在二人的贊助之下,便發(fā)起維蘇威火山挑戰(zhàn)賽。

他們?cè)诮衲耆掳l(fā)起公開(kāi)競(jìng)賽,設(shè)置總獎(jiǎng)金為70000美元,目的就是加速破譯古卷軸。

到了今年八月份的時(shí)候,一位叫做Casey Handmer的學(xué)者寫(xiě)了一篇博客,講述了他所發(fā)現(xiàn)的看起來(lái)像墨水的“裂紋模式(crackle pattern)”。

這可以說(shuō)是一個(gè)非常重要的突破進(jìn)展,即使是Stephen,此前也只是在分離的碎片上看到過(guò)墨水的直接證據(jù),但還沒(méi)有在卷軸上看到過(guò)。

然后盧克在一場(chǎng)播客中,偶然聽(tīng)到了這個(gè)消息和挑戰(zhàn)賽,也看到了Casey的裂紋模式在Discord上被廣泛討論。

這就引起了盧克非常大的興趣,并開(kāi)始利用晚上的時(shí)間,著手訓(xùn)練一個(gè)關(guān)于“裂紋模式”的機(jī)器學(xué)習(xí)模型。

在訓(xùn)練的過(guò)程中,他前前后后發(fā)現(xiàn)了幾十個(gè)墨跡比劃,還有一些完整的字母,盧克對(duì)它們做好了標(biāo)記并作為訓(xùn)練數(shù)據(jù)。

△左:在紙莎草纖維背景下可以看到有裂紋的墨水;右:生成的二進(jìn)制墨水標(biāo)簽。

沒(méi)過(guò)多久,模型就露出了肉眼看不見(jiàn)的裂紋痕跡;這些痕跡成了最后形成字母和實(shí)際單詞的線索。

下面這張圖便是盧克向挑戰(zhàn)賽提交的一個(gè)作品,隱約可以看到“ΠΟΡΦΥΡΑ”(porphyras)的單詞形狀,

當(dāng)Seales教授和團(tuán)隊(duì)看到這張圖的時(shí)候驚嘆道:

盡管字母很模糊,但他們可以立即讀出“porphyras”這個(gè)詞。

這個(gè)單詞在古代文獻(xiàn)中也并不是很常見(jiàn),但是也是經(jīng)得起推敲,大概意思就是“紫色的”。

一位專家解釋說(shuō):

序列πορφυρα ,可能是πορφρα(名詞,紫色染料或紫色布)或πορφυρ(形容詞,紫色)。

由于缺少上下文,也布排除是 πορφρα κ[ 或 πορφυρ κ[ 。

值得注意的是,古代的單詞和現(xiàn)代不同,那時(shí)候的文本沒(méi)有空格,因此單詞的邊界確定起來(lái)也是比較困難。

最終挑戰(zhàn)賽官方認(rèn)為,盧克值得獲得首字母獎(jiǎng);而他本人在得知這一消息的時(shí)候也非常激動(dòng):

另一位研究生也有相同的發(fā)現(xiàn)

無(wú)獨(dú)有偶,在Casey和盧克的工作激勵(lì)之下,另一位參賽者,來(lái)自柏林Egyptian biorobotics的研究生Youssef Nader,采用了不同的方法也得到了相同的結(jié)果。

他篩選了Kaggle上墨水檢測(cè)獎(jiǎng)的獲獎(jiǎng)作品,該獎(jiǎng)項(xiàng)的重點(diǎn)是改進(jìn)Stephen Parsons在分離片段中進(jìn)行機(jī)器學(xué)習(xí)的方法。

在此基礎(chǔ)上,他采用了域轉(zhuǎn)移技術(shù)使這些模型適應(yīng)古卷軸:對(duì)卷軸數(shù)據(jù)進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,然后對(duì)片段標(biāo)簽進(jìn)行微調(diào)。

使用Kaggle競(jìng)賽的這個(gè)修改模型,他設(shè)法找到了一些字母,盡管完全不依賴于Casey手動(dòng)尋找裂紋的方法。然后,他將看起來(lái)像字母形狀的東西注釋到標(biāo)簽數(shù)據(jù)中。

△左:Youssef工作的最早的圖像;右:他的第一組假設(shè)墨水標(biāo)簽。

在反復(fù)的優(yōu)化之下,Youssef向官方提交的作品如下:

最終,Youssef獲得了首字母獎(jiǎng)的二等獎(jiǎng),10000美元。

專家們?cè)诳吹結(jié)oussef的工作之后,更加確認(rèn)了盧克發(fā)現(xiàn)的古卷軸中的文字。

他們甚至開(kāi)始推測(cè)上面和下面的單詞,可能是ανυοντα(實(shí)現(xiàn))和ομοιων(類似)。

而就在前幾天,Youssef的模型產(chǎn)生了更為驚人的結(jié)果:

在這張圖中,你可以清楚地看到四列半的文本,用一定的邊距隔開(kāi)。

盡管并非所有字母都能被專家們立即辨認(rèn)出來(lái),但起碼可以看到更多的字母了。

官方表示,專家們正在做進(jìn)一步的調(diào)研,很快將會(huì)有新的結(jié)果。

參考鏈接:

[1]https://scrollprize.org/firstletters

[2]https://news.ycombinator.com/item?id=37857417

[3]https://twitter.com/natfriedman/status/1712470683207532906

[4]https://caseyhandmer.wordpress.com/2023/08/05/reading-ancient-scrolls/

贊助本站

人工智能實(shí)驗(yàn)室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港