展會信息港展會大全

徹底摒棄人工標(biāo)注,AutoAlign方法基于大模型讓知識圖譜對齊全自動化
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-07-26 14:27:05   瀏覽:6306次  

導(dǎo)讀:本工作由來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國科學(xué)院大學(xué)的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等學(xué)者團(tuán)隊聯(lián)合完成。該團(tuán)隊專注于大模型、知識圖譜、推薦搜索、自然語言處理、大數(shù)...

本工作由來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國科學(xué)院大學(xué)的 Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi 等學(xué)者團(tuán)隊聯(lián)合完成。該團(tuán)隊專注于大模型、知識圖譜、推薦搜索、自然語言處理、大數(shù)據(jù)等方向的研究。

知識圖譜作為結(jié)構(gòu)化知識的重要載體,廣泛應(yīng)用于信息檢索、電商、決策推理等眾多領(lǐng)域。然而,由于不同機(jī)構(gòu)或方法構(gòu)建的知識圖譜存在表示方式、覆蓋范圍等方面的差異,如何有效地將不同的知識圖譜進(jìn)行融合,以獲得更加全面、豐富的知識體系,成為提高知識圖譜覆蓋度和準(zhǔn)確率的重要問題,這就是知識圖譜對齊(Knowledge Graph Alignment)任務(wù)所要解決的核心挑戰(zhàn)。

傳統(tǒng)的知識圖譜對齊方法必須依賴人工標(biāo)注來對齊一些實體(entity)和謂詞(predicate)等作為種子實體對。這樣的方法昂貴、低效、而且對齊的效果不佳。來自清華大學(xué)、墨爾本大學(xué)、香港中文大學(xué)、中國科學(xué)院大學(xué)的學(xué)者聯(lián)合提出了一種基于大模型的全自動進(jìn)行知識圖譜對齊的方法AutoAlign。AutoAlign徹底不需要人工來標(biāo)注對齊的種子實體或者謂詞對,而是完全通過算法對于實體語義和結(jié)構(gòu)的理解來進(jìn)行對齊,顯著提高了效率和準(zhǔn)確性。

論文:AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models,36 (6) TKDE 2024

論文鏈接:https://arxiv.org/abs/2307.11772

代碼鏈接:https://github.com/ruizhang-ai/AutoAlign

模型介紹

AutoAlign 主要由兩部分組成:

用于將謂詞(predicate)對齊的謂詞嵌入模塊(Predicate Embedding Module)。

用于將實體(entity)對齊的實體嵌入學(xué)習(xí)部分,包括兩個模塊:屬性嵌入模塊 (Attribute Embedding Module)和結(jié)構(gòu)嵌入模塊(Structure Embedding Module)。

總體流程如下圖所示:

謂詞嵌入模塊:謂詞嵌入模塊旨在對齊兩個知識圖譜中代表相同含義的謂詞。例如,將“is_in”和“located_in”進(jìn)行對齊。為了實現(xiàn)這一目標(biāo),研究團(tuán)隊創(chuàng)建了一個謂詞鄰近圖(Predicate Proximity Graph),將兩個知識圖譜合并成一個圖,并將其中的實體替換為其對應(yīng)的類型(Entity Type)。這種方式基于以下假設(shè):相同(或相似)的謂詞,其對應(yīng)的實體類型也應(yīng)相似(例如,“is_in”和“located_in”的目標(biāo)實體類型大概率屬于location或city)。通過大語言模型對類型的語義理解,進(jìn)一步對齊這些類型,提高了三元組學(xué)習(xí)的準(zhǔn)確性。最終,通過圖編碼方法(如TransE)對謂詞鄰近圖的學(xué)習(xí),使得相同(或相似)的謂詞具有相似的嵌入,從而實現(xiàn)謂詞的對齊。

具體實現(xiàn)上,研究團(tuán)隊首先構(gòu)建謂詞鄰近圖。謂詞鄰近圖是一種描述實體類型之間關(guān)系的圖。實體類型表示實體的廣泛類別,可以自動鏈接不同的實體。即使某些謂詞的表面形式不同(例如“lgd:is_in”和“dbp:located_in”),通過學(xué)習(xí)謂詞鄰近圖,可以有效識別它們的相似性。構(gòu)建謂詞鄰近圖的步驟如下:

實體類型提取:研究團(tuán)隊通過獲取每個實體在知識圖譜中的rdfs:type謂詞的值來提取實體類型。通常,每個實體有多個類型。例如,德國(Germany)實體在知識圖譜中可能有多個類型,如“thing”、“place”、“location”和“country”。在謂詞鄰近圖中,他們用一組實體類型替換每個三元組的頭實體和尾實體。

類型對齊:由于不同知識圖譜中的實體類型可能使用不同的表面形式(例如,“person”和“people”),研究團(tuán)隊需要對齊這些類型。為此,研究團(tuán)隊利用最新的大語言模型(如ChatGPT和Claude)來自動對齊這些類型。例如,研究團(tuán)隊可以使用Claude2來識別兩個知識圖譜中相似的類型對,然后將所有相似類型對齊為統(tǒng)一的表示形式。為此,研究團(tuán)隊設(shè)計了一套自動化提示詞(prompt),能夠根據(jù)不同的知識圖譜進(jìn)行自動化對齊詞的獲齲

為了捕捉謂詞相似性,需要聚合多個實體類型。研究團(tuán)隊提出了兩種聚合方法:加權(quán)和基于注意力的函數(shù)。在實驗中,他們發(fā)現(xiàn)基于注意力的函數(shù)效果更好。具體而言,他們計算每個實體類型的注意力權(quán)重,并通過加權(quán)求和的方式獲得最終的偽類型嵌入。接下來,研究團(tuán)隊通過最小化目標(biāo)函數(shù)來訓(xùn)練謂詞嵌入,使得相似的謂詞具有相似的向量表示。

屬性嵌入模塊和結(jié)構(gòu)嵌入模塊:屬性嵌入模塊和結(jié)構(gòu)嵌入模塊都用于實體(entity)對齊。它們的思想和謂詞嵌入相似,即對于相同(或相似)的實體,其對應(yīng)的三元組中的謂詞和另一個實體也應(yīng)該具有相似性。因此,在謂詞對齊(通過謂詞嵌入模塊)和屬性對齊(通過 Attribute Character Embeding 方法)的情況下,我們可以通過TransE使相似的實體學(xué)習(xí)到相似的嵌入。具體來說:

屬性嵌入學(xué)習(xí):屬性嵌入模塊通過編碼屬性值的字符序列來建立頭實體和屬性值之間的關(guān)系。研究團(tuán)隊提出了三種組合函數(shù)來編碼屬性值:求和組合函數(shù)、基于LSTM的組合函數(shù)和基于N-gram的組合函數(shù)。通過這些函數(shù),我們能夠捕捉屬性值之間的相似性,從而使得兩個知識圖譜中的實體屬性可以對齊。

結(jié)構(gòu)嵌入學(xué)習(xí):結(jié)構(gòu)嵌入模塊基于TransE方法進(jìn)行了改進(jìn),通過賦予不同鄰居不同的權(quán)重來學(xué)習(xí)實體的嵌入。已對齊的謂詞和隱含對齊的謂詞將獲得更高的權(quán)重,而未對齊的謂詞則被視為噪聲。通過這種方式,結(jié)構(gòu)嵌入模塊能夠更有效地從已對齊的三元組中學(xué)習(xí)。

聯(lián)合訓(xùn)練:謂詞嵌入模塊、屬性嵌入模塊和結(jié)構(gòu)嵌入模塊這三個模塊可以進(jìn)行交替訓(xùn)練,通過交替學(xué)習(xí)的方式互相影響,通過優(yōu)化嵌入使其在各個結(jié)構(gòu)的表示中達(dá)到整體最優(yōu)。訓(xùn)練完成后,研究團(tuán)隊獲得了實體(entity)、謂詞(predicate)、屬性(attribute)和類型(type)的嵌入表示。最后,我們通過對比兩個知識圖譜中的實體相似性(如cosine similarity),找到相似性高的實體對(需要高于一個閾值)來進(jìn)行實體對齊。

實驗結(jié)果

研究團(tuán)隊在最新的基準(zhǔn)數(shù)據(jù)集DWY-NB (Rui Zhang, 2022) 上進(jìn)行了實驗,主要結(jié)果如下表所示。

AutoAlign在知識圖譜對齊性能方面有顯著提升,特別是在缺少人工標(biāo)注種子的情況下,表現(xiàn)尤為出色。在沒有人工標(biāo)注的情況下,現(xiàn)有的模型幾乎無法進(jìn)行有效對齊。然而,AutoAlign在這種條件下依然能夠取得優(yōu)異的表現(xiàn)。在兩個數(shù)據(jù)集上,AutoAlign在沒有人工標(biāo)注種子的情況下,相比于現(xiàn)有最佳基準(zhǔn)模型(即使有人工標(biāo)注)有顯著的提升。這些結(jié)果表明,AutoAlign不僅在對齊準(zhǔn)確性上優(yōu)于現(xiàn)有方法,而且在完全自動化的對齊任務(wù)中展現(xiàn)了強(qiáng)大的優(yōu)勢。

參考文獻(xiàn):

Rui Zhang, Bayu D. Trisedya, Miao Li, Yong Jiang, and Jianzhong Qi (2022). A Benchmark and Comprehensive Survey on Knowledge Graph Entity Alignment via Representation Learning. VLDB Journal, 31 (5), 11431168, 2022.

贊助本站

人工智能實驗室
相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港