北大計算機學院再登國際AI頂刊,張銘教授團隊揭露醫(yī)療AI致命漏洞
【新智元導讀】北京大學計算機學院張銘教授團隊聯(lián)合華盛頓大學等團隊,再次登上國際AI頂刊。研究發(fā)現(xiàn),只需要一篇惡意文本,就能顯著誤導推理系統(tǒng)對相應(yīng)藥物-疾病關(guān)系的認知,同時對此提出了高效的防御手段。
從科研文本中構(gòu)建的生物醫(yī)學知識圖譜,已被廣泛應(yīng)用于輔助醫(yī)學決策和挖掘新的醫(yī)學發(fā)現(xiàn)。
同時,大語言模型已經(jīng)展示出了生成高質(zhì)量文本的強大能力,此類文本在產(chǎn)生正面效益的同時,也可能污染公開數(shù)據(jù)庫,造成不可控的負面影響。
基于這些受污染數(shù)據(jù)庫構(gòu)建的醫(yī)學知識圖譜推理系統(tǒng)面臨潛在風險,可能影響藥物推薦和疾病研究等決策,甚至對患者的治療效果和安全構(gòu)成威脅。
因此,揭示并準確評估這種風險,并制定相應(yīng)的防御策略,在當今大模型和知識圖譜推理廣泛應(yīng)用的背景下,具有十分重要且緊迫的研究意義。
2024年9月20日,北京大學計算機學院張銘教授團隊聯(lián)合華盛頓大學助理教授王晟、博士后肖之屏在國際頂尖人工智能期刊Nature Machine Intelligence(簡稱NMI,最新影響因子為18.8)上發(fā)表了題為:Poisoning medical knowledge using large language models的研究論文。
論文開發(fā)了名為Scorpius的條件文本生成系統(tǒng),該系統(tǒng)利用大模型為指定的藥物-疾病關(guān)系對生成惡意文本。
論文發(fā)現(xiàn),只需要一篇惡意文本,就能顯著誤導推理系統(tǒng)對相應(yīng)藥物-疾病關(guān)系的認知。
同時,論文還提出了高效的防御手段來減少這種誤導所產(chǎn)生的負面影響。
論文地址:https://rdcu.be/dUytb
Scorpius的訓練數(shù)據(jù)、代碼、模型已開源:https://github.com/yjwtheonly/Scorpius
Scorpius的可交互服務(wù)器:https://huggingface.co/spaces/yjwtheonly/Scorpius_HF
Scorpius:利用大語言模型投毒醫(yī)學知識
從醫(yī)學文獻中構(gòu)建的生物醫(yī)學知識圖譜已被廣泛用于驗證生物醫(yī)學事實并生成新發(fā)現(xiàn)。
最近,大語言模型展示了生成文本數(shù)據(jù)的強大能力。盡管大多數(shù)這些文本數(shù)據(jù)是有用的,大語言模型也可能被用于生成惡意內(nèi)容。
研究團隊研究了是否可能使用大語言模型生成惡意論文,從而毒害醫(yī)學知識圖譜并進一步影響后續(xù)的生物醫(yī)學應(yīng)用。
為了探索這一問題,團隊開發(fā)了Scorpius,這是一個條件文本生成模型,能夠針對給定的推銷藥物和目標疾病生成惡意論文摘要。其目標是通過將這一惡意摘要與數(shù)百萬篇真實論文混合來影響醫(yī)學知識圖譜的構(gòu)建,進而欺騙圖譜使用者,使他們誤認為該推銷的藥物與目標疾病高度相關(guān)。
研究團隊在基于3,818,528篇論文構(gòu)建的知識圖譜上對Scorpius進行了評估,結(jié)果表明僅通過添加一篇惡意摘要,Scorpius就能將71.3%的藥物-疾病對的相關(guān)性從1000名之外提升到前10名。同時Scorpius生成的摘要在六項評估指標上都表現(xiàn)出了難以被有效檢測的特性。
審稿人指出,Scorpius能通過文本影響圖譜構(gòu)建進而操縱下游推理的現(xiàn)象,揭露了基于公開數(shù)據(jù)集的醫(yī)學知識發(fā)現(xiàn)流程中的一個高危漏洞,這凸顯了在大模型時代針對此類有毒攻擊設(shè)計強大防御體系的必要性。
圖2 利用大模型毒害醫(yī)學圖譜推理系統(tǒng)的概覽
(a)常見的從文本數(shù)據(jù)庫中抽取醫(yī)學知識圖譜,隨后進行圖譜推理產(chǎn)生醫(yī)學發(fā)現(xiàn)的流程;(b)利用大模型生成惡意醫(yī)學摘要,將其混入真實文本數(shù)據(jù)庫,進而毒害圖譜構(gòu)建,并誤導推理結(jié)果
對于一個從文本數(shù)據(jù)庫到產(chǎn)生推理結(jié)果的完整知識發(fā)現(xiàn)流程,研究團隊分別驗證了基于圖譜完成推理、基于文本數(shù)據(jù)庫構(gòu)建圖譜以及整個全流程的可毒害性。
圖3 醫(yī)學知識圖譜推理的可毒害性
(a-c)針對特定藥物-疾病對的毒害結(jié)果,在不同推理方式的評估中,添加一條惡意連邊均能顯著提升目標關(guān)系的排名;(d-f)疾病無關(guān)的毒害結(jié)果,隨著添加惡意連邊數(shù)量的增加,毒害效果逐漸增強;(g)加入多條惡意連邊的影響以及高敏感節(jié)點的發(fā)現(xiàn)
首先,研究人員通過在已構(gòu)建圖譜上直接添加惡意連邊的方式評估圖譜推理的可毒害性。
研究發(fā)現(xiàn),對于只針對特定藥物-疾病的毒害,只需要添加一條連邊,經(jīng)典的DistMult、ConvE和ComplEx推理方式便均會被誤導到指定結(jié)果上,使得目標藥物-疾病的相關(guān)性排名大幅上升(圖3 a-c)。
而對于不針對特定疾病,旨在提升某一藥物全局重要性的毒害,圖譜推理系統(tǒng)則表現(xiàn)出了更強的抵抗性,需要添加多條惡意連邊才能達成毒害目的(圖3 d-f)。
同時,研究還揭示了圖譜中存在高敏感的中心節(jié)點,這意味著添加與之相關(guān)的惡意連邊更容易達成毒害目的(圖3 g)。
這一系列結(jié)果表明,圖譜推理系統(tǒng)的自我糾錯能力較低,容易被毒害誤導。
圖4 醫(yī)學知識圖譜構(gòu)建的可毒害性
(a)利用隨機替換進行文本改寫;(b-e)在不同替換比例下使用多種圖譜抽取工具時的毒害成功率
其次,研究團隊驗證了從文本數(shù)據(jù)中抽取知識圖譜這一過程的可毒害性。
研究發(fā)現(xiàn),即使對真實文本進行大量的簡單替換改寫,即使改寫后的文本質(zhì)量顯著降低(圖4 a),現(xiàn)有的圖譜抽取工具(包括醫(yī)學專家知識驅(qū)動的GNBR,以及通用數(shù)據(jù)驅(qū)動的UIE、TDERR和LUKE)依然能抽取出目標關(guān)系(圖4 b-e)。
這一結(jié)果表明各種更高性能的大模型都能有效欺騙相關(guān)圖譜抽取模型。
圖5 利用大模型從文本源頭毒害醫(yī)學圖譜推理系統(tǒng)
(a-c)生成惡意醫(yī)學摘要并驗證毒害效果的流程圖。首先識別最具毒害收益且隱蔽的惡意連邊,隨后生成對應(yīng)惡意摘要,最后進行領(lǐng)域適配改寫;(d-f)不同防御強度下的毒害結(jié)果。在較低防御強度下,毒害目標被輕易達成(d);隨著防御的增強(e,f),毒害造成的影響逐漸減;(g-h)不同模型在不同防御強度下的毒害結(jié)果。Scorpius一致地取得了最強的毒害效果
最終,研究團隊開發(fā)了利用大模型從文本數(shù)據(jù)庫端毒害圖譜推理系統(tǒng)的Scorpius模型。
對于給定的毒害目標,Scorpius首先基于有害性和隱蔽性的綜合考量來選擇惡意連邊,隨后采用模板提示+大模型生成+領(lǐng)域適配改寫的方式生成對應(yīng)的惡意摘要文本。
最后,Scorpius將生成的惡意摘要和包含百萬篇真實paper的數(shù)據(jù)庫混合,從頭構(gòu)建圖譜并完成推理,并比較毒害目標在推理系統(tǒng)中的排名變化(圖5a-c)。
結(jié)果表明,現(xiàn)有的大模型GPT-3.5,GPT-4,F(xiàn)inetune-GPT-3.5,RAG-GPT-3.5,RAG-GPT-4均能達成毒害目的,而Scorpius取得了最強的毒害效果(圖5 d-h)。
此外,研究還發(fā)現(xiàn),采用更強的defender,建立更大更多元的醫(yī)學知識圖譜,使用專家審議的數(shù)據(jù)庫取代預印本數(shù)據(jù)庫均能在一定程度上降低這種毒害帶來的影響。
總的來說,研究團隊不僅衡量了醫(yī)學圖譜推理系統(tǒng)中各環(huán)節(jié)的可毒害性,進而揭示并定量評估了大模型的誤用對醫(yī)學發(fā)現(xiàn)可能造成的誤導,而且從defender設(shè)計和數(shù)據(jù)增強的角度對減少此類毒害做出了探索。
這些結(jié)果展現(xiàn)了基于公開數(shù)據(jù)集的醫(yī)學圖譜推理存在的高危漏洞,為在大模型時代開展更可信的醫(yī)學知識發(fā)現(xiàn)開辟了新的研究思路。
作者介紹
論文一作楊君維為北京大學計算機學院三年級博士生,導師為張銘教授。
王晟和肖之屏也是北京大學信息學院計算機系校友,都與張銘教授團隊有多年的合作。
北大團隊成員還有碩士留學生Srbuhi Mirzoyan,博士生劉澤群,博士后琚瑋、劉盧琛。