您的位置: 首頁 >科技 >

研究人員在擺脫數(shù)據(jù)方面取得了有限的成功

2022-08-25 04:11:20 編輯:仲俊瑤 來源:
導(dǎo)讀 人工智能系統(tǒng)有著奇怪的記憶。機器拼命地依賴于他們已經(jīng)訓(xùn)練過的數(shù)據(jù),因此難以刪除它的部分內(nèi)容。實際上,它們通常必須使用較新的較小數(shù)據(jù)...

人工智能系統(tǒng)有著奇怪的記憶。機器拼命地依賴于他們已經(jīng)訓(xùn)練過的數(shù)據(jù),因此難以刪除它的部分內(nèi)容。實際上,它們通常必須使用較新的較小數(shù)據(jù)集從頭開始重新訓(xùn)練。

在個人可以根據(jù)歐洲的GDPR規(guī)則等隱私措施要求將其個人數(shù)據(jù)從公司數(shù)據(jù)庫中刪除的時代,這并不好。如何從已經(jīng)過培訓(xùn)的機器學(xué)習(xí)中刪除一個人的敏感信息?一個2017年的研究論文通過法律和政策的學(xué)者暗示,甚至是不可能的。

“刪除很困難,因為大多數(shù)機器學(xué)習(xí)模型都是復(fù)雜的黑盒子,因此不清楚數(shù)據(jù)點或數(shù)據(jù)點是如何被真正使用的,”斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)助理教授James Zou告訴The。注冊。

為了省略特定數(shù)據(jù),通常必須使用較新的較小數(shù)據(jù)集重新訓(xùn)練模型。這是一個痛苦,因為它花費金錢和時間。

由斯坦福大學(xué)博士生Antonio Ginart領(lǐng)導(dǎo)的這項研究研究了試圖刪除機器學(xué)習(xí)模型中數(shù)據(jù)的問題,并設(shè)法制作了兩個“可證明刪除有效的算法”來刪除六個不同數(shù)據(jù)集中的數(shù)據(jù),用于k均值聚類模型,一種開發(fā)分類器的機器學(xué)習(xí)方法。結(jié)果已經(jīng)公布,本周在一份文件中的arXiv。

訣竅是評估從訓(xùn)練模型中刪除數(shù)據(jù)的影響。在某些情況下,它可能會導(dǎo)致系統(tǒng)性能下降。

“首先,快速檢查刪除數(shù)據(jù)點是否會對機器學(xué)習(xí)模型產(chǎn)生任何影響 - 有些設(shè)置沒有效果,因此我們可以非常有效地執(zhí)行此檢查。其次,看看要刪除的數(shù)據(jù)是否只影響學(xué)習(xí)系統(tǒng)的某些本地組件,只是在本地更新,“鄒解釋說。

在某些情況下,當(dāng)數(shù)據(jù)可以更容易分離時,它似乎對于k-means聚類模型是可行的。但是,對于像現(xiàn)代深度學(xué)習(xí)模型那樣不具有確定性的系統(tǒng),刪除數(shù)據(jù)非常困難。

鄒說,這并非完全不可能。“我們還沒有工具,但我們希望在未來幾個月內(nèi)開發(fā)這些刪除工具。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。