您的位置: 首頁 >互聯(lián)網(wǎng) >

從科學(xué)文本中提取關(guān)鍵信息的新系統(tǒng)

2020-06-10 15:05:21 編輯: 來源:
導(dǎo)讀 科學(xué)文章,如研究文章或評(píng)論,有時(shí)很難分析和理解,特別是對(duì)于非專業(yè)讀者。近年來,工程師們?cè)噲D開發(fā)一種方法,可以自動(dòng)從密集的科學(xué)文本中提取最重要的信息,然后用來指導(dǎo)讀者并幫助他們理解文本。 然而,目前開發(fā)的一些信息提取(IE)系統(tǒng)只能提取文本內(nèi)容的一小部分,而另一些系統(tǒng)在包含長句子和復(fù)雜句子的文本上表現(xiàn)不佳。在最近預(yù)發(fā)表在arXiv上的一篇論文中,蘇格蘭Heriot-Watt大學(xué)的研究人員介紹了一

科學(xué)文章,如研究文章或評(píng)論,有時(shí)很難分析和理解,特別是對(duì)于非專業(yè)讀者。近年來,工程師們?cè)噲D開發(fā)一種方法,可以自動(dòng)從密集的科學(xué)文本中提取最重要的信息,然后用來指導(dǎo)讀者并幫助他們理解文本。

然而,目前開發(fā)的一些信息提取(IE)系統(tǒng)只能提取文本內(nèi)容的一小部分,而另一些系統(tǒng)在包含長句子和復(fù)雜句子的文本上表現(xiàn)不佳。在最近預(yù)發(fā)表在arXiv上的一篇論文中,蘇格蘭Heriot-Watt大學(xué)的研究人員介紹了一種新的IE方法,該方法結(jié)合了從科學(xué)文本中提取信息的兩種最常用技術(shù)。

“我們?cè)诤杖鹜咛卮髮W(xué)的研究旨在支持自然激發(fā)的問題解決,”進(jìn)行這項(xiàng)研究的研究人員之一魯本·克魯伯告訴TechXplore。他的想法是,工程師需要在生物學(xué)研究論文中找到相關(guān)信息。一個(gè)主要問題是,工程師和整個(gè)行業(yè)普遍缺乏生物學(xué)專業(yè)知識(shí),甚至無法識(shí)別相關(guān)信息。”

試圖理解生物學(xué)論文并在研究中應(yīng)用這些論文中提出的概念的計(jì)算機(jī)科學(xué)家,往往很難理解生物學(xué)術(shù)語,并迅速?zèng)Q定一篇文章是否值得深入閱讀。這些問題也經(jīng)常被那些在他們所閱讀的科學(xué)領(lǐng)域缺乏專業(yè)知識(shí)的讀者所遇到。

Kruiper說:“有時(shí)候,即使是專家也會(huì)花上幾個(gè)小時(shí)來確定新出版文獻(xiàn)的中心主題和概念。”“在我們的工作中,我們?cè)噲D通過提供科學(xué)文本中所討論的中心概念的概述來支持所有讀者?!?/p>

通常,有兩種系統(tǒng)可以從科學(xué)文本中提取信息:狹窄的和開放的IE系統(tǒng)。第一種是通過精確地識(shí)別文本中包含的不同概念之間的一些關(guān)系,例如在藥理學(xué)研究中關(guān)注藥物-基因的相互作用。然而,要使這種類型的系統(tǒng)工作,研究人員需要指定它應(yīng)該尋找的關(guān)系的類型。

第二種IE系統(tǒng)實(shí)現(xiàn)了散點(diǎn)式方法,例如揭示由動(dòng)詞連接的名詞和短語對(duì)。這種方法的一個(gè)局限性是,它讓研究人員很難控制他們所提取的事實(shí)。此外,通常包含在科學(xué)文本中的句子的復(fù)雜句法會(huì)影響系統(tǒng)的性能,導(dǎo)致提取錯(cuò)誤、不完整或不相關(guān)的信息。

Kruiper說:“我們的方法結(jié)合了兩種類型系統(tǒng)的輸出,我們稱之為半開放關(guān)系提取?!薄拔覀兙_地提取我們想要的信息,然后用這些提取來過濾一個(gè)分散射擊系統(tǒng)的結(jié)果?!?/p>

由Kruiper和他的同事開發(fā)的系統(tǒng)在兩種最常用的IE技術(shù)的準(zhǔn)確性和靈活性之間找到了一種獨(dú)特的平衡。研究人員在一個(gè)包含10000個(gè)生物相關(guān)文本的語料庫上運(yùn)行它,發(fā)現(xiàn)它取得了顯著的性能,成功地提取了其中包含的最關(guān)鍵的信息。

“我們證明了我們的半開放關(guān)系提取方法是值得的,”Kruiper說。過濾由scattershot系統(tǒng)提取的事實(shí)提高了整體質(zhì)量,同時(shí)大大減少了文檔中事實(shí)的壓倒性數(shù)量。我們開發(fā)的綜合方法可以合理準(zhǔn)確地確定這種中心關(guān)系,同時(shí)也確定密切相關(guān)的事實(shí)。”

這組研究人員引入的半開放關(guān)系提取系統(tǒng)可以自動(dòng)提取出一篇科學(xué)文章中包含的要點(diǎn),讓讀者快速判斷是否值得深入閱讀,并確定可能感興趣的部分。

IE系統(tǒng)的代碼在網(wǎng)上公開,可以在Kuiper的GitHub頁面上訪問。在未來,它可能會(huì)被證明對(duì)研究人員或工程師有用,他們正在尋找一個(gè)主題的科學(xué)信息,而不是他們的專業(yè)領(lǐng)域,或者需要快速瀏覽大量的研究文章。

到目前為止,研究人員僅僅探索了將狹窄和開放IE系統(tǒng)結(jié)合起來的可行性。在他們接下來的研究中,他們想要編纂一個(gè)可以用來訓(xùn)練IE技術(shù)的數(shù)據(jù)集,進(jìn)一步從科學(xué)文本中突破IE的邊界。

Kruiper說:“改善和簡(jiǎn)化整個(gè)系統(tǒng)還有很大的空間?!比欢?,目前的設(shè)置已經(jīng)能夠收集更大更全面的數(shù)據(jù)集。準(zhǔn)備這樣一個(gè)數(shù)據(jù)集來訓(xùn)練新系統(tǒng),以及在仿生案例研究中使用當(dāng)前的設(shè)置,將為我們想要精確提取的信息類型提供有價(jià)值的見解?!?/p>

Kruiper和他的同事在Heriot-Watt大學(xué)的交互實(shí)驗(yàn)室和受自然啟發(fā)的制造中心(NIMC)工作,該中心的主要任務(wù)是支持企業(yè)尋找更可持續(xù)的制造解決方案。因此,除了進(jìn)行進(jìn)一步的研究,他們目前正在尋求英國政府和公司的資助,以支持他們的工作和開發(fā)新技術(shù)。



免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)