您的位置: 首頁 >科技 >

人工智能有一個(gè)大數(shù)據(jù)問題以下是解決方法

2020-06-18 16:01:49 編輯: 來源:
導(dǎo)讀 毫不夸張地說,人工智能已經(jīng)遇到了一個(gè)大數(shù)據(jù)問題,而危機(jī)現(xiàn)在已經(jīng)讓這個(gè)問題變得不可能再被忽視。 對(duì)于企業(yè)、政府和個(gè)人來說,這場(chǎng)全球大流行有效地重新定義了“正?!鄙?但是,盡管我們大多數(shù)人現(xiàn)在已經(jīng)適應(yīng)了這種變化,AI系統(tǒng)卻不能這樣說,因?yàn)樗鼈兊念A(yù)測(cè)是建立在過去的樣子之上的。 在CogX 2020大會(huì)上,英國數(shù)學(xué)家大衛(wèi)·巴伯說:“人工智能系統(tǒng)的部署目前是笨拙的。通常,你去那里,收集

毫不夸張地說,人工智能已經(jīng)遇到了一個(gè)大數(shù)據(jù)問題,而危機(jī)現(xiàn)在已經(jīng)讓這個(gè)問題變得不可能再被忽視。

對(duì)于企業(yè)、政府和個(gè)人來說,這場(chǎng)全球大流行有效地重新定義了“正?!鄙?但是,盡管我們大多數(shù)人現(xiàn)在已經(jīng)適應(yīng)了這種變化,AI系統(tǒng)卻不能這樣說,因?yàn)樗鼈兊念A(yù)測(cè)是建立在過去的樣子之上的。

在CogX 2020大會(huì)上,英國數(shù)學(xué)家大衛(wèi)·巴伯說:“人工智能系統(tǒng)的部署目前是笨拙的。通常,你去那里,收集你的數(shù)據(jù)集,標(biāo)記它,培訓(xùn)系統(tǒng),然后部署它。就是這樣——你不必重新訪問已部署的系統(tǒng)。但如果環(huán)境在變化,這就不好了?!?/p>

巴伯指的是監(jiān)督機(jī)器學(xué)習(xí),他將其稱為當(dāng)今人工智能的“經(jīng)典范式”,包括通過實(shí)例來教算法。在監(jiān)督模型中,人工智能系統(tǒng)被輸入一個(gè)大數(shù)據(jù)集,這些數(shù)據(jù)集之前已經(jīng)被人類標(biāo)記過,用來訓(xùn)練技術(shù)識(shí)別模式和做出預(yù)測(cè)。

例如,您可以訓(xùn)練一種算法來基于個(gè)人收入或信用評(píng)分自動(dòng)化銀行的貸款決策。如果出現(xiàn),再加上一套全新的銀行模式,人工智能系統(tǒng)很可能無法決定誰能得到這筆錢。

同樣,危機(jī)爆發(fā)幾個(gè)月后,一位美國研究人員指出,盡管已經(jīng)向算法提供了所有的訓(xùn)練數(shù)據(jù),但算法對(duì)于理解疫情的性質(zhì)或其在全球的傳播并沒有多大幫助。

這項(xiàng)研究解釋說,由于缺乏關(guān)于過去的培訓(xùn)數(shù)據(jù),人工智能工具產(chǎn)生的大多數(shù)預(yù)測(cè)被發(fā)現(xiàn)缺乏可靠性,結(jié)果往往偏離了危機(jī)的嚴(yán)重性。

與此同時(shí),在healthtech,人工智能健康工具的制造商難以更新自己的算法,原因是缺乏有關(guān)該病毒的相關(guān)數(shù)據(jù),導(dǎo)致許多“癥狀發(fā)現(xiàn)者”(symptom finder)聊天機(jī)器人出現(xiàn)了一點(diǎn)問題。

由于來自前covid環(huán)境的數(shù)據(jù)不再與現(xiàn)實(shí)世界相匹配,監(jiān)督算法正在耗盡其預(yù)測(cè)所依據(jù)的例子。更糟糕的是,人工智能系統(tǒng)不會(huì)將它們的不確定性告知人類操作員。

巴伯說:“人工智能不會(huì)告訴你,它實(shí)際上對(duì)自己的預(yù)測(cè)的準(zhǔn)確性沒有信心,需要人類介入。”“這些系統(tǒng)中有很多不確定因素。因此,當(dāng)人工智能對(duì)自己的決定沒有信心時(shí),提醒人類是很重要的?!?/p>

這就是巴伯所說的“人工智能同事情境”,在這種情境中,人類和機(jī)器將進(jìn)行互動(dòng),以確??瞻撞粫?huì)被填補(bǔ)。事實(shí)上,它是人工智能中的一種方法,正慢慢成為一種特別有效的方法。

它被稱為“主動(dòng)學(xué)習(xí)”,包括在人工智能系統(tǒng)和人類操作員之間建立一種“師-學(xué)”關(guān)系。主動(dòng)學(xué)習(xí)不是向算法提供一個(gè)巨大的標(biāo)記數(shù)據(jù)集,然后讓它得出結(jié)論——通常是以一種不那么透明的方式——而是讓人工智能系統(tǒng)自己做大量的數(shù)據(jù)標(biāo)記,而且最重要的是,當(dāng)它有疑問時(shí)提出問題。

這個(gè)過程涉及到一個(gè)小的人工標(biāo)記數(shù)據(jù)池,稱為種子,用于訓(xùn)練算法。人工智能系統(tǒng)隨后會(huì)得到一組更大的未標(biāo)記數(shù)據(jù),算法會(huì)根據(jù)自己的訓(xùn)練對(duì)其進(jìn)行注釋,然后再將這些新標(biāo)記的數(shù)據(jù)整合回種子中。

當(dāng)工具對(duì)某個(gè)特定的標(biāo)簽沒有信心時(shí),它可以以查詢的形式向人工操作人員請(qǐng)求幫助。然后,人類專家做出的選擇會(huì)反饋給系統(tǒng),以改善整個(gè)學(xué)習(xí)過程。

主動(dòng)學(xué)習(xí)的直接吸引力在于訓(xùn)練系統(tǒng)所需的標(biāo)記數(shù)據(jù)量要小得多。監(jiān)督算法,因?yàn)樗鼈儾荒茏约簩W(xué)習(xí),所以需要人類提供大量的帶標(biāo)簽的例子。這意味著需要為任何給定的數(shù)據(jù)集手工標(biāo)記數(shù)十億個(gè)數(shù)據(jù)點(diǎn),這將是一個(gè)漫長而昂貴的過程。

一些平臺(tái),如亞馬遜的土耳其機(jī)器人,甚至專門將遍布全球的大量低成本勞動(dòng)力連接起來。他們被稱為“土耳其人”,每天點(diǎn)擊數(shù)千張圖片,按要求注釋數(shù)據(jù)點(diǎn),所有這些都將用于訓(xùn)練未來的算法。

另一方面,主動(dòng)學(xué)習(xí)只需要標(biāo)記一個(gè)小的數(shù)據(jù)種子池。事實(shí)上,Barber估計(jì)該過程所涉及的注釋要少十倍。

他不是唯一一個(gè)發(fā)現(xiàn)這種方法的特殊好處的人。尤其是大型科技公司,它們對(duì)減少為自己的算法提供標(biāo)簽數(shù)據(jù)的數(shù)量有著濃厚的興趣。

Facebook的人工智能部門在開發(fā)一種人工智能學(xué)習(xí)模型和多種應(yīng)用程序上投入了大量資金,包括識(shí)別有害內(nèi)容。這家科技巨頭最近公布的結(jié)果顯示,其人工智能團(tuán)隊(duì)使用一種師生結(jié)合的方法,成功地訓(xùn)練了一種基于10億張未標(biāo)記圖像的圖像分類算法,使用的是“相對(duì)較小的”標(biāo)記數(shù)據(jù)集。

但這不僅僅是關(guān)于減少數(shù)據(jù)標(biāo)記的過程:主動(dòng)學(xué)習(xí)也比監(jiān)督學(xué)習(xí)更有效。當(dāng)它面對(duì)不確定的數(shù)據(jù)時(shí),能夠向人類請(qǐng)教如何關(guān)注,這意味著一個(gè)“活躍的”人工智能系統(tǒng)不僅能對(duì)未知做出反應(yīng),還能從中學(xué)習(xí)。

在內(nèi)容審核的情況下,一個(gè)“主動(dòng)”算法會(huì)做出更明智的決定,因?yàn)樗鼤?huì)越來越多地學(xué)會(huì)發(fā)現(xiàn)越來越多的微妙形式的內(nèi)容違規(guī)。一個(gè)“活躍的”人工智能系統(tǒng)在自然語言處理或醫(yī)學(xué)成像方面也會(huì)非常高效。

Barber補(bǔ)充說,該技術(shù)的一個(gè)高調(diào)應(yīng)用是在無人駕駛汽車上,在無人駕駛汽車上,視頻仍然需要被分割成部分,并標(biāo)記為“行人”、“汽車”、“樹”和其他物體,汽車需要識(shí)別。注釋數(shù)以百萬計(jì)的視頻既費(fèi)時(shí)又昂貴;另一方面,讓算法學(xué)習(xí)和提問可以顯著加快這一過程。

而且,當(dāng)全球大流行襲來時(shí),“活躍的”人工智能系統(tǒng)將能夠?qū)崟r(shí)整合新的數(shù)據(jù),以及一些人工輸入,然后調(diào)整它們的預(yù)測(cè)——而不是等待大型數(shù)據(jù)集被人工注釋以供訓(xùn)練。

Barber對(duì)ZDNet表示:“如果你正在使用收集大量數(shù)據(jù)、然后訓(xùn)練深度學(xué)習(xí)模型的傳統(tǒng)方法開發(fā)AI,那么就只能這么快了?!薄霸趥鹘y(tǒng)模式下,不到幾個(gè)月就能有一款新模式投入生產(chǎn)已經(jīng)很幸運(yùn)了。但在主動(dòng)學(xué)習(xí)的情況下,這最多只需要幾天時(shí)間?!?/p>

這位數(shù)學(xué)家與人共同創(chuàng)立了Re:infer公司,該公司利用主動(dòng)學(xué)習(xí)來幫助企業(yè)更好地理解和自動(dòng)處理每天從供應(yīng)商那里收到的電子郵件、電話和聊天。

傳統(tǒng)上,為這一特定任務(wù)構(gòu)建算法,需要從給定企業(yè)收到的數(shù)千條客戶信息中手動(dòng)標(biāo)記每句話,然后將其作為訓(xùn)練輸入人工智能系統(tǒng)。

然而,使用主動(dòng)學(xué)習(xí),算法可以快速從基礎(chǔ)數(shù)據(jù)集中學(xué)習(xí),并且只向員工展示它不確定的句子。根據(jù)Barber的說法,該方法將整個(gè)流程的估值時(shí)間提高了10到100倍。

見:人工智能在診斷中遇到了一個(gè)大數(shù)據(jù)問題

在與Barber舉行的同一個(gè)會(huì)議上,倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)教授Emine Yilmaz同意主動(dòng)學(xué)習(xí)具有很大的潛力。她表示:“未來幾年,我們的目標(biāo)是建立一種人工智能向我們學(xué)習(xí)的模式。”

“一個(gè)系統(tǒng)應(yīng)該能夠說,它對(duì)一個(gè)給定的分類是不確定的,它有困難。它應(yīng)該能夠直接向人類提問,就像孩子學(xué)習(xí)一樣,”她補(bǔ)充道。

人類與人工智能之間的互動(dòng)達(dá)到了新的水平,這很可能有利于這種算法:耶爾馬茲認(rèn)為,這種方法可能會(huì)克服一些員工對(duì)在工作場(chǎng)所使用這種技術(shù)的恐懼。在這種情況下,主動(dòng)人工智能可以提供一種更溫和的選擇,讓算法充當(dāng)合作者,而不是替代者。

盡管這個(gè)算法同事非常聰明,但它仍然不時(shí)地需要人類的幫助。不管這聽起來是不是一種自然的工作關(guān)系,“人在回路中”的概念無疑似乎是對(duì)人工智能大數(shù)據(jù)問題的一種改進(jìn),而且可能是一種解決方案。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。