您的位置: 首頁(yè) >科技 >

使用強(qiáng)化學(xué)習(xí)在機(jī)器人中實(shí)現(xiàn)類(lèi)似人的平衡控制策略

2019-06-10 17:20:09 編輯: 來(lái)源:
導(dǎo)讀 愛(ài)丁堡大學(xué)的研究人員開(kāi)發(fā)了一種基于深度強(qiáng)化學(xué)習(xí)(RL)的分層框架,可以獲得各種人形平衡控制策略。他們的框架在預(yù)先發(fā)布在arXiv上并在2017

愛(ài)丁堡大學(xué)的研究人員開(kāi)發(fā)了一種基于深度強(qiáng)化學(xué)習(xí)(RL)的分層框架,可以獲得各種人形平衡控制策略。他們的框架在預(yù)先發(fā)布在arXiv上并在2017年人形機(jī)器人國(guó)際會(huì)議上發(fā)表的論文中概述,可以執(zhí)行比傳統(tǒng)控制器更像人類(lèi)的平衡行為。

當(dāng)站立或行走時(shí),人類(lèi)天生就能有效地使用許多技術(shù)來(lái)進(jìn)行欠驅(qū)動(dòng)控制,以幫助他們保持平衡。這些包括腳趾傾斜和腳跟滾動(dòng),從而創(chuàng)造更好的腳距離。復(fù)制類(lèi)人機(jī)器人中的類(lèi)似行為可以極大地改善其運(yùn)動(dòng)和運(yùn)動(dòng)能力。

“我們的研究重點(diǎn)是使用深度RL來(lái)解決人形機(jī)器人的動(dòng)態(tài)運(yùn)動(dòng),”負(fù)責(zé)該研究的愛(ài)丁堡大學(xué)機(jī)器人和控制講師Zhibin Li博士告訴TechXplore。“在過(guò)去,運(yùn)動(dòng)主要是使用傳統(tǒng)的分析方法 - 基于模型來(lái)完成的,因?yàn)樗鼈冃枰肆椭R(shí),并且需要高計(jì)算能力才能在線運(yùn)行。”

需要較少的人力和手動(dòng)調(diào)整,機(jī)器學(xué)習(xí)技術(shù)可以導(dǎo)致開(kāi)發(fā)比傳統(tǒng)工程方法更有效和特定的控制器。使用RL的另一個(gè)優(yōu)點(diǎn)是這些工具的計(jì)算也可以離線外包,從而使高維控制系統(tǒng)(如人形機(jī)器人)的在線性能更快。

“鑒于越來(lái)越強(qiáng)大的深度RL算法,越來(lái)越多的研究開(kāi)始使用深度RL來(lái)解決控制任務(wù),因?yàn)樽罱跒檫B續(xù)作用域設(shè)計(jì)的深度RL算法方面的進(jìn)展提出了應(yīng)用強(qiáng)化學(xué)習(xí)連續(xù)控制任務(wù)的可能性這涉及復(fù)雜的動(dòng)力學(xué),“李博士解釋說(shuō)。“我們研究的主要目的是探索使用深度強(qiáng)化學(xué)習(xí)來(lái)獲得與分析方法相當(dāng)或更好的多樣化控制策略的可能性,同時(shí)減少人力。”

李博士與Taku Komura博士和博士合作開(kāi)發(fā)的框架。學(xué)生Chuanyu Yang,使用深RL來(lái)達(dá)到高層控制政策。這些策略不斷接收機(jī)器人狀態(tài)的反饋,從而以較低的頻率實(shí)現(xiàn)所需的關(guān)節(jié)角度。

“在低級(jí)別,比例和微分(PD)控制器用于更高的控制頻率,以保證穩(wěn)定的關(guān)節(jié)運(yùn)動(dòng),”博士。學(xué)生川宇說(shuō)。“低水平PD控制器的輸入是高級(jí)神經(jīng)網(wǎng)絡(luò)產(chǎn)生的所需關(guān)節(jié)角度,輸出是關(guān)節(jié)電機(jī)所需的扭矩。”

研究人員測(cè)試了他們算法的性能并取得了非常有希望的結(jié)果。他們發(fā)現(xiàn),將人類(lèi)知識(shí)從控制工程方法轉(zhuǎn)移到RL算法的獎(jiǎng)勵(lì)設(shè)計(jì),可以實(shí)現(xiàn)類(lèi)似人類(lèi)使用的平衡控制策略。此外,隨著RL算法通過(guò)反復(fù)試驗(yàn)過(guò)程得到改善,自動(dòng)適應(yīng)新情況,他們的框架幾乎不需要人工調(diào)整或人工工程師的其他干預(yù)。

兩足動(dòng)物的狀態(tài)特征。Yang,Komura&Li

“我們的研究表明,深層強(qiáng)化學(xué)習(xí)可以成為一個(gè)強(qiáng)大的工具,可以產(chǎn)生與人工設(shè)計(jì)的控制器相當(dāng)?shù)钠胶饨Y(jié)果,減少手動(dòng)調(diào)整工作和縮短時(shí)間,”李博士說(shuō)。“ 我們開(kāi)發(fā)的深度強(qiáng)化學(xué)習(xí)算法甚至能夠?qū)W習(xí)類(lèi)似于人類(lèi)的行為,例如傾斜腳趾或腳跟,這是大多數(shù)工程方法無(wú)法執(zhí)行的。”

李博士和他的同事現(xiàn)在正致力于擴(kuò)展他們的研究,在三維模擬中將RL應(yīng)用于全身Valkyrie機(jī)器人。在這項(xiàng)新的研究工作中,他們能夠?qū)㈩?lèi)似人類(lèi)的平衡策略推廣到步行和其他運(yùn)動(dòng)任務(wù)。

“最終,我們希望應(yīng)用這種將機(jī)器學(xué)習(xí)和機(jī)器人控制結(jié)合到真人形機(jī)器人以及其他機(jī)器人平臺(tái)的分層框架,”李博士說(shuō)。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。