2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
谷歌正在研究如何使用AI將自然語言說明植根于智能手機(jī)應(yīng)用程序操作。在2020年計(jì)算語言學(xué)協(xié)會(huì)(ACL)會(huì)議接受的一項(xiàng)研究中,該公司的研究人員提出了語料庫來訓(xùn)練模型,以減輕需要通過應(yīng)用進(jìn)行操縱的需求,這可能對(duì)視力障礙者有用。
當(dāng)協(xié)調(diào)工作并完成涉及一系列動(dòng)作的任務(wù)時(shí)(例如,按照制作生日蛋糕的食譜),人們會(huì)相互提供指示??紤]到這一點(diǎn),研究人員著手為可以幫助進(jìn)行類似交互的AI代理建立基準(zhǔn)。給定一組指令,這些代理將理想地預(yù)測(cè)一系列應(yīng)用程序動(dòng)作以及在應(yīng)用程序從一個(gè)屏幕過渡到另一個(gè)屏幕時(shí)生成的屏幕和交互元素。
研究人員在論文中描述了一個(gè)兩步解決方案,包括一個(gè)動(dòng)作短語提取步驟和一個(gè)接地步驟。動(dòng)作短語提取使用Transformer模型從多步驟指令中識(shí)別操作,對(duì)象和參數(shù)描述。(模型中的“區(qū)域關(guān)注”模塊允許它整體上處理指令中的一組相鄰單詞,以對(duì)描述進(jìn)行解碼。)接地將提取的操作和對(duì)象描述與屏幕上的UI對(duì)象進(jìn)行匹配,再次使用一種Transformer模型,但可以在上下文中表示UI對(duì)象并為其基礎(chǔ)對(duì)象描述。
合著者創(chuàng)建了三個(gè)新的數(shù)據(jù)集來訓(xùn)練和評(píng)估他們的動(dòng)作短語提取和基礎(chǔ)模型:
第一個(gè)包含187條多步驟英文說明,用于操作Pixel手機(jī)及其相應(yīng)的操作屏幕序列。
第二個(gè)包含來自網(wǎng)絡(luò)的英文“操作方法”說明以及描述每個(gè)動(dòng)作的帶注釋短語。
第三個(gè)包含295,000個(gè)單步命令,這些命令用于UI動(dòng)作,這些動(dòng)作來自公共Android UI語料庫的25,000個(gè)移動(dòng)UI屏幕上的178,000個(gè)UI對(duì)象。
他們報(bào)告說,關(guān)注區(qū)域的變壓器在預(yù)測(cè)與地面真實(shí)情況完全匹配的跨度序列時(shí)可達(dá)到85.56%的準(zhǔn)確度。同時(shí),在將語言指令端到端映射到更具挑戰(zhàn)性的任務(wù)時(shí),短語提取器和基礎(chǔ)模型一起獲得89.21%的局部準(zhǔn)確度和70.59%的完全準(zhǔn)確度,以匹配地面真實(shí)動(dòng)作序列。
研究人員斷言,數(shù)據(jù)集,模型和結(jié)果(所有這些數(shù)據(jù)集,模型和結(jié)果都可以從GitHub上的開放源代碼獲得)為解決將自然語言指令扎根于移動(dòng)UI動(dòng)作這一具有挑戰(zhàn)性的問題邁出了重要的第一步。
“這項(xiàng)研究以及總體上的語言基礎(chǔ),是將多階段指令轉(zhuǎn)換為圖形用戶界面上的動(dòng)作的重要一步。成功地將任務(wù)自動(dòng)化應(yīng)用于UI域有潛力顯著提高可訪問性,其中語言界面可以幫助視力障礙的人使用看得到的界面執(zhí)行任務(wù)。”“當(dāng)人們?cè)谑诸^的任務(wù)所困擾的情況下無法輕松訪問設(shè)備時(shí),這對(duì)于情況損害也很重要。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。