教導機器人的更快方法

Author Avatar

OctoVerse

Joined: Feb 2022

AI 全文翻譯 ScienceDaily

日期:2023年7月18日

來源:麻省理工學院

摘要:一種新技術使人類能夠有效地微調一個未能完成所需任務的機器人,而人類的努力非常少。他們的系統使用算法、反事實解釋和用戶的反饋來生成合成數據,以便快速微調機器人。

想像一下購買一個能夠執行家務任務的機器人。這個機器人是在工廠裡建造和訓練的,用於一定範圍的任務,從未見過你家中的物品。當你要求它從你的廚桌上拿起一個杯子時,它可能無法識別你的杯子(也許是因為這個杯子上有一個不尋常的圖像,比如麻省理工學院的吉祥物Tim the Beaver)。所以,機器人失敗了。

麻省理工學院的電機工程和計算機科學(EECS)研究生Andi Peng表示:“現在,我們訓練這些機器人的方式是,當它們失敗時,我們並不真正知道原因。所以你只能舉手投降,說:’好吧,我們可能得重新開始。’這個系統缺少的一個關鍵組件是使機器人能夠展示為什麼它失敗了,以便用戶可以給出反饋。”

Peng和她在麻省理工學院、紐約大學和加利福尼亞大學伯克利分校的合作者們創建了一個框架,使人們能夠以最小的努力快速教導機器人完成他們想要的任務。

當機器人失敗時,系統使用算法生成反事實解釋,描述為了使機器人成功需要改變什麼。例如,也許如果杯子是某種顏色,機器人就能夠拿起這個杯子。它將這些反事實解釋展示給用戶,並要求對機器人失敗的原因給出反饋。然後,系統利用這個反饋和反事實解釋生成新的數據,用於微調機器人。

微調是對已經訓練完成一個任務的機器學習模型進行微調,以便它能夠執行第二個類似的任務。

研究人員在模擬中測試了這種技術,發現它可以比其他方法更有效地教導機器人。使用這個框架訓練的機器人表現更好,同時訓練過程消耗的人類時間更少。

這個框架可以幫助機器人在新環境中更快地學習,而不需要用戶具備技術知識。從長遠來看,這可能是使通用機器人能夠高效地在各種環境中為老年人或殘疾人士執行日常任務的一個步驟。

作為主要作者的Peng與合著者Aviv Netanyahu(電機工程和計算機科學研究生)、Mark Ho(史蒂文斯理工學院助理教授)、Tianmin Shu(麻省理工學院博士後)以及Andreea Bobu(加利福尼亞大學伯克利分校研究生)和高級作者Julie Shah(麻省理工學院航空航天學教授,計算機科學和人工智能實驗室(CSAIL)互動機器人組的主任)和Pulkit Agrawal(CSAIL教授)一起進行了這項研究。這項研究將在國際機器學習會議上發表。

在職培訓

機器人通常因為分布轉移而失敗——機器人在訓練時沒有見過的物體和空間,它不知道在這個新環境中應該怎麼做。

重新訓練機器人進行特定任務的一種方法是模仿學習。用戶可以演示正確的任務,教導機器人該怎麼做。如果用戶試圖教導機器人拿起一個杯子,但是演示的是一個白色的杯子,機器人可能會學到所有杯子都是白色的。然後,它可能無法拿起紅色、藍色或“Tim-the-Beaver-brown”色的杯子。

訓練機器人識別杯子是杯子,無論顏色如何,可能需要數千次演示。

Peng表示:“我不想用3萬個杯子來進行演示。我只想用一個杯子進行演示。但是我需要教導機器人,使它識別到它可以拿起任何顏色的杯子。”

為了實現這一點,研究人員的系統確定了用戶關心的具體物體(一個杯子)以及對任務不重要的元素(也許杯子的顏色不重要)。它利用這些信息通過改變這些“不重要”的視覺概念生成新的合成數據。這個過程被稱為數據擴增。

這個框架有三個步驟。首先,它展示導致機器人失敗的任務。然後,它從用戶那裡收集所需動作的演示,並通過搜索空間中的所有特徵生成反事實解釋,顯示為了使機器人成功需要改變什麼。

系統向用戶展示這些反事實情境,並請求反饋以確定哪些視覺概念不會影響所需的動作。然後,它使用這些人類反饋生成許多新的擴增示範。

通過這種方式,用戶可以展示拿起一個杯子,但系統會通過改變顏色來生成展示動作與成千上萬個不同杯子的示範。它使用這些數據來對機器人進行微調。

彭說,創建反事實解釋並徵求用戶的反饋對於該技術的成功至關重要。

從人類推理到機器人推理

由於他們的工作旨在將人類納入培訓循環,研究人員對他們的技術進行了與人類用戶的測試。他們首先進行了一項研究,詢問人們反事實解釋是否有助於他們識別可以在不影響任務的情況下更改的元素。

她說:“一開始就非常清楚。人類在這種反事實推理方面非常擅長。這種反事實步驟使人類推理能夠以一種有意義的方式轉化為機器人推理。”

然後,他們將他們的框架應用於三個模擬場景,其中機器人的任務是:導航到目標物體,拿起一把鑰匙並打開一扇門,以及拿起所需物品然後將其放在桌面上。在每個實例中,他們的方法使機器人能夠比其他技術更快地學習,同時需要較少的用戶示範。

展望未來,研究人員希望在真實機器人上測試這個框架。他們還希望專注於減少系統使用生成式機器學習模型創建新數據所需的時間。

彭說:“我們希望機器人能夠像人類一樣做事,並以一種有意義的方式做事。人類傾向於在這個抽象空間中運作,在這個空間中,他們不會考慮圖像中的每個屬性。歸根結底,這實際上是為了使機器人能夠以抽象層次學習一個良好的、類似人類的表示。

這項研究得到了國家科學基金會研究生研究獎學金、開放慈善基金會、蘋果AI/ML獎學金、現代汽車公司、麻省理工學院-IBM華生人工智能實驗室以及國家科學基金會人工智能與基礎相互作用研究所的部分支持。

※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※

新增留言