DeepMind 放開閘門讓聊天機器人從網路學習

Author Avatar

葉孝明

Joined: Feb 2022

來源: Singularity Hub

圖片來源: Google

自從去年11月ChatGPT在技術界爆發以來,它一直在幫助人們撰寫各種材料、生成代碼和尋找信息。它和其他大型語言模型(LLM)已經為人類提供了許多幫助,從處理客戶服務電話到接受快餐訂單。考慮到LLM在短時間內對人類的實用性,ChatGPT對於機器人的學習和執行新事物能力將產生怎樣的影響呢?Google DeepMind的研究人員決定進行研究,並在上週發布了他們的研究結果。

他們稱這個系統為RT-2。它是robotics transformer 2的縮寫,是去年年底該公司發布的robotics transformer 1的後繼版本。RT-1基於一個小型語言和視覺程序,專門訓練來執行多項任務。該軟體被用於Alphabet X的Everyday Robots,使其能夠以97%的成功率完成700多項不同的任務。但是,當被要求執行未經過訓練的新任務時,使用RT-1的機器人只有32%的成功率。

RT-2的成功率幾乎翻了一番,被要求執行新任務時的成功率為62%。研究人員稱RT-2是一個視覺-語言-行動(VLA)模型。它使用在網上看到的文本和圖像來學習新技能。這並不像聽起來那麼簡單;它要求軟體首先“理解”一個概念,然後將這種理解應用於一個命令或一組指令,然後執行滿足這些指令的動作

研究論文的作者舉了一個例子,即處理垃圾。在以前的模型中,機器人的軟體首先需要接受訓練以識別垃圾。例如,如果桌子上有一個剝了皮的香蕉,機器人將被展示剝皮是垃圾,而香蕉不是垃圾。然後,它將被教導如何撿起剝皮,將其移動到垃圾桶並放入其中。

然而,RT-2的工作方式略有不同。由於該模型在網上訓練了大量的信息和數據,它對垃圾有一個大致的理解,儘管它沒有接受過丟垃圾的訓練,但它可以組合起來完成這個任務的步驟。

研究人員用來訓練RT-2的LLM是PaLI-X(一個具有550億參數的視覺和語言模型)和PaLM-E(Google稱之為具有120億參數的具體多模態語言模型,專門為機器人開發)。”參數”是機器學習模型根據其訓練數據定義的屬性。在LLM的情況下,它們模擬了句子中單詞之間的關係,並衡量一個給定單詞在前後是否會出現另一個單詞。

通過在大數據集中尋找單詞之間的關係和模式,模型從自己的推論中學習。它們最終可以弄清楚不同概念之間的關係並理解上下文。在RT-2的情況下,它將這種知識轉化為機器人行動的通用指令。

這些行動對於機器人來說是以令牌的形式表示的,通常用於表示自然語言文本的詞片段。在這種情況下,令牌是一個動作的部分,軟體將多個令牌串在一起執行一個動作。這種結構還使軟體能夠進行思維鏈推理,這意味著它可以回答需要一定程度推理的問題或提示

團隊給出的例子包括在沒有錘子可用時選擇一個物體作為錘子(機器人選擇了一塊石頭),以及為疲憊的人選擇最好的飲料(機器人選擇了一種能量飲料)。

“RT-2展示了超越其接觸到的機器人數據的改進的泛化能力和語義和視覺理解,”研究人員在Google的一篇博客文章中寫道。“這包括解釋新命令並通過執行基本推理(例如關於物體類別或高層次描述的推理)來回應用戶命令。”

實現能夠幫助人們應對各種情況的通用目的機器人的夢想(無論是在家庭、商業還是工業環境中)需要機器人能夠即時學習。對於我們來說似乎最基本的本能對於機器人來說是一個理解上下文、能夠通過推理解決未預期問題並採取行動的復雜組合。將它們編程以對各種未計劃的情景做出適當反應是不可能的,因此它們需要能夠像人類一樣推理和從經驗中學習。

RT-2是朝這個方向邁出的一步。然而,研究人員確實承認,雖然RT-2可以概括語義和視覺概念,但它還不能自行學習新的動作。相反,它將已知的動作應用於新的情境中。也許RT-3或4能夠將這些技能提升到更高的水平。與此同時,正如團隊在他們的博客文章中總結的那樣,“雖然在實現人性化環境中有許多工作要做,但RT-2向我們展示了機器人的令人興奮的未來就在眼前。”

※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※

新增留言