我們離「機(jī)械姬」還有多遠(yuǎn)?前OpenAI研究員讓AI克隆思想,模仿人類思維,邊思考邊行動。
編者按:本文來自微信公眾號 新智元(ID:AI_era),作者:新智元,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載。
(資料圖片)
當(dāng)AI有了自主意識會如何?
「機(jī)械姬」中,艾娃利用人類的同情心,以欺騙的方式誘導(dǎo)人類獲得自由,最終殺了自己的「造物主」Nathan。
近來,在眾多網(wǎng)友的力薦下,Sam Altman終于看了這部電影。
并表示,「很好的電影,但我不明白為什么每個(gè)人都讓我看它?!?/p>
許多人或許想警示,這就是讓人工智能有了意識,通過圖靈測試的結(jié)果。
但我們離「機(jī)械姬」上映的那一幕還很遙遠(yuǎn),GPT-5可能在秘密研發(fā)中,讓AI有智慧仍是科學(xué)家集洪荒之力最想做的事。
這不,來自不列顛哥倫比亞大學(xué)的2位研究人員發(fā)現(xiàn),智能體能夠像人類一樣思考有很多的優(yōu)勢。
最新論文中,他們研究了智能體的「思想克隆」(TC)。
論文地址:https://arxiv.org/pdf/2306.00323.pdf
這里,人工智能通過模仿人類,學(xué)會像人類一樣「思考」和「行動」。
當(dāng)AI有了思想要知道,語言是區(qū)分人類和其他生物的關(guān)鍵。
因此,研究人員設(shè)想,如果智能體能夠理解語言,便會有很多的好處。
比如,幫助人類概括、推斷、適應(yīng)新的情況、將新的方式結(jié)合已有的知識,探索、計(jì)劃、并在必要時(shí)重新計(jì)劃。
盡管有這些益處,但AI智能體卻很少思考,至少不是用人類語言去思考。
雖然神經(jīng)網(wǎng)絡(luò)可以被認(rèn)為是思考的內(nèi)部向量激活,但許多人假設(shè),以離散的、符號的語言進(jìn)行思考具有特定的好處。
這意味著能夠用語言思考的智能體,可能比不用語言的智能體學(xué)習(xí)得更快,表現(xiàn)、概括得更好。
基于所有這些原因,增強(qiáng)AI智能體用語言思考的能力可以產(chǎn)生許多顯著的優(yōu)勢。
Jeff Clune和Shengran Hu認(rèn)為實(shí)現(xiàn)這一目標(biāo)的最有效的方法是「讓AI模仿人類思考」。
他們發(fā)現(xiàn),人類不會孤立地獲得思維技能,相反,他們一部分技能的獲得是通過他人示范和教師提供的反饋來學(xué)習(xí)的。
因此,一個(gè)有效的方法是,讓智能體從人類在行動時(shí)把想法說出的演示中進(jìn)行學(xué)習(xí)。
這一方法不同于現(xiàn)有的用預(yù)訓(xùn)練LLMs進(jìn)行規(guī)劃的工作,因?yàn)檫@些LLMs沒有受過人類在行動時(shí)說出想法的數(shù)據(jù)進(jìn)行訓(xùn)練,即「思想數(shù)據(jù)」。
至于「思想數(shù)據(jù)」的來源,研究者選取了YouTube視頻和文字錄音,有大約數(shù)百萬小時(shí),包含了人們行動、計(jì)劃、決定和重新規(guī)劃背后的思想。
論文中,研究人員提出了一個(gè)新穎的模仿學(xué)習(xí)框架「思想克隆」。其中,智能體不僅學(xué)習(xí)人類的示范行為,如行為克隆,而且學(xué)習(xí)人類行動同時(shí)的思考方式。
在思想克隆訓(xùn)練框架中,智能體學(xué)習(xí)在每個(gè)時(shí)間步中產(chǎn)生思想,并隨后根據(jù)這些思想調(diào)整行動。
整體框架如圖所示,TC智能體是一個(gè)雙層架構(gòu):上層和下層組件。
在每個(gè)時(shí)間步中,智能體接收一個(gè)觀察、一個(gè)任務(wù)和一段思維歷史作為輸入。上層組件負(fù)責(zé)思想生成,下層組件產(chǎn)生以這些思想為條件執(zhí)行操作。
然后,將生成的想法和行動與演示數(shù)據(jù)集中的基本事實(shí)進(jìn)行比較,以計(jì)算損失。
雖然對于上層和下層組件的條件可能有不同的選擇,但在這項(xiàng)工作中,對于思維數(shù)據(jù)集中長度t的特定軌跡,研究人員將其最小化:
對于更復(fù)雜或大規(guī)模的場景,上層組件可以使用預(yù)訓(xùn)練視覺語言模型(VLM)來實(shí)現(xiàn),或者零樣本、微調(diào)。
而下層組件可以從頭開始訓(xùn)練,或者從目標(biāo)域中現(xiàn)有的語言條件控制器中改編。
論文中,研究人員基于BabyAI 1.1模型體系結(jié)構(gòu)的兩個(gè)組件進(jìn)行了研究。
該模型利用內(nèi)存增強(qiáng)架構(gòu)LSTM來解決部分可觀測性的挑戰(zhàn)。此外,它還采用FiLM進(jìn)行模態(tài)融合,有效地結(jié)合了視覺和文本輸入。
這里,作者特別強(qiáng)調(diào),本文中的所有模型都是從頭開始訓(xùn)練的,但在復(fù)雜領(lǐng)域中還是使用預(yù)訓(xùn)練模型更強(qiáng)。
如下圖,是BabyAI環(huán)境示例,左圖中包含了各種顏色的物品(球、鑰匙、盒子、門)。
智能體可以拿起、放下、移動物體或者開門和關(guān)門,而鎖住的門只能用顏色匹配的鑰匙打開。
智能體可以看到它前面的7×7的網(wǎng)格單元,這些網(wǎng)格單元是被墻壁和關(guān)閉的門阻擋。
「思想克隆」智能體的任務(wù)是,到達(dá)紫色的盒子(高亮顯示) ,并開始規(guī)劃了路線。
但是當(dāng)它打開藍(lán)色的門時(shí),準(zhǔn)備完成任務(wù),卻發(fā)現(xiàn)一個(gè)紫色的球擋住了去路。于是,思想克隆智能體再重新規(guī)劃。
由此可以看出,智能體的想法和行動表明,當(dāng)遇到障礙時(shí),先將其移除,并在繼續(xù)之前的目標(biāo)前,重新計(jì)劃路線。
這一過程,就特別像艾娃如何一步一步策劃,讓人類最終相信并幫助自己,逃出囚禁已久的玻璃牢籠。
實(shí)驗(yàn)結(jié)果研究結(jié)果表明,「思想克隆」優(yōu)于行為克隆。
此外,在零樣本和微調(diào)設(shè)置中,思想克隆在分布外的任務(wù)中比行為克隆優(yōu)勢更大。
有趣的是,研究人員還開發(fā)了「預(yù)犯罪干預(yù)」,允許用戶在模型訓(xùn)練后仍能定義不安全行為。
當(dāng)檢測到危險(xiǎn)的想法時(shí),就能終止智能體。測試中,「預(yù)犯罪干預(yù)」的效果近乎完美,顯示了它在人工智能安全方面的潛力。
「思想克隆」不僅使人工智能更聰明,而且更安全,更容易理解。
就是說,當(dāng)AI犯罪前,一切還有得救。
在Jeff Clune看來,「思想克隆」有助于人工智能的安全。
因?yàn)槲覀兛梢杂^察到智能體的思想:(1)可以更容易地診斷出事情出錯(cuò)的原因,(2)通過糾正智能體的思想來引導(dǎo)它,(3)或者阻止它做所計(jì)劃的不安全的事情。
作者介紹
Jeff Clune
目前,Jeff Clune是不列顛哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)副教授。他主要研究深度學(xué)習(xí),包括深度強(qiáng)化學(xué)習(xí)。
此前,他還是OpenAI研究團(tuán)隊(duì)負(fù)責(zé)人,Uber人工智能實(shí)驗(yàn)室的高級研究經(jīng)理和創(chuàng)始成員。
此前,他和OpenAI團(tuán)隊(duì)發(fā)布了視頻預(yù)訓(xùn)練模型——VPT,讓AI在我的世界中從視頻數(shù)據(jù)中學(xué)習(xí)造石鎬。
Shengran Hu
目前是不列顛哥倫比亞大學(xué)的博士生,對深度學(xué)習(xí),人工智能生成算法感興趣。
參考資料:
https://twitter.com/ericjang11/status/1665453341789536256