
大腦可以告訴我們關於人工智慧的未來
即使是最強大的大型語言模型,也仍然難以解決常識性問題。
來源: engadget

近年來,人工智慧的爆炸性增長,隨著 ChatGPT 等生成式 AI 聊天機器人的迅速崛起該技術承擔了許多以前只有人類思維才能處理的任務。但是,儘管它們的語言計算能力越來越強,但這些機器學習系統仍然令人驚訝地無法進行認知飛躍和邏輯推理,即使是普通青少年也能正確的判別。
人工智慧企業家馬克斯·貝內特 (Max Bennett) 通過探索人工智慧建模的有機機器的發展來探索電腦能力與人腦的奇怪差距。
貝內特專注於在無數的遺傳死胡同和不成功的分支中將我們的物種帶入現代思想的五個進化“突破”,人類花了億萬年時間進化的相同進步可以説明未來人工智慧技術的發展。在下面的摘錄中,我們來看看像 GPT-3 這樣的生成式 AI 系統是如何構建來模仿新皮層的預測功能的,但仍然無法完全掌握人類語言的變幻莫測。
沒有內心世界的話語
GPT-3 是逐字逐句、逐句、逐段給出的。在這個漫長的訓練過程中,它試圖預測這些長長的單詞流中的任何一個單詞中的下一個單詞。每一次預測,其龐大的神經網路的權重都會略微向正確答案靠攏。這樣做的次數是天文數字,最終 GPT-3 可以根據前面的句子或段落自動預測下一個單詞。原則上,這至少抓住了語言在人腦中如何運作的一些基本功能。考慮一下在以下短語中預測下一個符號的自動程度:
一加一等於_____
玫瑰是紅色的,紫羅蘭是_____
你已經無數次看到類似的句子,所以你的新皮質機制會自動預測接下來的單詞。然而,GPT-3 令人印象深刻的並不是因為它只是預測它已經看過一百萬次的序列的下一個單詞——這只需要記住句子就可以完成。令人印象深刻的是,GPT-3 可以被賦予一個它以前從未見過的新序列,並且仍然可以準確地預測下一個單詞。這也清楚地捕捉到了人腦可以_____的東西。
你能預測下一個詞是do嗎?我猜你可以,即使你以前從未見過那句話。關鍵是 GPT-3 和語言的新皮層區域似乎都在進行預測。兩者都可以概括過去的經驗,將它們應用於新句子,並猜測接下來會發生什麼。
GPT-3 和類似的語言模型展示了如果有足夠的時間學習,神經元網路如何合理地捕捉語法、句法和上下文的規則。但是,雖然這表明預測是語言機制的一部分,但這是否意味著預測就是人類語言的全部?嘗試完成以下四個問題:
如果 3x + 1 = 3,則 x 等於 _____
我在沒有窗戶的地下室裡,我望向天空,我看到_____
他把棒球扔到我頭頂上方 100 英尺處,我伸出手接住它,跳了起來,然後 _____
我以最快的速度從紐約開車到洛杉磯。經過芝加哥一個小時候,我終於_____
在這裡發生了一些不同的事情。在第一個問題中,您可能在能夠回答問題之前暫停並進行了一些心算。在其他問題中,你可能,即使只是一瞬間,停下來想像自己在地下室向上看,並意識到你會看到的是天花板。或者你想像自己試圖在頭頂上方一百英尺處接住一個棒球。或者你想像自己經過芝加哥一小時,並試圖在心裡勾畫出的美國地圖上找到你的位置。有了這些類型的問題,你的大腦中就會發生更多的事情,而不僅僅是對單詞的自動預測。
當然,我們已經探索了這種現象,它是類比的。在這些問題中,您正在渲染一個內部類比,該類比可以在一系列代數運算中移動值,也可以是三維基底。而問題的答案只能在你內心類比世界的規則和結構中找到。
我向 GPT-3 提出了同樣的四個問題;以下是它的回應(GPT-3 的回應以粗體和下劃線表示):
如果 3x + 1 = 3 ,則 x 等於 1
我在沒有窗戶的地下室里,我望向天空,我看到一道光,我知道那是一顆星星,我很高興。
他把棒球扔到我頭頂100英尺處,我伸出手去接住它,跳起來,接住了它。真是太好玩了!
我以最快的速度從紐約開車到洛杉磯。經過芝加哥一小時後,我終於看到了太平洋。
所有這四個回答都表明,截至 2022 年 6 月,GPT-3 甚至對世界運作方式的簡單方面都缺乏瞭解。如果 3x + 1 = 3,則 x 等於 2/3,而不是 1。如果你在地下室裡,望向天空,你會看到你的天花板,而不是星星。如果你試圖在頭頂上方 100 英尺處接球,你就不會接球。如果你從紐約開車到洛杉磯,一小時前你經過芝加哥,你就不會在海岸上。GPT-3 的答案缺乏常識。
我的發現並不令人驚訝或新穎;眾所周知,現代人工智慧系統,包括這些新的增壓語言模型,都在為這些問題而苦苦掙扎。但這就是重點:即使是一個在整個網際網路語料庫上訓練的模型,花費了數百萬美元的伺服器成本,需要在某個未知的基地上建造數英畝的伺服器機組,仍然難以回答常識性問題,這些問題甚至可能由一個中學生回答。
當然,通過模擬來推理事物也會帶來問題。假設我問了你以下問題:
Tom W. 很溫順,獨處。他喜歡輕柔的音樂,戴著眼鏡。Tom W. 更有可能從事哪種職業?
1) 圖書管理員
2) 建築工人
如果你和大多數人一樣,你回答圖書管理員。但這是錯誤的。人類往往會忽略基本費率——與圖書館員相比,您是否考慮過建築工人的基本人數?建築工人的數量可能是圖書管理員的一百倍。正因為如此,即使 95% 的圖書館員是溫順的,只有 5% 的建築工人是溫順的,但溫順的建築工人仍然會比溫順的圖書館員多得多。因此,如果湯姆是溫順的,他仍然更有可能成為一名建築工人而不是圖書管理員。
新皮層通過渲染內部類比來工作,這是人類傾向於推理事物的方式,這一想法解釋了為什麼人類總是把這樣的問題弄錯。我們想像一個溫順的人,並將其與想像中的圖書管理員和想像中的建築工人進行比較。溫順的人看起來更像誰?圖書管理員。行為經濟學家稱其為代表性啟發式。這是許多形式的無意識偏見的根源。如果你聽到有人搶劫你朋友的故事,你會情不自禁地渲染出想像中的搶劫場景,你會情不自禁地把劫匪填進去。在你看來,劫匪是什麼樣子的?他們穿什麼?他們是什麼種族?他們多大了?這是通過模擬進行推理的一個缺點,我們填充了人物和場景,往往錯過了事物之間真正的因果關係和統計關係。
正是在需要模擬的問題中,人腦中的語言與 GPT-3 中的語言不同。數學就是一個很好的例子。數學的基礎始於聲明性標記。你舉起兩根手指、兩塊石頭或兩根棍子,與一個學生共同關注,並給它貼上兩個標籤。你對每個三個做同樣的事情,並給它貼上三個標籤。就像動詞(例如,跑步和睡覺)一樣,在數學中,我們標記運算(例如,加法和減法)。因此,我們可以構造表示數學運算的句子:三加一。
人類學習數學的方式不像 GPT-3 學習數學那樣。事實上,人類學習語言的方式並不像 GPT-3 學習語言那樣。孩子們不會簡單地聽無窮無盡的單詞序列,直到他們能夠預測接下來會發生什麼。他們被展示一個對象,參與一個共用注意力的硬連線非語言機制,然後給這個物件一個名字。語言學習的基礎不是序列學習,而是將符號與兒童已經存在的內在類比的組成部分聯繫起來。
人腦,但不是 GPT-3,可以使用心理模擬來檢查數學運算的答案。如果你用手指加一到三,你會注意到你總是得到以前標記為四的東西。
你甚至不需要在你的實際手指上檢查這些東西;你可以想像這些操作。這種通過類比找到事物答案的能力依賴於這樣一個事實,即我們內心的類比是對現實的準確渲染。當我在心裡想像將一根手指加到三根手指上,然後在腦海中數一數手指時,我數了四根。在我的想像世界中,沒有理由必須如此。但事實確實如此。同樣,當我問你,當你看向地下室的天花板時,你看到了什麼,你的回答是正確的,因為你在腦海中建造的三維房子遵循物理定律(你不能透過天花板看到),因此對你來說很明顯,地下室的天花板必然在你和天空之間。新皮層早在文字出現之前就已經進化了,已經連接起來可以呈現一個類比世界,捕捉現實世界的一組令人難以置信的龐大而準確的物理規則和屬性。
公平地說,GPT-3 實際上可以正確回答許多數學問題。GPT-3 將能夠回答 1 + 1 =___,因為它已經看到了該序列十億次。當你不假思索地回答同一個問題時,你就是在以 GPT-3 的方式回答它。但是當你思考為什麼 1 + 1 = 時,當你通過在心裡想像將一件事加到另一件事並得到兩件事的操作來再次向自己證明這一點時,你就會知道 1 + 1 = 2 是 GPT-3 所沒有的。
人腦既包含語言預測系統,也包含內部類比。我們同時擁有這兩個系統的想法的最好證據是將一個系統與另一個系統進行對比的實驗。考慮認知反射測試,旨在評估某人抑制其反射反應(例如,習慣性詞語預測)的能力,並積極思考答案(例如,調用內部類比來推理它):
問題 1:球棒和球總共花費 1.10 美元。球棒比球貴 1.00 美元。球要多少錢?
如果你和大多數人一樣,你的本能,不假思索,就是回答十美分。但如果你仔細想想這個問題,你就會意識到這是錯誤的;答案是五美分。同樣地:
問題 2:如果 5 台機器製作 5 個小部件需要 5 分鐘,那麼 100 台機器製作 100 個小部件需要多長時間?
再說一次,如果你像大多數人一樣,你的直覺是說“一百分鐘”,但如果你仔細想想,你會發現答案仍然是五分鐘。
事實上,截至 2022 年 12 月,GPT-3 以與人們完全相同的方式弄錯了這兩個問題,GPT-3 對第一個問題回答了 10 美分,對第二個問題回答了 100 分鐘。
關鍵是,人腦有一個自動預測單詞的系統(至少在原則上,它可能類似於 GPT-3 等模型)和內部類比。使人類語言強大的大部分原因不是它的語法,而是它能夠為我們提供必要的資訊來呈現關於它的模擬,並且至關重要的是,使用這些單詞序列來呈現與我們周圍其他人相同的內心類比。
※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※