新的工具可協助降低AI模型的能源消耗

Author Avatar

葉孝明

Joined: Feb 2022

在追求使AI更大、更強大的競爭中,林肯實驗室正在開發方法來降低能源消耗、高效訓練,並透明化能源使用。

來源: MIT

diagram

在谷歌上搜索航班時,您可能會注意到現在每個航班的碳排放估算都與其費用一起顯示。這是一種向客戶提供有關其環境影響的資訊的方式,以便讓他們將此資訊納入其決策中。

儘管電腦行業的碳排放超過了整個航空業,但電腦行業尚未擁有類似的透明性。人工智慧模型正在升級這種能源需求。像ChatGPT這樣的巨大、受歡迎的模型預示著大規模人工智慧的趨勢,預測到2030年,資料中心將占全球電力供應的高達21%。

麻省理工學院林肯實驗室超級計算中心(LLSC)正在開發技術來幫助資料中心降低能源使用。他們的技術範圍從簡單但有效的更改,如電源限制硬體,到採用可以提前停止AI訓練的新型工具。關鍵的是,他們發現這些技術對模型性能影響不大。

從更廣泛的角度來看,他們的工作正在推動綠色計算研究,促進透明文化的建立。“能源感知計算實際上不是一個研究領域,因為每個人都在堅守他們的資料,”領導能源感知研究工作的LLSC高級員工維賈伊·加德帕裡表示。“有人必須開始,我們希望其他人會跟隨。”

降低電力消耗和降溫

與許多資料中心一樣,LLSC的硬體上運行的AI作業數量顯著增加。LLSC的電腦科學家注意到能源使用量增加,對運行作業的更高效方式產生了好奇。綠色計算是該中心的原則,它完全由無碳能源供電。

訓練AI模型——即它從龐大資料集中學習模式的過程——需要使用耗電量高的圖形處理單元(GPU)。以GPT-3(ChatGPT的前身)培訓的GPU據估計消耗了1300兆瓦時的電力,大致相當於普通美國家庭一個月的用電量。

儘管大多數人尋求GPU是因為它們的計算能力,但製造商提供了限制GPU允許吸取的電量的方法。“我們研究了限制電源的效果,並發現我們可以減少大約12%至15%的能源消耗,具體取決於模型,”LLSC的研究員西達思·山西說。

限制電源的代價是增加任務時間——GPU將需要大約多花3%的時間來完成任務,這是加德帕裡表示“幾乎察覺不到”的增加,考慮到模型通常需要經過數天甚至數月的訓練。在他們為流行的BERT語言模型進行實驗中,將GPU功率限制在150瓦看到訓練時間增加了兩個小時(從80小時增加到82小時),但節省了相當於一個美國家庭一個星期的能源。

然後,團隊構建了一個將這種電源限制功能嵌入到廣泛使用的調度程式系統Slurm的軟體。該軟體允許資料中心所有者在其系統或作業基礎上設置限制。

“我們可以今天部署這種干預措施,而且我們已經在所有系統上都這樣做了,”加德帕裡表示。

還產生了副作用。自實施電源限制以來,LLSC超級電腦上的GPU運行溫度降低了華氏30度,溫度更加穩定,減少了冷卻系統的壓力。保持硬體的低溫還可能提高可靠性和使用壽命。現在,他們可以考慮延遲購買新硬體,直到使用新硬體獲得的效益抵消了設備製造過程中產生的“固有碳排放”或設備製造過程中產生的排放。他們還在找到了通過智慧安排作業在夜間和冬季運行來減少冷卻需求的方法。

加德帕裡表示:“資料中心可以立即使用這些易於實施的方法來提高效率,而無需對代碼或基礎設施進行修改。”

這種對資料中心運營的全面審視以尋找降低機會可能需要花費較長的時間。為了讓其他人的這個過程更加簡單,該團隊最近與東北大學的德韋什·蒂瓦裡教授和李寶琳合作,開發並發佈了一個綜合框架,用於分析高性能計算系統的碳足跡。系統從業者可以使用這個分析框架更好地瞭解他們當前系統的可持續性,並考慮下一代系統的改變。

調整模型的培訓和使用方式

除了對資料中心運營進行調整外,該團隊還正在設法使AI模型的開發更加高效。

在培訓模型時,AI開發人員通常專注于提高準確性,並以前的模型為起點進行構建。為了實現所需的輸出,他們必須確定要使用的參數,而這需要測試數千個配置。這個過程稱為超參數優化,是LLSC研究人員發現可以減少能源浪費的領域之一。

加德帕裡說:“我們開發了一個基本上是看給定配置學習速度的模型。”根據那個速度,他們的模型預測了可能的性能。性能不佳的模型會提前停止。他說:“我們可以在早期非常準確地告訴你最好的模型將在這100個運行中的前10個中。”

根據他們的研究,這種早期停止導致了能源使用的顯著節省:模型培訓的能源使用減少了80%。他們將這種技術應用到了為電腦視覺、自然語言處理和材料設計應用程式開發的模型中。

加德帕裡表示:“在我看來,這種技術對改進AI模型的培訓方式具有最大潛力。”

培訓只是AI模型排放的一部分。隨著時間的推移,排放量最大的貢獻者是模型推斷,或者說是運行模型的過程,例如使用者與ChatGPT交談時運行模型的過程。為了快速回應,這些模型使用冗餘硬體,一直運行,等待用戶提問。

提高推斷效率的一種方法是使用最合適的硬體。該團隊與東北大學合作,創建了一種優化器,可以將模型與最具碳效率的混合硬體匹配,例如用於推理計算強度較大部分的高功率GPU,以及用於需求較低部分的低功率中央處理單元(CPU)。該工作最近在國際高性能並行和分佈計算ACM研討會上獲得了最佳論文獎。

使用此優化器可以減少10-20%的能源消耗,同時仍然滿足相同的“服務品質目標”(模型能夠多快地響應)。

這個工具對雲客戶尤其有説明,他們從資料中心租賃系統,並必須從成千上萬個選項中選擇硬體。加德帕裡表示:“大多數客戶會高估他們所需的,他們之所以選擇過於強大的硬體,只是因為他們不知道有更好的選擇。”

增加的綠色計算意識

實施這些干預措施所節省的能源也會降低開發AI的相關成本,通常是一對一的比例。事實上,成本通常被用作能源消耗的代理。鑒於這些儲蓄,為什麼不更多的資料中心投資於綠色技術呢?

山西表示:“我認為這有點是激勵錯位的問題。”他說:“一直以來,一直在努力建立更大、更好的模型,幾乎忽視了每個次要考慮因素。”

他們指出,雖然一些資料中心購買可再生能源信用額,但這些可再生能源並不足以滿足不斷增長的能源需求。大多數供電資料中心的電力來自化石燃料,用於冷卻的水正在導致水系負擔。

也可能存在猶豫,因為尚未進行有關節能技術的系統研究。這就是為什麼該團隊一直在將他們的研究推向同行評審的場所以及開源存儲庫的原因。一些大型行業巨頭,如Google DeepMind,已經應用機器學習來提高資料中心的效率,但沒有將他們的工作提供給其他人部署或複製。

頂級的人工智慧會議現在正在推動考慮AI如何被濫用的倫理聲明。該團隊認為氣候問題是一個AI倫理話題,但尚未引起太多關注,但這也似乎正在慢慢改變。一些研究人員現在披露了培訓最新模型的碳足跡,而行業也顯示出了能源透明度的轉變,如Meta AI最近的報告中所示。

他們還承認,在沒有能夠向AI開發人員顯示他們的消耗的工具的情況下,透明度是困難的。報告已經列入LLSC今年的路線圖。他們希望能夠向每個LLSC用戶展示,對於每個作業,他們消耗了多少能源,以及這個數量與其他人相比如何,類似於家庭能源報告。

其中一部分工作需要與硬體製造商更緊密地合作,使獲取這些資料從硬體中變得更加容易和準確。如果製造商可以標準化資料的讀取方式,那麼節能和報告工具可以應用於不同的硬體平臺。LLSC研究人員和英特爾正在就這個問題展開合作。

即使是那些瞭解AI強烈能源需求的開發人員也無法獨自控制這種能源使用。LLSC團隊希望幫助其他資料中心應用這些干預措施,並為使用者提供能源感知選項。他們的第一個合作夥伴是贊助這項研究的美國空軍,該研究是該中心運營的成千上萬個資料中心。應用這些技術可以顯著減少他們的能源消耗和成本。

加德帕裡表示:“我們正在將控制權交給想要減少他們足跡的AI開發人員。”他說:“我是否真的需要毫無前途的培訓模型?我是否願意以節省能源為代價減慢我的GPU運行速度?據我們所知,沒有其他超級計算中心允許您考慮這些選項。使用我們的工具,今天,你可以決定。”

※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※

新增留言