
Nvidia GPU短缺成為矽谷的熱門八卦
根據特斯拉前人工智能總監、現任OpenAI成員安德烈·卡帕西的說法,由於對計算需求量大的生成式人工智能(AI)的需求沒有放緩的跡象,難以獲得、價格昂貴、性能卓越的Nvida H100 GPU以進行大型語言模型(LLM)訓練的公司成為矽谷的“熱門八卦”
來源: Venturebeat

卡帕西的評論出現在與GPU訪問相關的問題甚至在大型科技公司的年度報告中被討論的時刻:在上週發布的微軟年度報告中,該公司向投資者強調GPU是其快速增長的雲業務的“關鍵原材料”,並將GPU相關語言添加到“如果無法獲得所需的基礎設施,可能導致停機的風險因素”中。
卡帕西在社交網絡X(前Twitter)上轉發了一篇廣泛流傳的博客文章,該文章據稱是一位Hacker News上的作者所寫,該作者推測“小型和大型雲服務提供商的大規模H100集群容量即將耗盡”,並且H100的需求將繼續保持到2024年底,至少如此。
該作者猜測OpenAI可能需要5萬個H100,而Inflection需要2.2萬個,Meta“可能需要2.5萬個”,而“大型雲服務提供商可能每個(Azure、Google Cloud、AWS和Oracle)都需要3萬個”。Lambda、CoreWeave和其他私有雲可能總共需要10萬個。他寫道,Anthropic、Helsing、Mistral和Character可能每個都需要1萬個。
該作者表示,這些估計是“完全估算和猜測,其中一些是對雲和將從雲中租用的最終客戶進行重複計算。但大致估算約為43.2萬個H100。每個的價格約為3.5萬美元,總值約為150億美元。這還不包括字節跳動(TikTok)、百度和騰訊等中國公司,他們將需要大量的H800。還有一些金融公司正在進行部署,從數百個A100或H100開始,到數千個A/H100:像Jane Street、JP Morgan、Two Sigma和Citadel這樣的公司。”
博客作者還包括了一首新歌和影片,突顯了對GPU的需求:
對於圍繞GPU短缺的猜測,有很多笑話在傳播,比如來自Box的首席執行官亞倫·列維的笑話:
對GPU的需求就像《權力的遊戲》,一位風險投資家說 Radical Ventures合夥人大衛·卡茨最近告訴VentureBeat,獲取AI芯片的競爭可以與電視熱門劇《權力的遊戲》相提並論。他說:“運行這些模型和大型模型所需的計算量是無窮無盡的。”去年,Radical對CentML進行了投資,該公司優化機器學習(ML)模型以實現更快的運行速度和更低的計算成本。他說,CentML的產品在市場上創造了“更高的效率”。此外,它還證明了複雜的十億參數以上的模型也可以在傳統硬體上運行。
他說:“因此,您不需要相同數量的GPU,或者您不一定需要A100。從這個角度來看,它實際上增加了市場上晶片的供應。”
然而,根據d-Matrix首席執行官希德·謝特的說法,這些努力對於從頭開始訓練LLM而不是進行AI推斷的人來說可能更有效。d-Matrix正在建立一個平台,通過在電腦的記憶體中進行更多處理而不是在GPU上,以節省推斷的費用。
他最近告訴CNBC:“推斷的問題是,如果工作負載迅速增加,就像ChatGPT一樣,在五天內達到了100萬用戶,您的GPU容量無法跟上,因為它不是為此而建立的。它是為訓練和圖形加速而建立的。”
GPU是LLM訓練的必需品 對於包括OpenAI、Anthropic、DeepMind、Google和埃隆·馬斯克的X.ai在內的所有大型實驗室來說,進行LLM訓練時,Nvidia的H100是不可替代的。
這對於像CoreWeave這樣的雲初創公司來說是個好消息,他們有望從其GPU雲中獲得數十億美元的利潤,而且Nvidia提供了大量的GPU,因為CoreWeave並沒有建立自己的AI晶片來競爭。
McBee告訴VentureBeat,去年CoreWeave實現了3000萬美元的收入,今年將達到5億美元,明年已經簽訂了近20億美元的合同。CNBC在6月份報導稱,微軟“已同意在多年內從初創公司CoreWeave購買價值數十億美元的雲計算基礎設施。”
他說:“這發生得非常非常快。我們有大量客戶需求的積壓正在努力滿足。我們目前還在建設12個不同的數據中心。我參與了當今全球最大的基礎設施建設之一,而這是在三個月前您從未聽說過的一家公司。”
他補充說,AI的採用曲線是“市場上迄今為止採用速度最快的任何軟體”,而訓練這些模型所需的特定計算類型的必要基礎設施無法跟上。
但CoreWeave正在努力:“自4月以來,我們已將這款下一代H100電腦交到全球領先的人工智能實驗室手中,”他說。“你要到第四季度才能從谷歌那裡獲得它。我認為亞馬遜的預定約會也要到第四季度。”
他說,CoreWeave正在幫助Nvidia更快地將其產品推向市場,並且“幫助我們的客戶從中提取更多性能,因為我們的配置比超大規模運算服務提供商更好 – 這驅使Nvidia對我們進行投資,這是他們唯一一次對雲服務提供商的投資。”
Nvidia DGX負責人表示沒有GPU短缺,而是供應鏈問題 對於Nvidia來說,一位高管表示問題不是GPU短缺,而是這些GPU如何進入市場。
Nvidia的DGX Systems副總裁兼總經理Charlie Boyle表示,Nvidia“正在大量生產”,但他表示,雲服務提供商之間的短缺問題很大程度上取決於已經預售給客戶的產品。
他在最近的一次採訪中告訴VentureBeat:“在系統方面,我們一直對客戶的需求做出了非常敏銳的反應。”他解釋說,數千個GPU的需求會需要更長的時間,但“我們滿足了很大一部分需求。”
他解釋說,他在過去七年中學到的一點是,這實際上也是一個供應鏈問題,因為供應商提供的一些小組件可能更難獲得。“因此,當人們使用“GPU短缺”這個詞時,他們實際上是在談論板上某些組件的短缺或積壓,而不是GPU本身,”他說。“這只是這些東西的全球製造受限…但我們會預測人們的需求和世界能夠生產的東西。”
Boyle表示,隨著時間的推移,“GPU短缺”問題將“從敘述中消失,從短缺的炒作到實際情況,即某些人做了糟糕的計劃。”
※版權所有,歡迎媒體聯絡我們轉載;登錄本網按讚、留言、分享,皆可獲得 OCTOVERSE 點數(8-Coin),累積後可兌換獎品,相關辦法以官網公布為準※