谷歌推出 Gemini 要與 ChatGPT 一分高下

谷歌表示，今天在Bard聊天機器人中推出的Gemini是最強的AI模型。它接受了影片、圖像、音訊和文本的訓練。

越來越多的人談論人工智慧以潛在的危險速度發展，這幾乎不會減慢速度。在OpenAI推出ChatGPT並引發一場開發AI技術的新競賽一年後，谷歌今天公佈了一個 AI 專案，旨在將這家搜索巨頭重新確立為 AI 領域的世界領導者。

Gemini 是一種可以處理文本、圖像和影片的新型 AI 模型，可能是繼 PageRank 之後谷歌歷史上最重要的演算法，PageRank 將搜尋引擎帶入一個新的商業模式並創造了一個企業巨頭。

Gemini 的初始版本今天開始在 Google 的聊天機器人 Bard 中推出，用於英語設置。它將在170多個國家和地區推出。谷歌表示，Gemini 將從 12 月 13 日起通過 Google Cloud 的 API 提供給開發人員。從今天開始，該模型的更緊湊版本將支援從 Pixel 8 智慧型手機的鍵盤上發送建議的消息回復。該公司表示，Gemini 將在「未來幾個月」被引入其他谷歌產品，包括生成搜索、廣告和 Chrome。谷歌表示，最強大的雙子座版本將於 2024 年首次亮相，等待“廣泛的信任和安全檢查”。

“這對我們來說是一個重要的時刻，”谷歌DeepMind首席執行長Demis Hassabis在今天的公告之前告訴《連線》雜誌。“我們對它的性能感到非常興奮，我們也很高興看到人們將在此基礎上做些什麼。”

Gemini 被谷歌描述為“原生多模態”，因為它是在圖像、影片和音訊上訓練的，而不僅僅是文本，就像最近生成式 AI 熱潮的核心大型語言模型一樣。“這是我們最大、最強大的模型;這也是我們最通用的，「谷歌DeepMind產品副總裁Eli Collins在宣佈Gemini的新聞發佈會上表示。

谷歌表示，雙子座有三個版本：Ultra，最大、最有能力;納米，體積更小，效率更高;和 Pro，中等大小和中等功能。

從今天開始，谷歌的Bard，一個類似於 ChatGPT 的聊天機器人，將由Gemini Pro提供支援，該公司表示，這一變化將使其能夠進行更高級的推理和規劃。今天，Gemini Pro 的專門版本正在摺疊成新版本的阿爾法代碼，一個來自Google DeepMind的“研究產品”生成工具，用於編碼。Gemini 最強大的版本 Ultra 將放入 Bard 中，並在 2024 年通過雲 API 提供。

谷歌副總裁兼Bard總經理Sissie Hsiao表示，該模型的多模態功能為Bard提供了新的技能，使其在總結內容、頭腦風暴、寫作和計劃等任務方面做得更好。“這是自我們推出以來 Bard 最大的單項質量改進，”Hsiao 說。

新視野

谷歌展示了幾個演示，說明瞭雙子座處理涉及視覺信息的問題的能力。人們看到人工智慧模型對一段影片做出了反應，在影片中有人繪製了圖像，創建了簡單的謎題，並詢問了涉及世界地圖的遊戲創意。兩位谷歌研究人員還展示了雙子座如何通過回答有關以圖表和方程式為特色的研究論文的問題來幫助科學研究。

柯林斯說，本周推出的模型 Gemini Pro 在測試 AI 軟體智慧的八個常用基準中的六個上，得分超過了最初為 ChatGPT 提供支援的早期模型 GPT-3.5。

谷歌表示，將於明年首次亮相的模型 Gemini Ultra 在大規模多任務語言理解（MMLU）基準測試中得分為 90%，高於包括 GPT-4 在內的任何其他模型，該基準由學術研究人員開發，用於測試語言模型在數學、美國歷史和法律等主題上的問題。

Collins說：“Gemini在廣泛的基準測試中是最先進的 – 在機器學習研究社區中廣泛使用的32個基準測試中的30個。“因此，我們確實看到它設定了全面的邊界。

OpenAI 的 GPT-4 目前為功能最強大的 ChatGPT 版本提供動力，今年 3 月首次亮相時讓人們大吃一驚。這也促使一些研究人員修改了他們對人工智慧何時能與人類智慧的廣泛性相媲美的期望。OpenAI 將 GPT-4 描述為多模態，並在 9 月升級了 ChatGPT 以處理圖像和音訊，但它沒有說明核心 GPT-4 模型是否直接在文本上訓練，而不僅僅是文本。ChatGPT 還可以在另一個名為 DALL-E 2 的 OpenAI 模型的説明下生成圖像。

谷歌今天發佈了一份技術報告，提供了Gemini內部運作的一些細節。它沒有透露架構的細節、AI 模型的大小或用於訓練它的數據集合。

人工智慧專家表示，在強大的計算機晶元上訓練大型人工智慧模型的過程漫長的昂貴，這意味著雙子座可能要花費數億美元。預計谷歌將為該模型開發一種新穎的設計，並採用新的訓練數據組合。該公司加快了其人工智慧技術的發佈，並將資源投入到幾項新的人工智慧工作中，試圖淹沒圍繞 OpenAI 的 ChatGPT 的噪音，並重新確立自己作為世界領先的人工智慧公司的地位。

“我們正處於一場針鋒相對的軍備競賽中，”華盛頓大學名譽教授、艾倫人工智慧研究所前首席執行長奧倫·埃齊奧尼（Oren Etzioni）說。“沒有理由不相信 Gemini 在這些基準上比 GPT-4 做得更好，但下一個版本 GPT-5 會做得更好。”

Etzioni表示，像Gemini這樣的巨型模型被認為需要花費數億美元來建造，但對於在通過雲提供AI方面佔據主導地位的公司來說，最終的回報可能是數十億甚至數萬億美元的收入。“這是一場不俘虜、必須贏得的戰爭，”他說。

反擊

谷歌在 ChatGPT 中發明瞭一些關鍵技術，但在大約一年前 OpenAI 發佈之前發佈自己的聊天機器人技術的速度很慢，部分原因是擔心它可能會說出令人討厭甚至危險的事情。該公司表示，由於該模型具有更通用的功能，它已經對Gemini進行了迄今為止最全面的安全測試。

Gemini 使用艾倫人工智慧研究所開發的有毒模型提示數據集進行了測試。柯林斯表示，該公司正在與外部研究人員合作，進一步「紅隊」該模型，推動其行為不端並發現其弱點。柯林斯沒有提供具體細節，但表示要求谷歌“提高我們必須做的品質和安全檢查的標準”。

谷歌及其母公司Alphabet的新演算法在很大程度上取決於新演算法，Alphabet在過去十年中建立了強大的人工智慧研究能力。隨著數以百萬計的開發人員在OpenAI的演算法之上進行構建，以及Microsoft使用該技術為其操作系統和生產力軟體添加新功能，谷歌被迫以前所未有的方式重新思考其重點。

這家搜索公司在 5 月份的 I/O 會議上首次宣佈正在開發 Gemini，因為該公司爭先恐後地在搜索中添加生成式 AI，以阻止 ChatGPT 的流行以及 OpenAI 技術可能為 Microsoft 的 Bing 搜尋引擎提供動力的威脅。據估計，谷歌在全球搜索市場的份額仍超過90%，但Gemini的推出似乎表明該公司繼續加大對ChatGPT的回應。

谷歌 DeepMind 是領導 Gemini 開發的部門，作為這一回應的一部分，谷歌的主要人工智慧研究小組 Google Brain 與其位於倫敦的人工智慧部門 DeepMind 於 4 月合併。但在過去的幾個月里，Gemini專案吸引了來自谷歌的研究人員和工程師。它利用谷歌定製矽晶片的最新升級版本來訓練人工智慧模型，稱為張量處理單元（TPU）。

雙子座的命名標誌著谷歌兩大人工智慧實驗室的結對，並參考了美國宇航局的雙子座專案，該專案為阿波羅計劃的登月鋪平了道路。

加州大學伯克利分校（UC Berkeley）專門研究人工智慧視覺能力的教授阿列克謝·埃夫羅斯（Alexei Efros）表示，谷歌對Gemini的一般方法似乎很有希望。“任何使用其他方式的東西肯定是朝著正確方向邁出的一步，”他說。

Efros 懷疑 Gemini 仍然會像 GPT-4 一樣，在理解現實世界複雜性的能力方面表現出明顯的局限性。但他和其他研究人員不太可能了解他們想知道的關於谷歌創建的一切。“這就是所有這些專有模型的問題，”Efros說。“我們真的不知道裡面有什麼。

文章觀看次數: 297