馬斯克 XAI 團隊推出 Grok 3：基準測試超越競業，可視化思考、懂創造新遊戲

2 天前

馬斯克 XAI 團隊推出 Grok 3：基準測試超越競業，可視化思考、懂創造新遊戲

2025 年 2 月 18 日，馬斯克帶領著 XAI 團隊正式發布了最新的人工智慧模型 Grok 3，並在發布會上展示了該模型在數學推理、科學理解與編碼能力方面的卓越表現。除了傳統的基準測試成績外，Grok 3 還在即時推理與創造力應用上帶來了突破性的體驗，顯示出未來 AI 模型在應對複雜問題和創意任務方面的潛力。

超越基準測試：Grok 3 在 AI 競技場獲得勝利

Grok 3 在三大領域接受測試：

數學推理（AIME 高中競賽數學標準）
科學知識（涵蓋博士級問題）
編碼能力（包含競技編程與 LeetCode 風格的技術面試題）

在所有測試中，Grok 3 均表現優異，不僅超越市場上的競爭對手，甚至其較小版本 Grok 3 Mini 也達到了尖端水準。

為了驗證 AI 是否僅僅是記憶教材與開源程式碼，XAI 在 Chatbot Arena 平台上進行了一場盲測競技。該測試完全去除品牌與 UI，讓用戶在不知情的情況下比較兩個 AI 的回答，最終 Grok 3 在所有類別中排名第一，ELO 分數突破 1,400，並仍持續攀升，展現了強大的實戰能力。

Grok 3 展示即時推理與創造力

Grok 3 不僅能解決標準化的測試問題，還展現了即時思考與創造能力。

1. 3D 火箭動畫：AI 的思考歷程

XAI 團隊在現場輸入了一個挑戰性問題：「生成一個動畫 3D 圖，模擬從地球發射火箭、降落火星，並在下個發射窗口返回地球。」
Grok 3 在處理這類問題時，提供了一個創新的功能：「思考過程」可視化。用戶可以即時查看 AI 的推理步驟，甚至「進入」Grok 3 內部，閱讀其處理問題的方式。

由於這是即時演示，存在 AI 出錯的可能，因此 XAI 啟動了多個並行實例，以確保至少有一個版本能夠成功執行。這展現了 AI 在複雜任務中的靈活性，以及 XAI 團隊對於 AI 即時推理透明化的探索。

2. AI 創造新遊戲：Tetris + Bejeweled

另一個引人注目的展示是 Grok 3 自主創造遊戲 的能力。團隊挑戰 AI：「設計一款融合俄羅斯方塊（Tetris）與寶石方塊（Bejeweled）的遊戲。」這種創意任務要求 AI 不僅要理解兩款遊戲的核心機制，還要產生全新的遊戲設計。

傳統 AI 可能會直接復製既有遊戲，但 Grok 3 真正創造了一款可玩的新遊戲，證明其在推理之外，也具備組合創新與應用能力。

為了讓 AI 在這類高難度任務中表現更好，XAI 啟用了「Big Brain Mode」，讓模型使用更多計算資源，以提高其推理與創意能力。這顯示未來的 AI 不僅能模仿，還能產生全新的概念與解決方案。

Grok 3 的未來潛力

Grok 3 目前仍在持續訓練中，XAI 團隊強調：「我們現在展示的只是 Grok 3 的 測試版本，但它已經在多項指標上領先市場。隨著持續優化，未來的完整版本將更具競爭力。」

此外，XAI 也在訓練 Grok 3 Mini Reasoning（精簡版推理模型），儘管它的規模較小，卻在某些情境下超越完整版本，顯示 AI 在長時間訓練後仍有極大的成長潛力。

Grok 3 的發布，不僅證明了 AI 在數學、科學與編碼方面的強大能力，更向世界展示了 AI 即時思考與創造新概念的可能性。這次展示的兩大亮點 —「AI 思考歷程的可視化」與「自主創造全新遊戲」——意味著 AI 不再只是資訊的整理者，而正在成為真正的問題解決者與創新推動者。

這篇文章馬斯克 XAI 團隊推出 Grok 3：基準測試超越競業，可視化思考、懂創造新遊戲最早出現於鏈新聞 ABMedia。

閱讀完整文章