馬斯克的Grok3翻車了!竟答不對9.11和9.9哪個大

時間：2025/02/19 16:44:17 編輯：川崎伊俊

北京時間2月18日，馬斯克與xAI團隊在直播中正式發(fā)布了Grok最新版本Grok3。早在本次發(fā)布會之前，依靠著種種相關(guān)信息的拋出，加上馬斯克本人24/7不間斷的預熱炒作，讓全球?qū)rok3的期待值被拉到了空前的程度。

在一周前，馬斯克在直播中評論DeepSeek R1時，還信心滿滿地表示「xAI即將推出更優(yōu)秀的AI模型」。從現(xiàn)場展示的數(shù)據(jù)來看，Grok3在數(shù)學、科學與編程的基準測試上已經(jīng)超越了目前所有的主流模型，馬斯克甚至宣稱Grok 3未來將用于SpaceX火星任務計算，并預測「三年內(nèi)將實現(xiàn)諾貝爾獎級別突破」。

但這些目前都只是馬斯克的一家之言。筆者在發(fā)布后，就測試了最新的Beta版Grok3，并提出了那個經(jīng)典的用來刁難大模型的問題：「9.11與9.9哪個大？」遺憾的是，在不加任何定語以及標注的情況下，號稱目前最聰明的Grok3，仍然無法正確回答這個問題。

在這個測試發(fā)出之后，很短的時間內(nèi)迅速引發(fā)了不少朋友的關(guān)注，無獨有偶，在海外也有很多類似問題的測試，例如「比薩斜塔上兩個球哪個先落下」這些基礎(chǔ)物理/數(shù)學問題，Grok3也被發(fā)現(xiàn)仍然無法應對。因此被戲稱為「天才不愿意回答簡單問題」。

除了網(wǎng)友自發(fā)測試的這些基礎(chǔ)知識上Grok3出現(xiàn)了翻車，在xAI發(fā)布會直播中，馬斯克演示使用Grok3來分析他號稱經(jīng)常玩的Path of Exile 2 (流放之路2)對應的職業(yè)與升華效果，但實際上Grok3給出的對應答案絕大部分都是錯誤的。直播中的馬斯克并沒有看出這個明顯的問題。

這一事件迅速引發(fā)了社會各界的廣泛關(guān)注和討論。Grok3的翻車并非偶然。從發(fā)布會現(xiàn)場及后續(xù)實測來看，該模型在數(shù)學、科學與編程等基準測試上雖然表現(xiàn)出色，但在處理常識性問題時卻顯得力不從心。這不僅讓人質(zhì)疑其人類級推理能力」的真實性，更暴露出當前AI技術(shù)在常識判斷上的巨大缺陷。馬斯克在發(fā)布會上曾信心滿滿地表示，Grok3未來將用于SpaceX火星任務計算，并預測三年內(nèi)將實現(xiàn)諾貝爾獎級別突破」。然而，連簡單的數(shù)字大小判斷都出錯，這樣的AI如何能讓人放心地將其應用于復雜的航天計算任務中？

從技術(shù)層面分析，Grok3的翻車主要源于其訓練數(shù)據(jù)和算法設(shè)計。Grok-3在數(shù)學、科學與編程的基準測試上已經(jīng)超越了目前所有的主流模型，但常識依舊很難。xAI透露，Grok-3的開發(fā)得益于用8個月時間建成的Colossus超級計算機，它由10萬個英偉達的H100 GPU驅(qū)動，為訓練提供了2億個GPU小時。此外，xAI宣布推出名為Deepsearch的Grok-3智能搜索引擎。

這一事件再次提醒我們，盡管AI技術(shù)在某些領(lǐng)域取得了顯著進展，但在常識判斷和人類級推理能力方面，仍存在明顯的不足。未來，AI技術(shù)的發(fā)展還需要在更多領(lǐng)域進行深入探索和優(yōu)化，以實現(xiàn)更全面和智能的AI應用。

相關(guān)資訊

馬斯克的Grok3翻車了!竟答不對9.11和9.9哪個大

瀏覽量：02025-02-19

相關(guān)游戲

国产成人精品高清在线观看99,日韩一本之道一区中文字幕,国外亚洲成av人片在线观看,国产欧美日韩一区二区三区在线,国产精品美女久久久免费

馬斯克的Grok3翻車了!竟答不對9.11和9.9哪個大

馬斯克的Grok3翻車了!竟答不對9.11和9.9哪個大