剛剛,一位 AI 公司 CEO 細細扒皮了關于 Llama 4 的五大疑點。甚至有圈內人表示,Llama 4 證明 Scaling 已經結束了,LLM 并不能可靠推理。但更可怕的事,就是全球的 AI 進步恐將徹底停滯。
令人失望的 Llama 4,只是前奏而已。接下來我們恐將看到 —— 全球局勢的改變,將徹底阻止 AI 進步!Anthropic CEO Dario 做出長視頻,逐級對 Llama 4 身上的六大疑點進行了扒皮。
同時,紐約大學教授馬庫斯發出博客,總結了目前這段時間 AI 圈的狀況。
Scaling 已經結束;模型仍然無法可靠推理;金融泡沫正在破裂;依然沒有 GPT-5;對不可靠的語言模型的過度依賴讓世界陷入了困境。我的 25 個 2025 年預測中的每一個,目前看起來都是對的。
大語言模型不是解決之道。我們確實需要一些更可靠的方法。
OpenAI 和 Anthropic 這樣的公司,需要籌集資金來資助新模型本后的大規模訓練運行,但他們的銀行賬戶里并沒有 400 億或 1000 億美元,來支撐龐大的數據中心和其他費用。
問題在于,如果投資者預見到了經濟衰退,那就要么不會投資,要么投資較少。
更少的資金,就意味著更少的計算,也就是更慢的 AI 進展。
布魯金斯學會 2025 年的一份報告稱,若科研成本持續上升,美國在人工智能、生物技術和量子計算等關鍵領域的領先地位可能受到威脅。據估算,當前政策若持續實施五年,美國科研產出可能會下降 8%-12%。
在以前的一個采訪里,Anthropic CEO Dario 曾被問到:到了如今這個階段,還有什么可以阻止 AI 的進步?他提到了一種可能 —— 戰爭。
沒想到,在這個可能性之外,我們居然提前見證了系統的另一種混沌。
而 Dario 也提前預測到,如果出現「技術不會向前發展」的信念,資本化不足,AI 進步就將停止。
逐級扒皮 Llama 4
最近鬧出大丑聞的 Llama 4,已經證明了這一點。
我們很難說,Llama 4 系列三款模型中的兩款代表了多少進展,顯然在這個系列的發布中,夸大宣傳的水分要比誠實的分析多得多。
疑點 1:長上下文大海撈針,其實是騙人?
Llama 擁有所謂業界領先的一千萬個 token 的上下文窗口,聽起來似乎很酷炫。
可是等等,24 年 2 月,Gemini 1.5 Pro 的模型,就已經達到 1000 萬 token 的上下文了!
在極端情況下,它可以在視頻、音頻和共同文本上,執行驚人的大海撈針任務,或許,是谷歌忽然意識到,大海撈針任務意義非常重大。
正如這篇 Llama 4 博客所說,如果把所有哈利波特的書都放進去,模型都能檢索到放入其中的一個密碼。
不過,這位 CEO 表示,這些 48h 前發布的結果,不如 24 小時前更新的這個 fiction livebench 基準測試這么重要。
這個基準測試,用于長上下文的深度理解,LLM 必須將數萬或數十萬個 token 或單詞拼湊在一起。
在這里,在這個基準測試中,Gemini 2.5 Pro 的表現非常好,而相比之下,Llama 4 的中等模型和小模型,性能極其糟糕。
而且隨著 token 長度的增加,它們的表現越來越差。
疑點 2:為何周六發布?
這位 CEO 察覺到的第二大疑點就在于,Llama 4 為何選在周六發布?
在整個美國 AI 技術圈里,這個發布日期都是史無前例的。
如果陰謀論一點想,之所以選在周六發布,是因為 Meta 自己也心虛了,希望盡量減少人們的注意力。
此外,Llama 4 的最新訓練數據截止時間是 2024 年 8 月,這就很奇怪。
要知道,Gemini 2.5 的訓練知識截止時間是 2025 年 1 月。
這就意味著,在過去的 9 個月里,Meta 一直在使盡渾身解數,拼命讓這個模型達到標準。
有一種可能性是,或許他們本打算早點發布 Llama 4,但就在 9 月,OpenAI 推出了 o 系列模型,今年 1 月,DeepSeek R1 又來了,所以 Meta 的所有計劃都被打亂了。
疑點 3:大模型競技場,究竟有沒有作弊?
不過,這位 CEO 也承認,盡管全網充斥著對 Llama 4 群嘲的聲音,但它的確也展示出了一些堅實的進展。
比如 Llama 4 Maverick 的活動參數量大概只有 DeepSeek V3 的一半,卻取得了相當的性能。
那現在的核心問題就在于,Meta 究竟有沒有在 LM Arena 上進行作弊,在測試集上進行訓練?
目前,LM Arena 已經迅速滑跪,公開了 2000 多組對戰數據給公眾檢閱,并且表示會重新評估排行榜。
目前姑且按照沒有算,那就意味著我們擁有一個強大得驚人的基礎模型了。
看看這些真實數字,假設沒有任何答案進入 Llama 4 的訓練數據,這個模型在 GPQA Diamond 上的性能(谷歌驗證的極其嚴格的 STEM 基準測試)實際上是比 DeepSeek V3 更好的。
而在這個基礎上,Meta 就完全可以創建一個 SOTA 級別的思維模型。
唯一的問題是,Gemini 2.5 Pro 已經存在了,而 DeepSeek R2 也隨時會問世。
疑點 4:代碼很差
還有一點,當 Llama 4 走出舒適區時,性能就會開始狂降。
以 ADA 的 Polyglot 這個編碼基準測試為例,它測驗了一些系列編程語言的性能。
但與許多基準不同,它不僅僅關注 Python,而是一系列編程語言,現在依然是 Gemini 2.5 Pro 名列前茅。
但是想要找到 Llama 4 Maverick,可就很難了,得把鼠標滾動很久。
它的得分當然慘不忍睹 —— 只有 15.6%。
這就跟小扎的言論出入很大了,顯得相當諷刺。
就在不久前,他還信誓旦旦地斷定說,Meta 的 AI 模型將很快取代中級程序員。
疑點 5:「結果僅代表目前最好的內部運行」
這一點,同樣已經在 AI 社區引發了群嘲。
在下面這個表格中,Meta 將 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模型進行了比較,數字非常漂亮。
但仔細看腳注,卻說的是 Llama 模型的結果代表了目前最好的內部運行情況,所以很大可能是,Meta 把 Llama 4 跑了 5 遍或 10 遍,取了其中的最好結果。
而且,他們還故意不將 Llama 4 Behemoth 跟 DeepSeek V3 進行比較,后者比它在整體參數上小三倍,在互動參數上小八倍,性能卻相似。
如果從消極的角度下判斷,就可以說 Llama 4 最大的模型參數上 DeepSeek V3 基礎模型的許多倍,性能卻基本處于同一水平。
還有在 Simple Bench 中,Llama 4 Maverick 的得分大概為 27.7%,跟 DeepSeek V3 處于同一水平,還低于 Claude 3.5 Sonnet 這類非思維模型。
另外,這位 CEO 還在 Llama 4 的使用條款中發現了這么一條。
如果你在歐洲,仍然可以成為它的最終用戶,但卻沒有權利在它的基礎上進行構建模型。
馬庫斯:Llama 4 的慘痛教訓表明,Scaling 已經結束
而 Llama 4 的慘淡表現,也讓 NYU 教授馬庫斯寫出長文,斷言 Scaling 已經結束,LLM 仍然無法推理。
他的主要觀點如下。
大模型的 Scaling 已經徹底結束了,這證實了我三年前在深度學習正在撞墻中的預測。
一位 AI 博士這樣寫道:Llama 4 的發布已經證實,即使 30 萬億 token 和 2 萬億參數,也不能讓非推理模型比小型推理模型更好。
規模化并不奏效,真正的智能需要的是意圖,而意圖需要遠見,這都不是 AI 能做到的。
即使 LLM 偶爾能提供正確的答案,往往也是通過模式識別或啟發式的捷徑,而非真正的數學推理。
比如最近 ETU 團隊關于 LLM 在美國奧數上糟糕表現的研究,就徹底擊碎了「LLM 會做數學題」這個神話。
最終,生成式 AI 很可能會變成一個在經濟回報上失敗的產品。
泡沫可能真的要破滅了。英偉達在 2025 年的跌幅,就已經超過了三分之一。
而 Meta 的 Llama 4 的殘酷真相,再次證實了馬庫斯在 2024 年 3 月預測 ——
達到 GPT-5 級別的模型,將會非常困難。很多公司都會有類似模型,但沒有護城河。隨著價格戰進一步升級,許多只會有微薄的利潤。
最終,馬庫斯以這樣的方式總結了自己的發言 —— 大語言模型絕對不是解決之道,我們需要一些更可靠的方法。Gary Marcus 正在尋找對開發更可靠替代方法有興趣的投資者。
參考資料:
//www.youtube.com/watch?v=wOBqh9JqCDY
//garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be