當前位置：網站首頁勝洋資訊五大疑點曝光：Llama4逐層扒皮NYU教授稱AIScaling徹底結束

五大疑點曝光：Llama4逐層扒皮NYU教授稱AIScaling徹底結束

來源：互聯網發布時間：2025-04-10 19:57:39

剛剛，一位 AI 公司 CEO 細細扒皮了關于 Llama 4 的五大疑點。甚至有圈內人表示，Llama 4 證明 Scaling 已經結束了，LLM 并不能可靠推理。但更可怕的事，就是全球的 AI 進步恐將徹底停滯。

五大疑點曝光

令人失望的 Llama 4，只是前奏而已。接下來我們恐將看到 —— 全球局勢的改變，將徹底阻止 AI 進步！Anthropic CEO Dario 做出長視頻，逐級對 Llama 4 身上的六大疑點進行了扒皮。

五大疑點曝光

同時，紐約大學教授馬庫斯發出博客，總結了目前這段時間 AI 圈的狀況。

Scaling 已經結束；模型仍然無法可靠推理；金融泡沫正在破裂；依然沒有 GPT-5；對不可靠的語言模型的過度依賴讓世界陷入了困境。我的 25 個 2025 年預測中的每一個，目前看起來都是對的。

大語言模型不是解決之道。我們確實需要一些更可靠的方法。

OpenAI 和 Anthropic 這樣的公司，需要籌集資金來資助新模型本后的大規模訓練運行，但他們的銀行賬戶里并沒有 400 億或 1000 億美元，來支撐龐大的數據中心和其他費用。

問題在于，如果投資者預見到了經濟衰退，那就要么不會投資，要么投資較少。

更少的資金，就意味著更少的計算，也就是更慢的 AI 進展。

布魯金斯學會 2025 年的一份報告稱，若科研成本持續上升，美國在人工智能、生物技術和量子計算等關鍵領域的領先地位可能受到威脅。據估算，當前政策若持續實施五年，美國科研產出可能會下降 8%-12%。

在以前的一個采訪里，Anthropic CEO Dario 曾被問到：到了如今這個階段，還有什么可以阻止 AI 的進步？他提到了一種可能 —— 戰爭。

五大疑點曝光

沒想到，在這個可能性之外，我們居然提前見證了系統的另一種混沌。

而 Dario 也提前預測到，如果出現「技術不會向前發展」的信念，資本化不足，AI 進步就將停止。

逐級扒皮 Llama 4

最近鬧出大丑聞的 Llama 4，已經證明了這一點。

五大疑點曝光

我們很難說，Llama 4 系列三款模型中的兩款代表了多少進展，顯然在這個系列的發布中，夸大宣傳的水分要比誠實的分析多得多。

疑點 1：長上下文大海撈針，其實是騙人？

Llama 擁有所謂業界領先的一千萬個 token 的上下文窗口，聽起來似乎很酷炫。

可是等等，24 年 2 月，Gemini 1.5 Pro 的模型，就已經達到 1000 萬 token 的上下文了！

在極端情況下，它可以在視頻、音頻和共同文本上，執行驚人的大海撈針任務，或許，是谷歌忽然意識到，大海撈針任務意義非常重大。

正如這篇 Llama 4 博客所說，如果把所有哈利波特的書都放進去，模型都能檢索到放入其中的一個密碼。

五大疑點曝光

不過，這位 CEO 表示，這些 48h 前發布的結果，不如 24 小時前更新的這個 fiction livebench 基準測試這么重要。

這個基準測試，用于長上下文的深度理解，LLM 必須將數萬或數十萬個 token 或單詞拼湊在一起。

在這里，在這個基準測試中，Gemini 2.5 Pro 的表現非常好，而相比之下，Llama 4 的中等模型和小模型，性能極其糟糕。

而且隨著 token 長度的增加，它們的表現越來越差。

五大疑點曝光

疑點 2：為何周六發布？

這位 CEO 察覺到的第二大疑點就在于，Llama 4 為何選在周六發布？

在整個美國 AI 技術圈里，這個發布日期都是史無前例的。

如果陰謀論一點想，之所以選在周六發布，是因為 Meta 自己也心虛了，希望盡量減少人們的注意力。

此外，Llama 4 的最新訓練數據截止時間是 2024 年 8 月，這就很奇怪。

要知道，Gemini 2.5 的訓練知識截止時間是 2025 年 1 月。

這就意味著，在過去的 9 個月里，Meta 一直在使盡渾身解數，拼命讓這個模型達到標準。

有一種可能性是，或許他們本打算早點發布 Llama 4，但就在 9 月，OpenAI 推出了 o 系列模型，今年 1 月，DeepSeek R1 又來了，所以 Meta 的所有計劃都被打亂了。

五大疑點曝光

疑點 3：大模型競技場，究竟有沒有作弊？

不過，這位 CEO 也承認，盡管全網充斥著對 Llama 4 群嘲的聲音，但它的確也展示出了一些堅實的進展。

五大疑點曝光

比如 Llama 4 Maverick 的活動參數量大概只有 DeepSeek V3 的一半，卻取得了相當的性能。

五大疑點曝光

那現在的核心問題就在于，Meta 究竟有沒有在 LM Arena 上進行作弊，在測試集上進行訓練？

目前，LM Arena 已經迅速滑跪，公開了 2000 多組對戰數據給公眾檢閱，并且表示會重新評估排行榜。

五大疑點曝光

目前姑且按照沒有算，那就意味著我們擁有一個強大得驚人的基礎模型了。

五大疑點曝光

看看這些真實數字，假設沒有任何答案進入 Llama 4 的訓練數據，這個模型在 GPQA Diamond 上的性能（谷歌驗證的極其嚴格的 STEM 基準測試）實際上是比 DeepSeek V3 更好的。

而在這個基礎上，Meta 就完全可以創建一個 SOTA 級別的思維模型。

唯一的問題是，Gemini 2.5 Pro 已經存在了，而 DeepSeek R2 也隨時會問世。

疑點 4：代碼很差

還有一點，當 Llama 4 走出舒適區時，性能就會開始狂降。

以 ADA 的 Polyglot 這個編碼基準測試為例，它測驗了一些系列編程語言的性能。

但與許多基準不同，它不僅僅關注 Python，而是一系列編程語言，現在依然是 Gemini 2.5 Pro 名列前茅。

但是想要找到 Llama 4 Maverick，可就很難了，得把鼠標滾動很久。

它的得分當然慘不忍睹 —— 只有 15.6%。

五大疑點曝光

這就跟小扎的言論出入很大了，顯得相當諷刺。

就在不久前，他還信誓旦旦地斷定說，Meta 的 AI 模型將很快取代中級程序員。

五大疑點曝光

疑點 5：「結果僅代表目前最好的內部運行」

這一點，同樣已經在 AI 社區引發了群嘲。

在下面這個表格中，Meta 將 Llama 4 和 Gemini2.0 Pro、GPT-4.5 等模型進行了比較，數字非常漂亮。

但仔細看腳注，卻說的是 Llama 模型的結果代表了目前最好的內部運行情況，所以很大可能是，Meta 把 Llama 4 跑了 5 遍或 10 遍，取了其中的最好結果。

五大疑點曝光

而且，他們還故意不將 Llama 4 Behemoth 跟 DeepSeek V3 進行比較，后者比它在整體參數上小三倍，在互動參數上小八倍，性能卻相似。

五大疑點曝光

如果從消極的角度下判斷，就可以說 Llama 4 最大的模型參數上 DeepSeek V3 基礎模型的許多倍，性能卻基本處于同一水平。

還有在 Simple Bench 中，Llama 4 Maverick 的得分大概為 27.7%，跟 DeepSeek V3 處于同一水平，還低于 Claude 3.5 Sonnet 這類非思維模型。

五大疑點曝光

另外，這位 CEO 還在 Llama 4 的使用條款中發現了這么一條。

如果你在歐洲，仍然可以成為它的最終用戶，但卻沒有權利在它的基礎上進行構建模型。

五大疑點曝光

馬庫斯：Llama 4 的慘痛教訓表明，Scaling 已經結束

而 Llama 4 的慘淡表現，也讓 NYU 教授馬庫斯寫出長文，斷言 Scaling 已經結束，LLM 仍然無法推理。

五大疑點曝光

他的主要觀點如下。

大模型的 Scaling 已經徹底結束了，這證實了我三年前在深度學習正在撞墻中的預測。

一位 AI 博士這樣寫道：Llama 4 的發布已經證實，即使 30 萬億 token 和 2 萬億參數，也不能讓非推理模型比小型推理模型更好。

五大疑點曝光

規模化并不奏效，真正的智能需要的是意圖，而意圖需要遠見，這都不是 AI 能做到的。

五大疑點曝光

即使 LLM 偶爾能提供正確的答案，往往也是通過模式識別或啟發式的捷徑，而非真正的數學推理。

比如最近 ETU 團隊關于 LLM 在美國奧數上糟糕表現的研究，就徹底擊碎了「LLM 會做數學題」這個神話。

五大疑點曝光

最終，生成式 AI 很可能會變成一個在經濟回報上失敗的產品。

泡沫可能真的要破滅了。英偉達在 2025 年的跌幅，就已經超過了三分之一。

而 Meta 的 Llama 4 的殘酷真相，再次證實了馬庫斯在 2024 年 3 月預測 ——

達到 GPT-5 級別的模型，將會非常困難。很多公司都會有類似模型，但沒有護城河。隨著價格戰進一步升級，許多只會有微薄的利潤。

五大疑點曝光

最終，馬庫斯以這樣的方式總結了自己的發言 —— 大語言模型絕對不是解決之道，我們需要一些更可靠的方法。Gary Marcus 正在尋找對開發更可靠替代方法有興趣的投資者。

參考資料：

//www.youtube.com/watch?v=wOBqh9JqCDY

//garymarcus.substack.com/p/scaling-is-over-the-bubble-may-be

相關攻略

永劫無間手游易家親聯動怎么樣-易家親聯動活動內容介紹永劫無間手游是一款動作競技類游戲，在經過了突然試玩會、啟動測試、定勝終測后，大家對游戲的玩法內容也有了一定的了解，這款游戲將會在暑期（7月25日）公測上線，作為網易出廠的大制作，劫妹出道，全家護航！隨
勝洋教程 04-10
劍靈24月3日上線在即-WeGame先遣服招募火熱進行中！騰訊游戲旗下的劍靈 2即將于4月3日正式上線，引發了玩家們的廣泛期待。為了提前收集玩家對新內容的反饋，WeGame先遣服的招募活動已經拉開帷幕，并將于3月22日正式開放。據悉，先遣服的申請時間從3月1
勝洋教程 04-10
原神伊法養成突破材料有哪些-伊法養成突破材料匯總在原神中的伊法為四星角色，其將會在5 6版本上線，但是考慮到還有很多玩家不知道他的突破材料是什么，那么所以接下來小編就為大家帶來原神伊法養成突破材料匯總，感興趣的旅行者抓緊時間一起來看看本篇攻略吧。希
勝洋教程 04-10

產業資訊

游戲下載 +

原神酒莊大掃除任務怎么做？全面攻略助你輕松完成挑戰！

類型：策略塔防大小：68.244MB
下載
風雨橋下新妖靈現身？一起來捉妖揭秘其神秘力量？

類型：策略塔防大小：90.992MB
下載
吸血鬼血族起源電腦版如何下載并安裝？全攻略帶你揭秘！

類型：策略塔防大小：73.277MB
下載
如何達成我的俠客與世無爭結局？深度攻略與實戰技巧揭秘

類型：策略塔防大小：26.917MB
下載
揭秘！我的俠客中廣州流浪武士密令如何觸發，攻略來了？

類型：策略塔防大小：58.543MB
下載

近期熱點 +

最新攻略 +

04-10

永劫無間手游易家親聯動怎么樣-易家親聯動活動內容介紹永劫無間手游是一款動作競技類游戲，在經過了突然試玩會、啟動測試、定勝終測后，大家對游戲的玩法內容也有了一定的了解，這款游戲將會在暑期（7月25日）公測上線，作為網易出廠的大制作，劫妹出道，全家護航！隨
04-10

劍靈24月3日上線在即-WeGame先遣服招募火熱進行中！騰訊游戲旗下的劍靈 2即將于4月3日正式上線，引發了玩家們的廣泛期待。為了提前收集玩家對新內容的反饋，WeGame先遣服的招募活動已經拉開帷幕，并將于3月22日正式開放。據悉，先遣服的申請時間從3月1
04-10

原神伊法養成突破材料有哪些-伊法養成突破材料匯總在原神中的伊法為四星角色，其將會在5 6版本上線，但是考慮到還有很多玩家不知道他的突破材料是什么，那么所以接下來小編就為大家帶來原神伊法養成突破材料匯總，感興趣的旅行者抓緊時間一起來看看本篇攻略吧。希
04-10

javascript軟件在哪下載-javascript-軟件在當今數字科技高速發展的時代，JavaScript作為一種廣泛應用于網頁開發的編程語言，已經成為了開發者必備的技能之一。無論是在前端界面設計，還是后端服務器開發，JavaScript都扮演著重要的角色
04-10

QQ音樂如何關掉評論互動通知 QQ音樂APP給用戶們提供了大量的音樂歌曲資源，大家想要聽的都可以在這里找到哦。今天小編給各位講解一下QQ音樂如何關掉評論互動通知，有需要的朋友們就來看一下評論互動通知關閉步驟一覽。相信小編帶來的文章

色多多www视频在线观看免费|人妻影音先锋啪啪av资源|欧美高清不卡一区二区三区|国产美女精品毛片一区二区|午夜无码区在线观看亚洲

五大疑點曝光：Llama4逐層扒皮NYU教授稱AIScaling徹底結束