張祥雨被譽為一位備受推崇的AI科學家,總論文引用數已超過 37萬次。他在AI圈內口碑良好,被許多研究員認為是新一代華人AI科學家中最傑出的一位。張祥雨的博士研究時期(2012年至2016年)恰逢 深度學習的爆發。他認為這個時期時間點非常好,趕上了2012年AlexNet的成功,深度学习革命的起点。
2012年深度学习爆发
AlexNet的成功主要在於它做到了 scaling(規模化),包括模型、數據和算力。當時,數據規模化有李飞飞的ImageNet(提供的大數據集120多萬張圖),算力規模化有英伟达GPU CUDA的發展,都已經不是瓶頸。因此,最關鍵的一點是誰能先把 模型規模化 (model scale up)。
張祥雨在博士階段,工作主線就是 做模型規模化 (model scaling),目標是把模型做得更大。這無非是追求更大的寬度、更大的深度以及更大的分辨率。他與何凱明和孫劍老師進行了大量的合作。在這個階段,他們提出了許多方法來解決模型規模化中的問題,尤其是在深度方面的擴展。之前的一些模型過了十幾層效果就會迅速下降,而他們提出的 ResNet(殘差網絡)是一項具有巨大影響力的工作,能夠將網絡從十幾層擴展到上百層,甚至上千層。這項工作被認為基本解決了當時模型規模化的問題,為深度學習的大爆发奠定了基礎。
2019年 NLP 大模型爆發 (BERT 和 GPT)
張祥雨指出,在 2019 年,NLP 領域取得了非常大的進展。許多人認為這得益於 Transformer 架構。然而,他強調架構並非核心,真正的關鍵是優化算法。之前的 NLP 方法與 CV 類似,依賴大量人工標註數據。但 NLP 幸運地發現了無需人工標註的自監督訓練方式,例如 BERT 使用的類似完形填空的方法,以及 GPT 使用的預測下一個 token 的方式。 這種自監督方式使得模型可以几乎無限擴展地利用數據。模型透過上游任務學習到更強的表徵,並且 GPT 的方式還能透過 in-context modeling 統一許多下游任務。這種 不依賴人工標註、可以大規模利用數據 的特性,是 NLP 實現真正做大 (scale up) 的關鍵,張祥雨稱之為 NLP 領域的 「GPT 時刻」或「BERT 時刻」。
2020年 ViT 出現,2022年底ChatGPT爆发
NLP 方法進軍 CV 到了 2020 年,領域發生了另一件大事:Transformer 架構被成功地完全應用於 CV 任務,其中最具代表性的是 ViT 架构。這使得學術研究人員自然而然地認為,可以將 NLP 領域成功的方法直接搬到 CV 中嘗試。因此,產生了許多模仿 NLP 方法的 CV 模型,例如 CV 中的 iGPT (模仿 NLP 的 GPT) 和 BEiT (模仿 NLP 的 BERT)。尤其是在何凱明提出了 MAE 系列之後,這些自監督方法在下游任務上的性能甚至能夠逼近或略超過使用全監督數據訓練的模型。這再次讓 CV 社群感到振奮。
CV 難以復現 NLP 的規模化效應:不變性與缺乏泛化能力 儘管初期看起來很有希望,但張祥雨對此一直持謹慎態度。他發現許多這些方法 只在小模型上有效,一旦放到更大的模型上,就不具備 scale up 的特性,效果會迅速下降。 他仔細分析後認為,這些方法 (無論是 contrastive learning 還是 MIM) 本質上都在學習某種 「不變性」。不變性對於視覺表徵確實非常關鍵。然而,這些方法學到的不變性是 「人工設計的」(handcraft),而非數據驅動的。例如,contrastive learning 極度依賴圖像增強 (augmentation),學到的是透過人工設計的 augmentation 賦予的不變性。MIM 學到的是遮擋不變性。 問題在於,一旦模型學會了你所設計的特定不變性 (如旋轉、顏色變化、遮擋等),即使增加再多數據,也 沒有額外的信息增量 來激發模型學習更多的不變性。這與 NLP 不同,NLP 是真正做到了 「從數據中學習」,高品質語料越多,模型就能學習到語料中更複雜的關聯性,透過壓縮建模聯合分佈來學習更多知識。由於 CV 的這些方法學到的不變性是受限且人工注入的,它們 缺乏像 NLP 那樣的 scale up 效應。張祥雨在 2022 年初就發表觀點認為 MIM 沒有顯著的 scaling law。
當張祥雨看到關於 思維鏈 (Chain-of-Thought, CoT) 的發現和 湧現性 (emergence) 的論文後,他表示「大受震撼」。這些研究顯示,做 NLP 的同行已經開始研究推理 (reasoning) 和更高級別的智能特性,而他感覺自己的研究仍然停留在表徵層面。這讓他更加確信純視覺領域可能存在根本性問題。
NLP 與 CV (靜態圖像) 的根本差異
張祥雨進一步闡述了他認為純視覺領域(特別是靜態圖像)的根本問題。他從三個關鍵維度進行對比:生成 (Generation)、理解 (Understanding) 和人類對齊 (Human Alignment)。
-
- 自然語言:對於自然語言模型 (如 GPT),這三者是 「合三為一」或「自閉環」 的。當你訓練一個類似 GPT 的生成模型來建模聯合機率分佈時,模型同時擁有了生成 (預測後文的條件機率)、理解 (前文影響後文的條件機率分佈,可以回答前文問題),以及人類對齊 (訓練語料來自人類自然語言)。
- 靜態圖像:相比之下,靜態圖像領域這三者是 「割裂的」(disconnected)。你可以訓練一個生成模型完美地建模圖像數據集的聯合機率分佈,但這並不代表模型能夠「理解」圖像。圖像作為客觀存在來自大自然,它不必然包含人類對它的理解方式。人類對圖像的理解是一種外部信息或注入的認知。同樣,圖像數據來自大自然,並非人類生成的,因此本質上沒有必然與人類對齊。他認為,靜態圖像之所以難以形成意義上的智能,就是因為其理解、生成和人類對齊這三點是割裂的。
張祥雨認為,正是因為靜態圖像數據在生成、理解和人類對齊這三項核心能力上不能形成自然、閉環的關係,這成為了視覺智能難以像 NLP 那樣成功復現規模化突破的 底層原因。基於這一認識,他在 2022 年停止了對靜態圖像表徵的研究。
從純視覺的悲觀到視覺與語言對齊的嘗試
張祥雨在 2022 年時,對於單純依靠視覺領域(尤其是靜態圖像)來實現智能或達到「CV 領域的 GPT 時刻」感到悲觀。他認為,與自然語言模型(如 GPT)能夠同時實現生成、理解和人類對齊的「自閉環」特性不同,靜態圖像在這三者之間是「割裂的」。圖像作為自然世界的客觀存在,其本質上不包含人類對它的理解方式或與人類對齊。意識到這個根本性問題後,他在 2022 年基本上停止了對靜態圖像表徵的研究,並構思了新的研究主題,即在短期內利用視覺和語言的對齊關係來尋求突破。
为了複刻 NLP 成功路徑,將圖像編碼為 Token 並与text進行混合訓練。張祥雨的想法是借鑑 NLP 領域成功的「next token prediction」範式。由於語言模型證明了這種基於自監督訓練(无需人工標註)的方法能夠透過大規模數據實現「scaling up」,他希望也能將這種方法應用於視覺。具體的思路是,將圖像也用 tokenizer 的方法轉換成 token,使其與語言處於同一個内部空間。然後,利用大量的圖文交錯數據(如網頁、書籍、論文等),將數據組織成文本和圖像 token 混排的形式。在預訓練階段,模型像處理純文本一樣,遇到文字就預測文字 token,遇到圖像就預測圖像 token。
Step1 模型與理解生成一體化的嘗試
根據這一思路,張祥雨團隊在 2023 年做出了他們的第一代大模型 Step1。這個模型從預訓練的最開始就是設計來處理多模態數據的,而非先訓練一個純文本模型再進行視覺對齊。Step1 的參數規模大約是千億級 (一百多B)。他們的目標是實現圖像的理解和生成一體化,希望能夠複刻 NLP 模型那樣,透過統一的生成任務來同時獲得理解和對齊的能力。這條路線與 Google 號稱的多模態大一統模型 Gemini 1.0 在理念上有相似之處。
遭遇瓶頸:理解與生成未能协同增效
然而,經過大半年的嘗試,張祥雨發現並沒有做到圖像的理解、生成和對齊一體化。他得到的是一個越來越強的理解模型和一個越來越強的生成模型,但兩者放到一起時並沒有產生「1+1 > 2」的叠加效果。模型實際表現起來仍然像是兩個獨立的模型,移除其中一個並不顯著影響另一個。特別是,圖片生成的可控性並沒有隨著理解能力的提升而顯著提高。他觀察到,像海外的一些知名工作(如 Gemini, GPT-4V)在那個時間點似乎也未能完全實現理解和生成的一體化,而是透過外掛模組的方式實現功能。這使得他在做了大半年之後感到迷茫。他後來分析認為,視覺生成之所以難以實現這種協同效應,根本原因在於它缺失了類似於語言模型的 CoT (思維鏈)。視覺生成過程(無論是 Auto-regressive 還是 Diffusion)本質上是一種「一口爆」或單步生成的模式,其複雜度遠超 Transformer 單步處理的能力,無法像語言 CoT 那樣進行分解和逐步推理。
Step2 模型與萬億參數的數據挑戰:在 Step1 (千億參數) 完成後,團隊很自然地想挑戰更大的模型。於是在 2024 年初上馬了 Step2 項目,目標是萬億參數規模,且激活參數規模也非常巨大(兩百多B)。然而,訓練這個模型變成了一個「無底洞」。他們一方面大大低估了訓練這麼大模型所需的海量數據量,在數據不足的情況下,僅僅擴大模型參數效果非常差。同時擴大參數和數據量對算力的需求是平方級的,訓練過程變得非常吃力。這再次凸顯了在模型規模化之後,數據規模化成為新的瓶頸,正如他當年完成 ResNet 後所觀察到的情況。
總之,張祥雨在尋求視覺智能突破的過程中,嘗試將 NLP 的成功範式(next token prediction 和大規模預訓練)遷移到視覺領域,透過多模態混合訓練來實現圖像的理解和生成一體化。儘管在模型規模上不斷擴大(從千億到萬億),但受限於視覺數據本身的特性(生成、理解、人類對齊的割裂)以及當時技術不足的訓練範式(缺乏視覺 CoT),未能有效整合視覺理解和生成能力,並在擴大模型規模時遭遇了嚴峻的數據挑戰。
Step2: 走向万亿的超大模型
張祥雨的團隊在 2024 年初上馬了一個更大的模型,即 Step2,目標是萬億參數規模,一個「巨無霸模型」。這個項目前後做了九個多月,總算訓到一個他們認為比較滿意的狀態。然而,訓練這個模型的投入「簡直是一個無底洞」,一方面因為大大低估了訓練如此大模型所需的海量數據量,另一方面同時擴大模型參數和數據量,對算力的需求是平方關係,使得訓練過程非常吃力。
在這個萬億參數規模的 Step2 模型開訓後,他們發現了一件「百思不得其解的怪事」:模型的通用對話能力、情商和知識量確實隨著模型變大而變得更強,但模型的推理能力(尤其是數學)表現卻是先上升後平緩,再擴大參數反而是下降。這個現象在當時業界尚未引發廣泛討論。
更深入觀察發現了一些「蛛絲馬跡」:更大的模型在做數學題時,「更傾向於跳步」,「不老實」地一步步推導。它經常會放棄一步步計算,而是直接「一口」報出最後的結果。
張祥雨分析認為,這其實就是 Next Token Prediction (NTP) 的「本質缺陷」。NTP 的核心範式是點態概率建模,也是第一代大模型起飛的基礎算法。它的本質目標是最大化壓縮率。
- 然而,在數學這類問題上,存在一個「非常本質的矛盾」:更大的壓縮率其實未必對應更高的計算精度。NTP 追求的是模型輸出分布與數據分布的接近程度,即最大的壓縮率。
- 預訓練的原生數據(尤其是來自網路的數據)中,充滿了人類省略中間計算過程或「跳步」的內容。例如,給定十幾個數字相加,網路語料可能直接給出結果,而沒有詳細步驟。較大的模型由於參數量巨大,它有能力去擬合這種「一口爆」的分布峰,而且從壓縮率角度看,這也更接近原始數據分布。較小的模型反而因為能力有限,無法處理如此複雜的函數,只能學會按步驟計算的分布峰。
- 因此,大模型學會了這種「跳步」行為。雖然「跳步」在大多數情況下(例如來源中提到「可能90%都是對的」)是正確的,但對於複雜的數學題或推理問題,其步驟繁多,中間任何一步的跳步錯誤(即使只有10%的概率)都會導致最終結果完全錯誤。這使得大模型在處理需要長鏈推理的問題時,錯誤率反而大幅增加,有時甚至不如更小的模型。
- NTP 的其他問題,例如它「天生容易OOD(Out-of-Distribution)」,容易在中間出現分叉,陷入未曾見過的環境,而許多「幻覺」也由此產生。
總結來說,張祥雨的經歷驗證了在將 NTP 範式應用到極大規模模型時,其固有的「最大化壓縮率」目標與某些任務(如數學推理)所需的「最大化精度」目標會產生衝突。由於預訓練數據包含了大量省略中間步驟的「跳步」範例,追求高壓縮率的大模型學會了這種行為,進而在需要嚴謹逐步推理的任務上表現下降。這突顯了 NTP 作為底層算法在處理複雜推理任務上的局限性。
最大的問題在於缺少思維鏈
對於視覺生成,不論是擴散模型 (Diffusion Model) 還是自迴歸模型 (Auto-Regressive Model),張祥雨認為從语义角度來看,它們都屬於「一口爆」的生成方式。他提到,像 Diffusion Model 的降噪過程主要是补充细节。即使它是一個多步過程,也很難說其中包含了人類理解中的语义或推理。與人類繪畫過程(打草稿、描繪輪廓、上色等)不同,降噪過程更像是在構造一個數學過程來擬合分布,其間沒有明確的语义或物體層次的推理。Auto-Regressive Model 最大的特點是「落子無悔」,需要在單步推理中決定如何繪製區域。這兩種方法在他看來,都還處於語言模型NTP范式最初的「一口爆」時代,最大的問題在於缺少思維鏈 (CoT)。
他認為,簡單地將生成和理解做到一起難度非常大,中間缺失了重要一環——CoT。借鑑語言模型的經驗,CV 領域的方向可能是先在視覺理解上做 CoT。如果視覺理解的 CoT 能夠成功,再將方法擴展到生成上,也許就能走通多模態理解生成一體化的道路。
為此,他們在去年年中開啟了一個新的專案,目標是做視覺理解,核心是真正在視覺空間上做思維鏈。這可以理解為視覺空間上的「慢思考」或「long thought」。這個项目做了半年的結果:並非完全沒有效果,透過這樣的方式訓練確實可以解決某些問題。但是,其泛化能力非常有限。他提到,他們造了什麼樣的數據,模型就只能解決這類數據的問題,完全沒有展現出在語言模型上 O1 那種強大的泛化能力。
回顧 O1 在語言領域的成功,張祥雨認為其要害在於思維鏈的 pattern,「pattern is all you need」。O1 最吸引人的地方在於其無與倫比的推廣性,不僅能泛化到不同的領域 (domain),更能泛化pattern 本身。
他舉例說明了這種 pattern 的泛化能力:即使只在純數學數據上訓練一個 O1-like 的模型,當應用於需要嚴格格律和押韻的古詩詞寫作時,模型也能激發出與解數學題非常類似的思考 pattern。例如,它會先給出一個初步嘗試,然後逐字檢查不符合要求的,一個個替換,如果發現不行,會推翻前面做的部分甚至整首詩,從頭再來。在過程中,它會反复檢查格律要求以及是否符合題意。這些 pattern,如反思 (reflection)、驗算 (verify)、大循環(推翻重來)、審題等,與其在數學問題上的表現幾乎一模一樣。
他也提到存在難以泛化的領域。例如,將一個擅长數學推理的模型應用於博弈類問題(如鬥地主殘局)時,模型會顯示出很多無效思考和低級錯誤。這是因為博弈問題的思考模式與數學套路不同,它更傾向於最大最小化 (min-max) 的思路。所谓最大最小化,指的是模型需要考慮對手可能採取的最佳行動(最大化對手的收益),然後在這個基礎上,選擇自己的行動來盡可能降低對手的這個最佳收益(最小化自己的損失或對手的收益)。這是 O1 在數學數據上未能掌握的一類思維 pattern。這表明模型的泛化能力雖然強大,但仍然需要相應的數據來激發特定的思考 pattern。
針對他們在視覺空間 CoT 嘗試中遇到的泛化問題(給圖像做圈點、批注的數據訓練效果泛化不足),張祥雨分析認為,這是因為他們用合成的數據,其 pattern 過於固定。更重要的是,這種精細化的「在圖上圈點批注」類的 CoT 數據,在自然的預訓練語料中(特別是常用的圖文交錯語料)是極度缺乏的。
他解釋說,O1 能激發出強大的泛化 pattern,是因為那些經驗證有效的反思 pattern,如 wait, alternative, recheck, validate 等,雖然在預訓練語料中數量非常少 (sparse),但確實存在。例如,在 MathOverflow 這樣的高品質論壇上,一些高讚答案會展示嘗試、發現問題、反思、重試、驗算等過程。當 RL 在 dataset 階段將這些 pattern 激發並強化時,由於這些 pattern 在預訓練語料中稀疏地散布且涵蓋不同領域,模型就能順帶將與這些語料相關的廣泛領域融會貫通,實現強大的泛化。
相比之下,他們合成的視覺 CoT 數據因為在預訓練語料中沒有這種 pattern 的呼應,導致無法激發出預訓練模型中更廣泛的模式,因此泛化性就差。這也印證了 RL 並不能無中生有地發現新東西,所有的知識或能力都需要在預訓練中已有分布。
張祥雨還強調,預訓練語料的質量非常關鍵。那些思維特別跳躍、省略大量中間步驟的語言材料(例如國內論壇上喜歡用「注意到」直接跳到結論的風格),對於模型預訓練來說是災難性的。這種語料阻礙了模型學習紮實的推理思維鏈。
将要到来的多模态GPT4时刻
展望視覺推理和多模態 CoT 的未來,他認為有兩條主要的發展方向:
-
- 擴充預訓練語料,增加 CoT 素材。他認為視頻是一個非常確定的方向,其中包含大量的教學過程、老師的演示(使用激光筆、打草稿、連輔助線等),這些都能提供豐富的 CoT 過程數據。主要難點在於視頻數據的清洗和如何有效挖掘這些數據。
- 進一步擴展動作空間。他認為目前在圖像上做簡單編輯(圈點、批注、放大、裁剪等)的動作空間太有限。很多問題需要的是重新打草稿或重新生成的能力。他設想如果能有這樣一個具備初步生成和理解能力(能執行指令型 的生成)的模型作為起點,它可以在任何需要的地方產生輸出,並且輸出的結果可以被後續的思維鏈修正。這樣就能做到在視覺空間上真正的 CoT 生成,實現廣義上的理解,解決需要空間想像或畫草圖的問題。這是他想像中下一個「多模態的 GPT-4 時刻」。
這些點共同描繪了大型模型在推理能力上面臨的挑戰,NTP 的局限性,O1 範式通過激發預訓練中稀疏存在的 CoT pattern 實現突破的機制,以及多模態(特別是視覺)推理未來可能的發展路徑和挑戰。
當前的積極趨勢和進展
張祥雨觀察到一些令人鼓舞的跡象。他提到,目前的圖像生成在可控性上已經做得不錯,例如备受欢迎的 GPT4o native 图像生成能力以及Gemini 的最新進展。他認為,如果能夠限制問題領域 (Domain),清洗好數據,並專注於不需要複雜推理、可以「一口爆」解決的指令型任務,高可控的圖像生成和編輯是完全可行的。例如,執行圖片上的位移、連接線條等指令,這些任務的複雜度較低,可以在單一步驟內完成。他認為,海外同行(特別是美國)在推理模型的認知和實踐上確實走在前面。
高可控生成與視覺理解的關係
張祥雨提出,具備初步生成和理解能力、能夠執行指令型图片生成的模型可以作為起點。有了這種能夠在圖像上執行基本操作(如圈點、批註、編輯)的能力,就可以將其作為思維鏈的「動作空間」。這樣,帶有 CoT 的視覺理解就可以做了。
未來的「GPT-4 時刻」 張祥雨預見未來两年可能會有至少兩個「GPT-4 時刻」。
-
- 多模態推理的 GPT-4 時刻:他認為下一個多模態的 GPT-4 時刻可能會在一年以內實現。這將是實現真正的視覺空間 CoT 和多模態理解生成一體化的關鍵一步。
- 自主學習/在線學習的 GPT-4 時刻:他認為由 RL 引導的下一代自主學習和在線學習是一個重要的方向,並且是目前學術界的研究熱點。這是一個更大的目標,可能需要兩到三年實現,但也有可能在兩年內出现突破。自主學習被認為是實現 AGI 最重要的路徑之一。
關於 Long Context 的不同看法
張祥雨對當前業界一味強調 Long Context 建模持有不同看法。他認為:
-
- 人類記憶的分層結構:人類的記憶系統是分層的,包括短期記憶(或稱工作記憶,working memory,約 2-4 秒,無損且精確但持續時間短)、具有延遲性和遺忘機制的中期記憶(海馬體記憶, semantic memory,非常重要)、以及固化在神经「參數」中的長期記憶。
- Long Context Window 的局限性:目前的 Long Context Window 雖然增加了信息容量,但並未解決如何有效地利用信息的問題。Context 中的 token 缺乏足夠的壓縮、抽取、分層和遺忘。
- 「大海撈針」任務的誤導性:他認為 Long Context 建模經常在評估中強調像「大海撈針」這樣的 Retrieval 任務。這種任務鼓勵模型記住所有信息,這實際上是「反智」的,因為不經過壓縮就無法產生智能。
- Long Context 阻礙智能增長:他認為一味追求超長上下文來解決問題的路線是錯誤的,這阻礙了智能的增長。相比之下,人類的記憶模式更像 RNN,有處理無限序列的能力,但不是簡單地記住越來越長的歷史。
- 情景隔離和上下文干擾:人類擁有強大的情景隔離能力,可以隨時切換 Context。而一味追求 Long Context 的模型缺乏這種能力,上下文變長必然引起嚴重的上下文干擾,導致模型性能下降。
多模型協作與擴充思維鏈
張祥雨提出了一種替代 Long Context 的方法,尤其是在處理 Retrieval 任務時。他認為:
-
- 多 Agent 協作處理 Retrieval:在當前的 Function Call 時代,Retrieval 任務應該通過多模型或 Agent 的協作來解決,而不是依賴於無限擴大的工作記憶。
- 建議的架構思路:可以利用類似 Linear Transformer 的模型建立全局(無限長序列)的概念,同時使用一個小窗口的普通 LLM 作為工作記憶。結合擴充的思維鏈和調用工具(廣義工具,包括調用其他 LM)的能力,可以更有效地管理上下文,比直接擴大上下文窗口更節省上下文并增强性能。
- O3 長推理的推測:關於 O3 能夠連續進行數百萬甚至數千萬 Token 的長時間推理,他推測這不大可能是簡單地依賴巨大的上下文窗口。更可能是通過多模型協同在強化學習框架下實現的。例如,一個規劃模型 (Plan Model) 負責在高層次決定推理的路徑 (Pattern),將具體的計算或執行任務交給另一個計算模型 (Computation Model),這個計算模型不需要巨大的工作記憶或保留完整的歷史上下文。這種雙模型體系(或其他多模型體系)雖然看上去像是簡單的 Pipeline 或模型拼接,常被認為不如端到端方法,但實際上也可以在 RL 框架下實現端到端的訓練。
- 功能分化與上下文裁剪:多模型協作類似於人腦的不同腦區的功能分化。在 RL 訓練過程中,模型可以為了達到最終目標(例如,學會不讓單個模型的上下文「爆掉」),自然而然地學會不斷裁剪和管理上下文的模式。
- RL 面向目標優化:總之,RL 新范式面向最終目標進行優化,可以盤活很多思路,使得系統能夠學會如何有效地利用有限的資源(如上下文窗口)來解決複雜問題。
RL 的挑戰與未來方向
儘管 RL 帶來了顯著的突破,但也面臨挑戰。
-
- Rule-based 的局限性:目前的 Rule-based RL 方法是有效的,但對於沒有明確評價標準或包含主觀性的問題存在局限性。Rule-based 的標註或獎勵是外部給予的(好比 KPI),而人類的行為並不總是在優化 KPI,它有自己的偏好,這是內在的、自驅的力量。
- 難以利用多維度反饋:目前的 RL 方法難以有效地利用人類給予的多維度、非結構化的反饋(例如老师對一篇文章多方面的評價)。這些豐富的信息往往被簡化為一個單一的分數作为奖励,这就導致模型難以理解如何改進。
- 環境擴展的困難 (Environment Scaling):Rule-based RL 需要為每個任務手動搭建環境和評價標準,這效率低下且難以擴展。人類則能夠自驅地探索環境、從環境的反饋中學習。
- 自主學習的核心:實現真正的自主學習需要解決多個前置問題,其中最關鍵的是從環境中獲取和利用反饋的能力(尤其是從自然語言或其他非結構化反饋中學習如何改進)。此外,還需要無限長序列的建模能力(環境是動態無限的)和如何設計「內生獎勵」來驅動模型自我學習和進化。
張祥雨指出,大型模型的發展可以視為由 「底層算法」或「優化方法」 (橫軸) 和 「模態」 (縱軸) 這 兩根軸 共同驅動的,並呈現一種 螺旋上升 的趨勢。
這兩個軸的 起點 分別是:優化方法的起點是「next token prediction 的發現」,而 模態的起點是「語言,自然語言」。
Next Token Prediction (NTP) 這種算法最初在 文本領域非常成功,是支撐第一代大型模型 (如 GPT 系列) 崛起的基礎算法。它的核心原理是建模对下一个词元的序列条件概率,透過對數據進行壓縮,來學習知識和獲得一定的智能。
然而,這種純粹基於壓縮的 Next Token Prediction 方法,在推進大模型發展的過程中,在兩個方向上都遇到了 挑戰和瓶頸:
在純語言模型 (LLM) 方面: 雖然模型的通用對話能力、情商、和知識量隨著模型變大而變強,但其 推理能力(尤其是數學和邏輯) 的表現卻呈現 先上升後平緩,再擴大反而下降 的怪現象。張祥雨認為,這是 Next Token Prediction 的 本質缺陷 所導致的。因為 更大的壓縮率未必對應更高的計算精度。模型為了提高壓縮率,傾向於 跳過中間步驟,直接「一口爆」出結果。這在複雜的數學題或其他需要長鏈推理的問題中,會累積錯誤,導致最終的正確率大幅下降。
在多模態方面: 試圖將 NTP 範式遷移到更多模態(特別是視覺)的過程中,也 反覆碰壁。雖然可以將視覺數據 Token 化並與文本交錯訓練,實現了不錯的圖像理解效果,但 圖像的生成和理解難以融合。現有的圖像生成方法 (如 Auto-regressive 或 Diffusion) 仍然處於類似於語言模型的「一口爆」時代,需要單步完成複雜的生成任務,而其所需複雜度 明顯超過了 Transformer 單步推理的上限。這導致生成的 可控性非常差,即使模型本身知道生成結果不符合常識,也無法控制。這種簡單的生成理解一體化嘗試,並未達到預期效果,视觉理解与视觉生成的效果沒有疊加,1+1没有大于2的效应,甚至可以移除生成部分而不影響理解部分。這中間 缺失了重要的一環:類似於語言模型的 CoT (思維鏈)。
正因為純粹基於壓縮的 Next Token Prediction 在語言推理和多模態融合上都顯現出瓶頸,這成為了引入 強化學習 (RL) 推理模型新范式的重要背景。RL 的核心優勢在於它可以 「直接面向目標優化」,而不是間接透過擬合分布或最大化壓縮率。透過 RL,模型被鼓勵去找到最能達成目標的路徑,這能夠 克服 Next Token Prediction 的一些缺陷 (例如減少跳步、提高穩定性)。張祥雨認為,O1 系列模型之所以成功,核心就在於引入了 RL 來激發並強化了 思維鏈的 pattern,甚至是一種 Meta-CoT,這使得模型能夠在不同的思考路徑中切換以解決複雜問題。RL 這種面向目標優化的方式,使得許多之前難以解決的問題(包括語言模型的推理能力和多模態的生成理解一體化),一下子盤活了思路,有了解法。
根據張祥雨在訪談中的觀點,他將大模型的發展和OpenAI的智能演進路徑與底層算法的迭代關聯起來。他認為,OpenAI的五級智能分類法非常有邏輯,其背後隱含著每一代分級都需要一個全新的算法產生:
- 第一級:Chatbot (聊天機器人)
- 對應的算法基礎是 Next Token Prediction (NTP)。
- 第二級:Reasoning (推理)
- 對應的算法基礎是 強化學習 (RL),特別是激發強思維鏈(Strong CoT)和元思維鏈(Meta-CoT)的能力。O1系列模型被視為這個範式的代表。
- 第三級:Agent (智能體)
- 張祥雨認為,這一級對應的算法基礎是 自主學習(Autonomous Learning)和線上學習(Online Learning)。
關於 Agent 的定義,張祥雨在訪談中也對社群中現行的說法進行了澄清:
- OpenAI 體系中的 Agent (Level 3): 強調其 自主性(autonomy)。這意味著它不需要大量人工設計的規則或環境。它能夠獨立工作、自我進化,需要自己尋找目標、探索環境並從中學習其價值。這要求的是自主學習和線上學習這樣的新算法。
- 現在社群討論的 Agent 應用: 張祥雨認為,這類 Agent 更多的是基於强化推理的這一代模型 (即基於RL的模型),強調的是 Function Call 或 Tool Use (工具使用)。這類 Agent 仍然是根據外界的標準或 KPI (關鍵績效指標) 來優化目標。你可以將其理解為推理模型的工具,它們將一系列系統串聯起來,並有一個統一的 KPI 讓模型去最大化。
- Chatbot 時代的早期 Agent: 屬於 Next Token Prediction (NTP) 算法的那一代。這類 Agent 通常是 Hand-crafted pipeline (手工設計的流程),透過 Prompt Engineering 來定義其中的步驟或 Agent 行為。
RL(強化學習)作為推動模型發展到推理這一代的重要算法,雖然解決了 Next Token Prediction 在推理和多模態融合上的一些瓶頸(例如克服了跳步、提高了長鏈推理的穩定性、讓多模態融合的思路變得可行),但也面臨著新的挑戰:
- Environment Scaling (環境规模化): 這是一個在模型規模化(Model Scaling)、數據規模化(Data Scaling)和算力規模化(Compute Scaling)之外的另一大挑戰。基於規則的 RL(Rule-based RL)需要為不同的任務或問題手動搭建環境,並構造對應的數據或評價標準。張祥雨指出,這種效率非常低,例如為每個程式設計問題搭建環境和測試數據,產生一條數據的成本極高。這與人類自主學習的模式完全不同。
- 丢失多維度打分細節: 目前的 RL,尤其是在處理人類反饋時,難以有效利用豐富、多維度的自然語言評價(例如老師對作文的詳細評語)。這些評價通常被簡化並加權成為一個單一的獎勵分數。模型很難從這個乾巴巴的數字中理解具體的改進方向,丟失了大量有用的信息,這使得模型學習效率低下。
最後,關於李飛飛的空間智能和 LeCun 的世界模型,以及與視覺生成和具身智能的關係:
- 張祥雨認為,Yann LeCun 關於世界模型的看法很有道理。特別是 LeCun 提到 人身上沒有視覺生成器官,這點極具啟發性。人類雖然可以在大腦中想像未來,但並非必須將其視覺化生成。這與人類擁有世界模型的能力有關。學習世界模型的方式對於人類來說可能更傾向於非生成式。
- 然而,對於當前的 AGI 發展路徑(特別是在視覺領域),生成能力 可能是一種更方便獲取訓練數據(如透過生成合成數據)或監督信號的方式。
- 至於空間智能 (例如視覺空間上的 CoT) 及其衍生的具身智能 (Embodied Intelligence),包括機器人控制和自動駕駛,張祥雨認為目前的通用智能水平遠遠還沒有達到能夠普遍解決這些問題的程度,目前 AI 仍然在為視覺能力而掙扎。
- 但他同時指出,具身智能領域(包括自動駕駛)正在「搶跑」(running ahead)。這並非因為通用智能已達到要求,而是因為這些領域的 問題、控制維度和應用場景相對更局限和特定。它們可以透過一些基於規則的方法或模塊化拼裝的方式先實現一些應用。然而,這些領域的趨勢也在走向端到端,當它們與未來發展的視覺推理或多模態推理徹底整合時,終將會與 AGI 的主線會合。
總結來說,大模型的發展是算法和模態螺旋上升的過程,NTP是起點但有其本質缺陷,RL解決了部分問題並引入了新的挑戰(特別是環境和反饋的scaling),而OpenAI體系中的下一代Agent將需要自主學習和線上學習的能力。雖然人類學習世界模型的方式可能非生成式,但當前AGI在視覺等領域的進展可能仍需藉助生成。具身智能等領域正在特定場景下先行發展,但最終將匯入通用AGI的洪流。
原访谈很精彩,有认知高度,也有第一线的实践,还有很多金句,见:
https://zhuanlan.zhihu.com/p/1913377304173872183