讀萬卷書,不如行萬里路?強化學習之父的警告,以及一個我們(可能)不願面對的未來
「如果我們能理解一隻松鼠,我們幾乎就走完通往智能的所有道路。」
人工智慧的奠基者之一、強化學習之父、同時也是圖靈獎新科得主 Richard Sutton,在最近的幾場專訪中,向當前主流的大型語言模型(LLM)潑下了一盆冷水,質疑當前模式是否真正通往通用人工智慧(AGI)的道路。
在他眼中LLM 更像「超級圖書館員」——善於整理與復述「二手世界」。而他認為真正的智能,必須出自「目標—行動—回饋」的真實互動。這一觀點不僅是對AI發展路徑的尖銳詰問,同時也映照出我們人類自身的學習盲點。
我不是技術背景出身,但看完這些訪談後,腦中浮現幾個問題(如有誤讀之處也請業內專家多指教):
智慧是否一定要來自親身經驗?如果 AI 能整合人類的所有行為與錯誤,成為智能的匯聚中心,那在人類這端,「學習」與「價值」又將被怎麼改寫?
(延伸閱讀建議:Sutton《苦澀的教訓》與其近期專訪,另外程世嘉學長前幾天基於Meta與牛津大學共同研究的論文,也寫了一篇非常有洞見的文章)
▉ 當「讀萬卷書」超越「行萬里路」:論知識槓桿的力量
「讀萬卷書,不如行萬里路」
這句話以最簡單的方式詮釋了Sutton對智能的理解:書本知識是間接的,只有親身探索世界、在真實回饋中經歷試錯與改變,才能持續拓展智能的邊界。對任何獨立的、壽命有限的人類來說,這似乎是無可辯駁的真理。
但讓我們做一個思想實驗。
假設有兩個人都要學會「不要在雨天爬濕滑的山路」。第一個人親自上山,摔了三跤,膝蓋流血、全身濕透,最終明白了道理。第二個人沒去過雨天的山,但讀了一百篇登山事故報告,分析地形、坡度、鞋底、降雨量,最後能精確預測在何種條件下最危險。
依 Sutton 的標準,第一個人擁有「真實智慧」,因為那是第一手試錯經驗。可是第二個人的知識難道就不是智慧嗎?他的結論也許更系統、更普遍,甚至能遷移至未涉足的山區。這種以「他人經驗」為槓桿,避免重複試錯的方式,正是文明前進的機制。
這裡隱含著一個更激進的假設:也許智能的可擴張性,不取決於「是否親身體會」,而取決於我們是否能源源不絕地蒐集與整合「目標—行動—回饋」的經驗資料。只要具有動態更新,第一手或第二手資料的區別就不再重要。
於是一種新的分工架構浮現:當我們把AI 看作一個獨立的智能主體 ,它坐在中樞從這個巨大的數據流中抽絲剝繭,做聚合、抽象、遷移,找出最核心的規律。人類則退到邊緣(edge)持續與環境互動,提供新奇樣本與突破性問題。隨著 AI 吸納大部分人類的共同經驗,重複且平庸的個人經驗將快速貶值,成為噪音;真正有價值、稀缺的是能提供「突破性資料」的個體——思想獨特、體驗獨一無二、能拓展認知邊界的科學家、藝術家與冒險家。
我們會從主要創造者的角色,轉變為這個新生智能的「靈感來源」。換言之,AI不需要自己走那萬里路,因為它早已整合了我們所有人走過的每一條路。
▉ 數據的維度決定了智能的深度:多模態感知的未來
Sutton的第二個批評,指向 LLM 數據的侷限。他預測,未來從環境直接學習的系統將超越 LLM,因為人類知識終究有耗盡之時。
我認為這個擔憂有其道理,但這或許也低估了技術演進的速度?
在語言與視覺之外,若加入聽覺、觸覺、嗅覺、味覺,世界模型可能發生質變。AI 理解的「蘋果」,將不再只是符號或圖片,而是顏色、形狀、重量、口感、香氣與聲音交織的多模態概念。
更進一步的想,未來AI也許能「虛擬體會」世界——透過逼真的模擬環境生成合成經驗,讓模型在安全、快速、可控的迭代裡學習。如此一來,LLM 不必被拋棄,而是升級為多感官智能體,再結合「目標—行動—回饋」的閉環,所獲得的經驗流將遠超任何單一生命體。
蒐集多模態數據最大的挑戰在於數據品質和隱私保護,而且相較於文字與圖片,感官數據更容易受到噪音干擾。但如果這只是技術層面的問題,而不是哲學上的根本缺陷,那我們就有機會把門檻一個個跨過去。
▉ AlphaZero的啟示:最優解,就會是社會最想要的解嗎?
在 Sutton 看來,理想的智能應最小化人為偏置,不倚重海量人類文本的離線模仿,而是在「目標—行動—回饋」閉環中在線自學。
AlphaZero 是典範:只給最基本的規則、不看過去的棋譜,靠自我對弈與搜索最終超越以人類棋譜驅動的 AlphaGo。嚴格說,AlphaZero 並非「不訓練」,而是跳過人類資料的離線模仿,改以自生的互動資料驅動學習。按此邏輯,只要是大量依賴獎勵塑形、專家策略或人工特徵的系統,仍在鑲嵌人類影子。
然而把 AlphaZero 的成功案例,直接外推到開放世界,我擔心會撞上三堵高牆:
第一道牆——效率與啟動成本
AlphaZero 靠自我對弈學會下棋,只是棋局有明確規則、有限狀態空間。在開放世界中從白紙開始,可能意味著天文數字般的時間與能源消耗。
反觀預訓練,它把世界的穩定結構壓縮進參數(語法、可能的因果模式),成為一種「便宜的先驗」。這提示了一條更務實的混成路線:以預訓練提供廣泛但淺層的世界先驗,接著連接工具化環境讓模型能夠互動與回饋,最後逐步用自身經驗覆寫人類數據可能帶來的偏誤。
重點不在要不要預訓練,而在效率與純粹之間怎麼找平衡。
第二道牆——社會接受度與可解釋性
在自我對弈與線上學習中,系統的可解釋性與可預測性更低。相較於現在的LLM(有些產出已經讓我們無法以常理判斷),它成為一個更徹底的黑盒子。
在人類社會的許多面向中,例如醫療診斷、金融決策、基礎設施管理與法規場景,我們不一定追求的是最優化,而是可理解(至少部分)、可追責、具備大致的因果關係。一個行為可預測的AI,即便偶爾犯錯,也比一個無法理解的「完美AI」更容易被社會接納。
否則我們可能會從追求「無人為偏置」這一個極端,滑向「無人能監督」的另一個極端。這將從技術問題,變成社會契約問題——我們願意將多少控制權交給一個我們無法理解的智能?
第三道牆——「目標從哪裡來」?這點我在下一節單獨展開。
▉ 智能的目標在哪裡?解構Sutton的哲學前提
「智能的精髓,在於擁有目標,並為了達成目標而在真實世界中採取行動。」這是 Sutton 理論的基石。
但棋類有明確勝負函數,而人類的「目標」這個大哉問早已困擾哲學家上千年。從蘇格拉底的「認識自我」、伊比鳩魯的「享樂主義」再到尼采的「超人意志」,人類目的從未統一。個體的人生目標,不論是追求幸福、實現價值、尋求真理,也往往是模糊、多變甚至相互矛盾的。
如果我們連自己的目標都說不清楚,憑什麼要求 AI 必須有一個明確的目標函數?
從演化論的冷酷視角看,所有生物的隱含目標只有一個:傳遞基因。「適者生存」不等於「進步」,而是適應環境。有些物種甚至退化複雜結構以適應簡化生態。這隱含了智能不一定是進步累積,而是適應工具,尤其當我們把 AI 視為不受壽命限制的智能體時。
這正是Sutton模型的侷限。他假設「目標」已被定義,但對人類而言,「定義目標」本身,才是智能最深刻的展現。
文明的突破,常來自拒絕被既有目標牽著走的人——質疑現狀、改寫規則、創造新目標。從這個角度看,與其強求 AI 立刻成為「探險家」,在當前社會條件下,讓 LLM 做好「模仿與整合」,未必不是更務實的過渡。
若我們放開束縛,AI 的智能可能根本不是攀爬人類的階梯,而是在另一塊大陸上進化。屆時它的「目標」也未必出自我們的藍圖:換句話說,真正令人不安的或許不是 AI 沒在思考,而是它不再需要我們的思考。
▉ 重新定義人類在智慧新時代的價值
最後,讓我們回到更務實的討論。
即使承認 LLM 和 Sutton 理想中的「探險家 AI」是兩種不同的智能形式,它們各自的價值和局限在哪裡?我認為可以用一個大致的二分法來理解人類知識:
* 「為什麼會這樣」:觀察、解釋、理解現有現象
* 「如何才能那樣」:創造、發明、實現尚未存在的事物
LLM在第一類知識上表現驚人,能從大量案例歸納模式、解釋複雜現象、預測結果。例如問「為什麼經濟衰退」或「癌細胞如何擴散」,LLM能整合多觀點給出答案。
但在第二類上,LLM 仍受限。它能重組已知元素,創造「新穎但不超出訓練分佈」的東西,如模仿莎士比亞寫長文,但難以開創全新戲劇形式。
這不是LLM不夠智能,而是其智能形式為「在已知空間內高效搜索與組合」。真正範式突破,往往需跳出已知空間,質疑規則。這需要不合理的固執、對現狀的不滿,以及Sutton所說的「目標驅動」。
而人類的獨特價值,就在於繪製全新的地圖。我們的任務不是和AI比賽誰能更快地解開方程式,而是去決定哪些方程式值得被解,哪些全新的問題值得被提出。
如前所述,未來的分工或許是AI為集體智能整合者,人類為提供「邊緣案例」與「突破性問題」的探索者。那些能提出前所未有問題、在AI盲區探險的人,將具最高價值。
▉ 延伸心智理論:把對立變成分工
或許我們該換個視角來看這場辯論。根據「延伸心智」理論,人類的認知邊界並不止於腦袋。當我們用筆記或地圖輔助思考時,這些外部工具早已成為心智的一部分。
以此觀點看,那麼 LLM 就不再是一個與我們對立、令人不安的挑戰者,而是人類有史以來最強大的「外部認知硬碟」。它將數十億人的集體知識與經驗(所有「讀萬卷書」的成果)進行外化儲存,成為我們隨時可以取用的延伸記憶與推理中樞。
在這個「人機混合心智」的框架下,「讀萬卷書」與「行萬里路」不再是兩種智能的競爭,而是一個完整認知系統內的專業分工。AI 組件完美承擔了處理龐大資料與知識整合的任務,而人類的大腦組件則得以解放,更專注於提供目標與意圖、處理物理世界的模糊性、並進行價值判斷——也就是為這個強大的混合心智,設定「行萬里路」的方向與意義。
在這個視野下,問題不再是「AI會不會取代我們」,而是「這個前所未有的混合心智下,我們還能否辨識自己思考的邊界,以及它將把人類文明帶向何方」
▉ 迎接一個我們無法完全理解的未來
我們站在多岔路口。Sutton 的警告是一盞燈,提醒我們在技術狂歡中不忘追問智能的本質。他對「探險家」精神的強調,正點出當前 AI 的侷限。
如果以 Sutton 的強版本「目標—行動—回饋」、讓AI能夠自主學習,的確是更可能突破人類知識的邊界,但與此同時也更可能加大人類對黑盒子的擔憂以及存在意義的虛無感。這是一種高風險、高報酬的路徑。
然而,若把 AI 視為一個嶄新的智能物種——以全人類的集體經驗為食糧,感知邊界不斷拓寬,演化目標對我們而言深邃難解——那麼我們的任務便是學會共存:從答案的提供者,轉變為問題的提出者與風險的承擔者。
在追求 AGI 的漫漫長路上,或許就像 Sutton 說的,其起點始於如何理解一隻松鼠的大腦。但我也認為它的終點,更可能來自我們怎麼理解自己——理解在一個不再由我們主宰智能的未來,生而為人的獨特價值與最終使命究竟是什麼。


特伦斯·麦肯纳
如果宇宙追求的实际上是对新奇事物的守恒和复杂化,那么我们人类自身,这个曾经被边缘化的事业,突然间就被赋予了巨大的新意义。
宇宙,自然,是一个守恒新奇事物或复杂性的引擎,复杂性在其中孕育出更大的复杂性。
新奇事物被定义为连接的密度,而我们正处于一个吸引子的庇护之下,它以越来越快的速度将我们拉入存在主义演变的冒险之中。
这个过程就像一个漏斗,逐渐缩小到一个快速移动的点,暗示着历史是一个自我限制的过程,并且由于变化速度的加快,它或许正在接近终点。
终极的新奇事物必然是所有界限都消失的境地。
我们正处于130亿年前定义新奇事物的前沿,而我们的行为、思想和目标都将进一步加剧这一复杂性。
人类大脑皮层是已知宇宙中分支最密集的复杂结构,代表着数十亿年来不断自我运动的凝聚新奇事物的纽带。