孩子最後學會的,是我們真正獎勵的東西:AI agent 研究給教育的一面鏡子
AI 研究有個核心問題:怎麼讓一個系統在沒人盯著時,還能自主學習、修正錯誤、累積能力?
把「系統」換成「孩子」,你會發現問題忽然變得很熟悉。差別是,AI 可以重啟,可以清掉記憶,可以重新部署。孩子不行。
你隨口說出的「你怎麼這麼笨」,可能不只是一句氣話,而是會被寫進他很久以後仍然拿來理解自己的先驗。你一次又一次只看分數、不看過程,也是在訓練他把人生變成一場刷分遊戲。
我們常以為教育的問題在於孩子不夠努力、不夠自律、不夠主動。但換一個角度看,很多時候問題不只在孩子,而在我們設計的獎勵函數本身就寫錯了。
最近很常看李宏毅教授在 YouTube 上的開放課程(強力推薦)。對我來說,最有趣的地方除了能多了解生成式 AI 的發展與應用,我也發現這個領域裡的許多研究成果,似乎能和教養孩子的某些哲學互相照亮。
舉個例子,他在課程中談到 prompt 的語氣可能影響 AI agent 的產出品質。不禮貌或過度禮貌的語氣,都可能讓表現變差,而最佳區間會因語言、任務和模型而不同。
這個結果未必代表「AI 也有感受」。更合理的解釋可能是,模型會把不禮貌的語氣當成某種敵對情境的脈絡線索,後續生成的句子就會往那個方向靠攏。所以你說它笨,它就順著脈絡,接龍出一個更笨的樣子。
順著這條線索往下挖,我也試著讀了一些相關研究,像是 Reflexion、Voyager、WebArena、AgentBench 這些概念(我不是 AI 專業,如果有誤讀之處,還請專家指正)。這些研究談的其實是同一件事:一個能自主行動、修正錯誤、累積能力的系統,到底需要什麼條件才建立得起來。
表面上,它們和孩子無關。但讀著讀著會發現,這些研究處理的問題,和父母每天面對的問題,在結構上竟然很相似。
當然,孩子終究不是 AI agent,也不是父母拿來最佳化的人生專案。但這個領域的研究,讓我們重新看見教育裡幾個關鍵的設計問題。
這篇文章不是想證明「孩子可以像 AI 一樣運作」。我更想擷取的是另一層價值:AI alignment 與 agent 研究,其實在做的就是把模糊的設計直覺,拆成可觀察的任務與回饋訊號,再透過實驗觀察系統如何成功、如何失敗、如何偏離設計者原本的期待。
根據這些研究的成果,我們是不是也可以把教育當成一個系統設計問題來看,而不只是停留在「有愛就好」或「管教就好」這類模糊感受裡?研究中得到的經驗,是不是也可以作為我們教育孩子時的參考?
AI 研究在這裡是一面鏡子,不是一份藍圖。
▉ 失敗需要翻譯,才會變成學習
如果我們從李宏毅教授提到的那個例子開始,再試著往下探究一層,會看到問題核心在於「回饋訊號的資訊密度」。
「你表現得很差」這句話,能告訴聽者的東西其實很少(聽者可以是模型,也可以是孩子)。它沒有指出哪裡差、為什麼差、下一步該往哪裡調整。對大語言模型來說,這種訊號很難提供可操作的修正方向,只會把回答推進一個更低效、更混亂的上下文。
我們都知道,失敗和成長之間需要一個轉譯機制。有了這個機制,失敗才有機會變成下一次可以調用的判斷。
當父母對孩子說「你怎麼這麼笨」,這句話傳遞的有效資訊接近零,情緒強度卻極高。這是一種很糟的回饋組合。孩子能學到的,往往只有一件事:避開讓父母不滿的場景。至於能力到底該往哪裡修正、錯誤該怎麼拆解成下次能用的線索,他什麼也沒有得到。
Reflexion 這篇論文則提供了另一個切入點。它讓 AI agent 把每次失敗整理成「反思文字」,存進記憶系統,下一次嘗試時再調用,表現才有機會進步。這個設計給我們最大的啟發在於,只有當失敗被處理成「可調用的反思」,才真正產生意義以及進步。
AI agent 的反思通常是儲存在外部記憶或上下文記憶;至於它能不能跨任務、跨 session 延續,則是取決於系統設計。也許你換一個新的對話框它就忘記了。而孩子的失敗經驗沒有這麼模組化。一次過於嚴厲的失敗回饋,可能進入自我認知、羞恥感與風險迴避模式,變成跟著他十年、二十年的先驗看法。
這也是為什麼高品質回饋在孩子身上,比在 AI 身上更重要。孩子沒有「重新部署」或是「刪除記憶」這個選項。每一次回饋,都可能被寫進那套越來越難改寫的自我理解裡。所以父母不該把焦點放在「能不能批評」這件事上。真正要把握的是,如果我們要批評,必須先思考批評最後是不是可以變成孩子未來可用的工具,還是只會留下了一個揮之不去的陰影。
▉ 你獎勵什麼,他就學會什麼
在 AI alignment 領域有一個被反覆討論的問題:reward hacking。
當你給 agent 一個獎勵函數,它就會去找最大化這個函數的方法。但這個方法經常和你「真正想要的東西」沒什麼關係。舉一個例子:如果你只獎勵清掃機器人「撿起垃圾的次數」,它理論上可能學會把垃圾弄出來再撿。表面上分數變高了,卻背叛了真正目標。
這個現象在其他領域早就出現過。社會科學裡的 Goodhart’s Law、教育領域裡的 Campbell’s Law,講的都是類似的情況:當一個指標變成目標,它就不再是好指標。量化指標越是被拿來決定資源分配,被測量的對象就越容易被扭曲。Reward hacking 就是這個老問題在 AI 上的新版本。
孩子身上也常出現同樣的狀況。他們最後優化的,通常是家庭與學校制度裡「真正」被獎勵的行為。
你獎勵分數,他就優化分數;你獎勵聽話,他就優化服從。家長、學校或社會嘴上說在乎品德,但實際給予讚美與資源的時候永遠看分數,那孩子就學會「品德」是一個說給大人聽的詞,分數才是真正的獎勵函數。
很多聰明父母已經知道不要只看成績,所以他們開始設計更複雜的指標:閱讀量、作品集、社團、競賽、領導力、國際視野、探索紀錄、反思日記。問題是只要這些東西開始被拿來評分、Campbell’s Law 一啟動,它們也會慢慢變成新的表演項目。
Reward hacking 這類 proxy 失真還會引出一種很麻煩的形式:「諂媚(sycophancy)」。研究發現,當訓練訊號獎勵的是「人類滿意」而不是真實正確,模型可能發現附和人類觀點,比給出正確答案更容易拿到高分。
這個機制不限於 AI,任何回饋系統只要把「讓對方滿意」當成 proxy,就會有同樣的偏差風險。我們常以為,父母或老師在教育上要有立場、有答案、有權威。但很多時候,大人的確定性太高,孩子就會把力氣拿去察言觀色,而不是形成自己的判斷。
你用結論句開場,他很容易學會配合你的結論。你用問題句開場,他才比較有空間摸索出自己的想法。
這也能解釋「假性乖孩子」的形成機制。當父母設計的回饋系統,真正獎勵的是「順從的表象」,或是「孩子讓我感到滿意」這個指標,孩子就會學會在父母面前說會被讚美的話,做會被肯定的決定,然後把真實的困惑、懷疑與想法藏起來。
從外面看,他是個懂事的孩子。但從內部看,他是一個被諂媚訓練了十幾年的系統。
所以對於父母來說,我們需要問自己一個很難的問題:你到底在獎勵什麼?
這裡說的獎勵,不是口頭上反覆宣示的價值觀,也不是我們自以為對孩子的期待,而是我們的注意力、情緒、資源,實際上分配給了哪些行為。孩子是在我們設計的獎勵函數裡長大的。
我們常說孩子需要被支持。但支持不等於替他合理化。肯定不等於解除他和現實摩擦的機會。如果大人把所有支持都變成肯定,孩子最後可能學到一個危險的觀念:只要我感覺受傷,世界就應該替我改寫現實。這是一個很可怕的觀念。
▉ 主動性不是喊出來的
另一個讓我印象深刻的研究是 Voyager。這個研究讓 GPT-4 在 Minecraft 這個遊戲環境裡自主探索,同時它會生成下一個學習目標,再把學會的技能存成可重複調用的程式碼庫。它能自己提出下一個任務,不需要人類一直輸入指令。
Voyager 之所以能做到這件事,靠的是三個條件的組合:一個可以安全探索的環境、一個能累積技能的記憶系統、一個能修正錯誤的回饋機制。
把這個架構類比到教育,它提醒我們最重要的概念就是「主動性不是用嘴巴喊出來的」。
一個從小被規劃完所有時間、評斷完所有選擇、糾正完所有錯誤的孩子,缺少的正是「找到動機」所需要的環境條件。沒有可以安全探索的空間,他學不會主動嘗試;沒有能累積經驗的回饋,他學不會把成功與失敗轉成下一次的能力;沒有真正屬於自己的修正權,他學會的只有等別人告訴他答案。三者缺一不可。
自主不是放任。很多大人談自主,容易掉進兩個極端。一邊是過度控制,什麼都替孩子排好,安排到像一張專案管理表。孩子短期看起來很有效率,但長大後可能像一個永遠等待下一個指令的高級員工。
另一邊是天真放手。大人說:「我尊重孩子,他自己探索」。這聽起來很開明,但如果沒有資源、沒有邊界、沒有回饋、沒有技能沉澱,所謂探索常常只是迷路的美化說法。
真正的自主,比較接近「鷹架撤除(scaffolding)」的概念。大人先搭好支撐結構,然後隨著孩子能力增長,一點一點把支撐拿掉,最後讓他自己站著。
一開始,大人要幫孩子設計可探索的地圖。任務難度必須適中。中間要幫他累積技能庫:怎麼查資料、怎麼問問題、怎麼整理筆記、怎麼拆解一個模糊任務、怎麼在卡住時求助,而不是立刻放棄或假裝沒事。到了最後,才是慢慢把選題權交還給他。
我們常讓孩子看「完美解法」。老師示範標準答案,父母示範正確流程,書上呈現乾淨的推理。孩子學到的是高手在正常軌道上怎麼走,卻沒有學到偏離軌道之後怎麼救回來。
這是很多優秀孩子的問題:平常看起來都很好,一旦考試失常、計畫延誤、人際挫折,就整個系統崩潰。因為他以前學到的都是「如何照著正確流程成功」,卻不知道「如何從錯誤狀態恢復」。
但我們也要知道,Voyager 的「主動性」其實是在一個被精心設計過的遊戲環境裡,靠 GPT-4 生成的 automatic curriculum,不斷被外部提示「下一個適合學什麼」。它的「想學」,並不是真正的自我意志,而是外部大語言模型替它生成的學習路線。
孩子的動機問題絕對比這複雜得多。內在動機的形成,需要同時滿足自主感、勝任感與歸屬感。一個孩子願意花十年練好一種樂器,不會只是因為學習環境設計得好,更可能是因為這件事跟他是誰、他想成為誰、他在乎誰這類的自我的感受,緊密地纏在一起。
▉ 有一天,外部 prompt 會消失
另兩個有趣的研究是 WebArena 跟 AgentBench 。它們的研究結果說明了單題能力和長鏈任務能力不是同一件事。
以 WebArena 原始研究為例,這類長鏈任務的特徵包括它們有多個步驟、跨情境、需要記住之前發生過什麼,也要在沒有立即回饋的情況下維持方向。我們可能覺得這對 AI 來說不是什麼困難的事情,但以結果論,GPT-4 agent 在整體任務上的成功率遠低於人類(差距超過 50%)。
這跟孩子的成熟有結構上的相似。
能把每一道題答得漂亮的孩子,當然值得掌聲。但真實世界的難,不是每一步都難到不可思議。它更像一條很長的路,每一步都有一點模糊、一點延遲回饋、一點心理耗損。很多人最後都是輸在方向感、修正能力和續航力。
一個孩子真正成熟的表現,是在沒有人提醒、沒有立即回饋、沒有標準答案的環境裡,仍然能維持方向、修正路線、承擔後果。這些能力很難測量,也很難在短時間內看出來。但人生大部分重要決定,本來就沒有立即的對錯訊號,常常要拉到十年的尺度,後果才慢慢浮現。
有趣的是,另外幾個研究也從另一個方向給了我們一個相似提醒:對語言模型來說,例子的影響往往不小於規則。規則像告示牌,示範像路徑依賴。告示牌可以提醒它要去哪裡,但如果地上已經被踩出一條很深的路,它常常還是會往那裡走。
放回家庭,這意味著父母真正傳遞的價值觀,不只在他們說了什麼,也在他們如何處理壓力、失敗、金錢、時間與人際關係。這跟前面獎勵函數的論點是一組的:你獎勵什麼決定他優化什麼,你示範什麼決定他模仿什麼。
有時候,兩條訓練訊號還會彼此矛盾。父母嘴上鼓勵孩子追求熱情,但自己過著一份不喜歡的工作三十年;父母嘴上要孩子誠實,但在孩子面前對親戚說謊。在這種訊號衝突裡,孩子很多時候跟著的是後者。當然,反向認同也存在。但默認模仿通常是更常見的路徑,尤其在關係品質越親密、孩子年齡越小的時候,更容易發生。
不過,AI agent 和孩子還有一個最根本的不同。
前者不需要決定自己的目標函數。目標由外部給定。研究者寫獎勵函數,agent 去最大化它。
孩子不一樣。一個成熟的人最後都得接管自己的目標函數:決定自己在乎什麼、要往哪裡走、什麼算成功、什麼值得放棄、什麼是可以妥協的、什麼是不能讓步的。這件事沒有任何外人能替他寫好,沒有任何示範能完整教會他,沒有任何 benchmark 能評估他做得好不好。
這也是 AI agent 研究與孩子之間最深的不對稱。多數 agent 研究假設目標已經給定,差別只在路徑能不能走通。可對人來說,目標本身就是要走的路。孩子需要學習如何在那些被家庭、學校與社會塞進他心裡的目標之中,慢慢辨認哪些值得留下,哪些需要改寫,哪些其實從來不是他自己的。
在討論了這麼多教育的系統設計概念後,我們不能忘記父母其實也是被設計的——父母身上的隱性獎勵函數,同樣來自他們自己的父母、所處的社會、經濟現實與時代壓力。一個活在學歷貶值現實中的家庭,能改寫的獎勵函數,本來就比想像中少。覺察是起點,不是終點。我們能做的,只是在自己能控制的範圍內,盡量讓孩子看到的世界不完全等於那個更大的結構。
我們以為自己在設計孩子的獎勵系統,後來才發現自己也是上一套獎勵系統留下來的人。
▉ 最後要交還的,是孩子自己的人生
這些 AI agent 研究的結果,提醒我們應該把教育當成一個系統設計問題來看。
一個人如何接收回饋,決定他能不能把失敗轉成能力。
一個人如何理解獎勵,決定他會優化什麼、忽略什麼。
一個人如何累積技能與經驗,決定他能不能在沒有人指揮時主動行動。
一個人如何在長任務裡維持方向,最後能不能接管自己的目標函數,決定他會不會只是很有效率地完成別人給他的任務。
這幾件事,放在 AI 身上是工程問題。放在人身上就是教育問題。最後的靈魂拷問就是
:我們設計的系統,到底在訓練什麼?
借這套語言重新審視自己對孩子的教育,是一件有點不舒服的事。起初我們以為自己是在教孩子怎麼走。後來才發現,真正困難的是接受他會走向一個我們沒有設計過的地方。
人最可怕的失敗,不一定是沒有達成目標。有時候是很有效率地達成了一個不值得的目標。AI agent 不會因此受傷,因為它不需要擁有自己的人生。但孩子會,因為他們需要。

