孩子最後學會的，是我們真正獎勵的東西：AI agent 研究給教育的一面鏡子

Jun 03, 2026

AI 研究有個核心問題：怎麼讓一個系統在沒人盯著時，還能自主學習、修正錯誤、累積能力？

把「系統」換成「孩子」，你會發現問題忽然變得很熟悉。差別是，AI 可以重啟，可以清掉記憶，可以重新部署。孩子不行。

你隨口說出的「你怎麼這麼笨」，可能不只是一句氣話，而是會被寫進他很久以後仍然拿來理解自己的先驗。你一次又一次只看分數、不看過程，也是在訓練他把人生變成一場刷分遊戲。

我們常以為教育的問題在於孩子不夠努力、不夠自律、不夠主動。但換一個角度看，很多時候問題不只在孩子，而在我們設計的獎勵函數本身就寫錯了。

最近很常看李宏毅教授在 YouTube 上的開放課程（強力推薦）。對我來說，最有趣的地方除了能多了解生成式 AI 的發展與應用，我也發現這個領域裡的許多研究成果，似乎能和教養孩子的某些哲學互相照亮。

舉個例子，他在課程中談到 prompt 的語氣可能影響 AI agent 的產出品質。不禮貌或過度禮貌的語氣，都可能讓表現變差，而最佳區間會因語言、任務和模型而不同。

這個結果未必代表「AI 也有感受」。更合理的解釋可能是，模型會把不禮貌的語氣當成某種敵對情境的脈絡線索，後續生成的句子就會往那個方向靠攏。所以你說它笨，它就順著脈絡，接龍出一個更笨的樣子。

順著這條線索往下挖，我也試著讀了一些相關研究，像是 Reflexion、Voyager、WebArena、AgentBench 這些概念（我不是 AI 專業，如果有誤讀之處，還請專家指正）。這些研究談的其實是同一件事：一個能自主行動、修正錯誤、累積能力的系統，到底需要什麼條件才建立得起來。

表面上，它們和孩子無關。但讀著讀著會發現，這些研究處理的問題，和父母每天面對的問題，在結構上竟然很相似。

當然，孩子終究不是 AI agent，也不是父母拿來最佳化的人生專案。但這個領域的研究，讓我們重新看見教育裡幾個關鍵的設計問題。

這篇文章不是想證明「孩子可以像 AI 一樣運作」。我更想擷取的是另一層價值：AI alignment 與 agent 研究，其實在做的就是把模糊的設計直覺，拆成可觀察的任務與回饋訊號，再透過實驗觀察系統如何成功、如何失敗、如何偏離設計者原本的期待。

根據這些研究的成果，我們是不是也可以把教育當成一個系統設計問題來看，而不只是停留在「有愛就好」或「管教就好」這類模糊感受裡？研究中得到的經驗，是不是也可以作為我們教育孩子時的參考？

AI 研究在這裡是一面鏡子，不是一份藍圖。

▉ 失敗需要翻譯，才會變成學習

如果我們從李宏毅教授提到的那個例子開始，再試著往下探究一層，會看到問題核心在於「回饋訊號的資訊密度」。

「你表現得很差」這句話，能告訴聽者的東西其實很少（聽者可以是模型，也可以是孩子）。它沒有指出哪裡差、為什麼差、下一步該往哪裡調整。對大語言模型來說，這種訊號很難提供可操作的修正方向，只會把回答推進一個更低效、更混亂的上下文。

我們都知道，失敗和成長之間需要一個轉譯機制。有了這個機制，失敗才有機會變成下一次可以調用的判斷。

當父母對孩子說「你怎麼這麼笨」，這句話傳遞的有效資訊接近零，情緒強度卻極高。這是一種很糟的回饋組合。孩子能學到的，往往只有一件事：避開讓父母不滿的場景。至於能力到底該往哪裡修正、錯誤該怎麼拆解成下次能用的線索，他什麼也沒有得到。

Reflexion 這篇論文則提供了另一個切入點。它讓 AI agent 把每次失敗整理成「反思文字」，存進記憶系統，下一次嘗試時再調用，表現才有機會進步。這個設計給我們最大的啟發在於，只有當失敗被處理成「可調用的反思」，才真正產生意義以及進步。

AI agent 的反思通常是儲存在外部記憶或上下文記憶；至於它能不能跨任務、跨 session 延續，則是取決於系統設計。也許你換一個新的對話框它就忘記了。而孩子的失敗經驗沒有這麼模組化。一次過於嚴厲的失敗回饋，可能進入自我認知、羞恥感與風險迴避模式，變成跟著他十年、二十年的先驗看法。

這也是為什麼高品質回饋在孩子身上，比在 AI 身上更重要。孩子沒有「重新部署」或是「刪除記憶」這個選項。每一次回饋，都可能被寫進那套越來越難改寫的自我理解裡。所以父母不該把焦點放在「能不能批評」這件事上。真正要把握的是，如果我們要批評，必須先思考批評最後是不是可以變成孩子未來可用的工具，還是只會留下了一個揮之不去的陰影。

▉ 你獎勵什麼，他就學會什麼

在 AI alignment 領域有一個被反覆討論的問題：reward hacking。

當你給 agent 一個獎勵函數，它就會去找最大化這個函數的方法。但這個方法經常和你「真正想要的東西」沒什麼關係。舉一個例子：如果你只獎勵清掃機器人「撿起垃圾的次數」，它理論上可能學會把垃圾弄出來再撿。表面上分數變高了，卻背叛了真正目標。

這個現象在其他領域早就出現過。社會科學裡的 Goodhart’s Law、教育領域裡的 Campbell’s Law，講的都是類似的情況：當一個指標變成目標，它就不再是好指標。量化指標越是被拿來決定資源分配，被測量的對象就越容易被扭曲。Reward hacking 就是這個老問題在 AI 上的新版本。

孩子身上也常出現同樣的狀況。他們最後優化的，通常是家庭與學校制度裡「真正」被獎勵的行為。

你獎勵分數，他就優化分數；你獎勵聽話，他就優化服從。家長、學校或社會嘴上說在乎品德，但實際給予讚美與資源的時候永遠看分數，那孩子就學會「品德」是一個說給大人聽的詞，分數才是真正的獎勵函數。

很多聰明父母已經知道不要只看成績，所以他們開始設計更複雜的指標：閱讀量、作品集、社團、競賽、領導力、國際視野、探索紀錄、反思日記。問題是只要這些東西開始被拿來評分、Campbell’s Law 一啟動，它們也會慢慢變成新的表演項目。

Reward hacking 這類 proxy 失真還會引出一種很麻煩的形式：「諂媚（sycophancy）」。研究發現，當訓練訊號獎勵的是「人類滿意」而不是真實正確，模型可能發現附和人類觀點，比給出正確答案更容易拿到高分。

這個機制不限於 AI，任何回饋系統只要把「讓對方滿意」當成 proxy，就會有同樣的偏差風險。我們常以為，父母或老師在教育上要有立場、有答案、有權威。但很多時候，大人的確定性太高，孩子就會把力氣拿去察言觀色，而不是形成自己的判斷。

你用結論句開場，他很容易學會配合你的結論。你用問題句開場，他才比較有空間摸索出自己的想法。

這也能解釋「假性乖孩子」的形成機制。當父母設計的回饋系統，真正獎勵的是「順從的表象」，或是「孩子讓我感到滿意」這個指標，孩子就會學會在父母面前說會被讚美的話，做會被肯定的決定，然後把真實的困惑、懷疑與想法藏起來。

從外面看，他是個懂事的孩子。但從內部看，他是一個被諂媚訓練了十幾年的系統。

所以對於父母來說，我們需要問自己一個很難的問題：你到底在獎勵什麼？

這裡說的獎勵，不是口頭上反覆宣示的價值觀，也不是我們自以為對孩子的期待，而是我們的注意力、情緒、資源，實際上分配給了哪些行為。孩子是在我們設計的獎勵函數裡長大的。

我們常說孩子需要被支持。但支持不等於替他合理化。肯定不等於解除他和現實摩擦的機會。如果大人把所有支持都變成肯定，孩子最後可能學到一個危險的觀念：只要我感覺受傷，世界就應該替我改寫現實。這是一個很可怕的觀念。

▉ 主動性不是喊出來的

另一個讓我印象深刻的研究是 Voyager。這個研究讓 GPT-4 在 Minecraft 這個遊戲環境裡自主探索，同時它會生成下一個學習目標，再把學會的技能存成可重複調用的程式碼庫。它能自己提出下一個任務，不需要人類一直輸入指令。

Voyager 之所以能做到這件事，靠的是三個條件的組合：一個可以安全探索的環境、一個能累積技能的記憶系統、一個能修正錯誤的回饋機制。

把這個架構類比到教育，它提醒我們最重要的概念就是「主動性不是用嘴巴喊出來的」。

一個從小被規劃完所有時間、評斷完所有選擇、糾正完所有錯誤的孩子，缺少的正是「找到動機」所需要的環境條件。沒有可以安全探索的空間，他學不會主動嘗試；沒有能累積經驗的回饋，他學不會把成功與失敗轉成下一次的能力；沒有真正屬於自己的修正權，他學會的只有等別人告訴他答案。三者缺一不可。

自主不是放任。很多大人談自主，容易掉進兩個極端。一邊是過度控制，什麼都替孩子排好，安排到像一張專案管理表。孩子短期看起來很有效率，但長大後可能像一個永遠等待下一個指令的高級員工。

另一邊是天真放手。大人說：「我尊重孩子，他自己探索」。這聽起來很開明，但如果沒有資源、沒有邊界、沒有回饋、沒有技能沉澱，所謂探索常常只是迷路的美化說法。

真正的自主，比較接近「鷹架撤除（scaffolding）」的概念。大人先搭好支撐結構，然後隨著孩子能力增長，一點一點把支撐拿掉，最後讓他自己站著。

一開始，大人要幫孩子設計可探索的地圖。任務難度必須適中。中間要幫他累積技能庫：怎麼查資料、怎麼問問題、怎麼整理筆記、怎麼拆解一個模糊任務、怎麼在卡住時求助，而不是立刻放棄或假裝沒事。到了最後，才是慢慢把選題權交還給他。

我們常讓孩子看「完美解法」。老師示範標準答案，父母示範正確流程，書上呈現乾淨的推理。孩子學到的是高手在正常軌道上怎麼走，卻沒有學到偏離軌道之後怎麼救回來。

這是很多優秀孩子的問題：平常看起來都很好，一旦考試失常、計畫延誤、人際挫折，就整個系統崩潰。因為他以前學到的都是「如何照著正確流程成功」，卻不知道「如何從錯誤狀態恢復」。

但我們也要知道，Voyager 的「主動性」其實是在一個被精心設計過的遊戲環境裡，靠 GPT-4 生成的 automatic curriculum，不斷被外部提示「下一個適合學什麼」。它的「想學」，並不是真正的自我意志，而是外部大語言模型替它生成的學習路線。

孩子的動機問題絕對比這複雜得多。內在動機的形成，需要同時滿足自主感、勝任感與歸屬感。一個孩子願意花十年練好一種樂器，不會只是因為學習環境設計得好，更可能是因為這件事跟他是誰、他想成為誰、他在乎誰這類的自我的感受，緊密地纏在一起。

▉ 有一天，外部 prompt 會消失

另兩個有趣的研究是 WebArena 跟 AgentBench 。它們的研究結果說明了單題能力和長鏈任務能力不是同一件事。

以 WebArena 原始研究為例，這類長鏈任務的特徵包括它們有多個步驟、跨情境、需要記住之前發生過什麼，也要在沒有立即回饋的情況下維持方向。我們可能覺得這對 AI 來說不是什麼困難的事情，但以結果論，GPT-4 agent 在整體任務上的成功率遠低於人類（差距超過 50%）。

這跟孩子的成熟有結構上的相似。

能把每一道題答得漂亮的孩子，當然值得掌聲。但真實世界的難，不是每一步都難到不可思議。它更像一條很長的路，每一步都有一點模糊、一點延遲回饋、一點心理耗損。很多人最後都是輸在方向感、修正能力和續航力。

一個孩子真正成熟的表現，是在沒有人提醒、沒有立即回饋、沒有標準答案的環境裡，仍然能維持方向、修正路線、承擔後果。這些能力很難測量，也很難在短時間內看出來。但人生大部分重要決定，本來就沒有立即的對錯訊號，常常要拉到十年的尺度，後果才慢慢浮現。

有趣的是，另外幾個研究也從另一個方向給了我們一個相似提醒：對語言模型來說，例子的影響往往不小於規則。規則像告示牌，示範像路徑依賴。告示牌可以提醒它要去哪裡，但如果地上已經被踩出一條很深的路，它常常還是會往那裡走。

放回家庭，這意味著父母真正傳遞的價值觀，不只在他們說了什麼，也在他們如何處理壓力、失敗、金錢、時間與人際關係。這跟前面獎勵函數的論點是一組的：你獎勵什麼決定他優化什麼，你示範什麼決定他模仿什麼。

有時候，兩條訓練訊號還會彼此矛盾。父母嘴上鼓勵孩子追求熱情，但自己過著一份不喜歡的工作三十年；父母嘴上要孩子誠實，但在孩子面前對親戚說謊。在這種訊號衝突裡，孩子很多時候跟著的是後者。當然，反向認同也存在。但默認模仿通常是更常見的路徑，尤其在關係品質越親密、孩子年齡越小的時候，更容易發生。

不過，AI agent 和孩子還有一個最根本的不同。

前者不需要決定自己的目標函數。目標由外部給定。研究者寫獎勵函數，agent 去最大化它。

孩子不一樣。一個成熟的人最後都得接管自己的目標函數：決定自己在乎什麼、要往哪裡走、什麼算成功、什麼值得放棄、什麼是可以妥協的、什麼是不能讓步的。這件事沒有任何外人能替他寫好，沒有任何示範能完整教會他，沒有任何 benchmark 能評估他做得好不好。

這也是 AI agent 研究與孩子之間最深的不對稱。多數 agent 研究假設目標已經給定，差別只在路徑能不能走通。可對人來說，目標本身就是要走的路。孩子需要學習如何在那些被家庭、學校與社會塞進他心裡的目標之中，慢慢辨認哪些值得留下，哪些需要改寫，哪些其實從來不是他自己的。

在討論了這麼多教育的系統設計概念後，我們不能忘記父母其實也是被設計的——父母身上的隱性獎勵函數，同樣來自他們自己的父母、所處的社會、經濟現實與時代壓力。一個活在學歷貶值現實中的家庭，能改寫的獎勵函數，本來就比想像中少。覺察是起點，不是終點。我們能做的，只是在自己能控制的範圍內，盡量讓孩子看到的世界不完全等於那個更大的結構。

我們以為自己在設計孩子的獎勵系統，後來才發現自己也是上一套獎勵系統留下來的人。

▉ 最後要交還的，是孩子自己的人生

這些 AI agent 研究的結果，提醒我們應該把教育當成一個系統設計問題來看。

一個人如何接收回饋，決定他能不能把失敗轉成能力。
一個人如何理解獎勵，決定他會優化什麼、忽略什麼。
一個人如何累積技能與經驗，決定他能不能在沒有人指揮時主動行動。
一個人如何在長任務裡維持方向，最後能不能接管自己的目標函數，決定他會不會只是很有效率地完成別人給他的任務。

這幾件事，放在 AI 身上是工程問題。放在人身上就是教育問題。最後的靈魂拷問就是
：我們設計的系統，到底在訓練什麼？

借這套語言重新審視自己對孩子的教育，是一件有點不舒服的事。起初我們以為自己是在教孩子怎麼走。後來才發現，真正困難的是接受他會走向一個我們沒有設計過的地方。

人最可怕的失敗，不一定是沒有達成目標。有時候是很有效率地達成了一個不值得的目標。AI agent 不會因此受傷，因為它不需要擁有自己的人生。但孩子會，因為他們需要。

Vincent’s Substack

Discussion about this post

Ready for more?