投影片連結:https://docs.google.com/presentation/d/1kTxukwlmx2Sc9H7aGPTiNiPdk4zN_NoH/edit?usp=sharing&ouid=115046073158939078465&rtpof=true&sd=true
5:45 此處應為 AlphaZero 而不是 AlphaGo Zero
6:10 此處並不是說 RL 不重要,畢竟 LLM 的訓練過程中也有使用 RL。此處想要表達的意思是,LLM 已經取得了某種程度的通用能力,不需要再針對不同的任務進行 RL 訓練。