什麼是強化學習？

今天我們將討論機器學習中的另一個重要分支——強化學習（Reinforcement Learning）。強化學習是一類特殊的算法。簡單來說，計算機從一開始什麼都不知道，腦中一片空白，透過不斷的嘗試與錯誤學習，最終找到規律，學會如何達成目標。這就是強化學習的基本流程。

現實生活中有許多強化學習的例子。最有名的例子莫過於AlphaGo，這台機器首次在圍棋比賽中擊敗了人類頂尖棋手。還有讓計算機自學如何玩經典遊戲Atari的案例，這些都是透過不斷嘗試、更新行為準則，讓計算機學會下圍棋或在遊戲中獲得高分的過程。

機器人是如何學習的呢？

其實，機器人也需要一位虛擬的老師。不過，這位老師很吝嗇。他不會告訴你應該如何行動或做決定，他唯一做的就是為你的行為打分。那麼，計算機如何從分數中學習如何做決策呢？其實很簡單，只要記住那些高分和低分對應的行為，下一次就使用能獲得高分的行為，避免那些導致低分的行為。

舉個例子，假設這位老師會根據我的開心程度給我打分。當我開心時，我會得到高分；當我不開心時，我則會得到低分。有了這些打分經驗後，我就能知道，為了得到高分，我應該選擇一張開心的臉，避免選擇傷心的臉。這正是強化學習的核心思想——通過分數學習如何做出最佳決策。

分數在強化學習中的重要性

在強化學習中，分數的作用十分重要，因為強化學習具有分數導向性。這個概念類似於監督學習中的正確標籤。我們知道，監督學習已經有了數據與對應的標籤，例如通過訓練學習哪些臉對應哪些標籤。但是，強化學習走得更遠——一開始它並沒有任何數據或標籤，而是通過在環境中的不斷嘗試來獲取這些數據與標籤，然後再學習如何選擇能夠帶來高分的行為（例如選擇開心臉）。

典型的強化學習架構

Agent（代理人）
- 定義：代理人是學習者與決策者，在強化學習中執行動作並學習如何在環境中達成目標。
- 角色：它根據環境的狀態（State）選擇動作（Action），並根據從環境獲得的回饋（Reward）來更新策略或價值函數。
Environment（環境）
- 定義：環境是代理人所互動的外部世界。它接受代理人執行的動作並根據其做出回應，更新狀態並提供回報。
- 角色：環境接收代理人的動作，並返回下一個狀態和相應的回報。
Action（動作）
- 定義：動作是代理人在每個狀態下可以選擇的一組行為。這些行為由策略決定。
- 角色：代理人根據當前策略選擇某個動作來影響環境。
State（狀態）
- 定義：狀態是代理人在某一時刻對環境的描述，包含環境中代理人的位置或情況。
- 角色：狀態幫助代理人決策，並且狀態隨著代理人執行動作而改變。
Reward（回報）
- 定義：回報是環境根據代理人的動作給出的反饋，通常為一個標量值。它用來衡量動作的好壞。
- 角色：代理人通過獲取回報來調整其行為，旨在最大化累積回報。
Policy（策略）
- 定義：策略是代理人的決策函數，表示從某一狀態到應執行動作的映射。
- 角色：策略控制代理人如何在每個狀態下選擇動作，通常是通過學習來改善的。
Value Function（價值函數） 定義：價值函數是從狀態到實數的映射，用於評估在某一狀態下，執行一系列動作後可期望獲得的長期回報。角色：代理人通過價值函數預測未來回報，從而決定最佳策略。

價值（Value）和獎勵（Reward）區別

獎勵（Reward, 𝑟𝑡） 是指在每個時間步驟中，Agent 執行某個動作後，環境立即給予的回饋，這是一個即時的數值。例如，你在迷宮裡走對了一步，可能獲得 +10 的獎勵；如果走錯了一步，可能得到 -5 的懲罰。

價值（Value, 𝑉𝜋(𝑆)） 則是一個累積獎勵的期望值。它衡量的是當 Agent 處於某個狀態時，從該狀態出發，按照某個策略（例如 𝜋）行動，直到最終完成任務所能期望獲得的總獎勵。換句話說，價值是預測未來一系列行動的「總獎勵」，而不僅僅是當下那一步的即時獎勵。

以剛剛迷宮的例子來看：

當你在某個位置 𝑆𝑡 向正確的方向移動，你獲得一個即時獎勵𝑟𝑡=+10。
價值𝑉𝜋(𝑆𝑡) 則考慮的是從 𝑆𝑡 開始，未來所有步驟的累積獎勵。例如，未來你可能會獲得50分的累積獎勵，因為你正走向出口。因此，這個位置 𝑆𝑡 的價值可能是 60（包含當前獎勵和未來預期獎勵）。

總結來說：

獎勵是當下的回饋，即時的反應。
價值是從當前狀態出發，未來整體預期能獲得的累積獎勵。

因此，價值可以被看作是多步驟累積獎勵的預期值，而獎勵是每一步的即時反應。

強化學習的算法家族

強化學習是一個龐大的家族，包含了許多不同的算法。例如，有些算法是通過行為的價值來選擇特定行為，像是使用表格學習的Q-Learning和SARSA，或是透過神經網路學習的Deep Q-Network（DQN）。另外還有直接輸出行為的Policy Gradient方法，或者那些透過構建虛擬環境來學習的算法。

Model-Based RL 與 Model-Free RL

Model-Based RL：需要環境模型來進行決策或規劃。這類方法會學習一個環境模型或在已知環境模型的基礎上進行操作。
Model-Free RL：不需要環境模型，僅透過與環境互動來學習。這類方法包括基於策略的學習（Policy-Based）和基於價值的學習（Value-Based）。

Model-Based RL 下的子分類

Learn the Model：學習環境的模型，再根據模型來進行決策，如World Models、I2A等。
Given the Model：已知環境模型的情況下直接使用，例如 AlphaZero。

Model-Free RL 下的子分類

Policy-Based (策略梯度方法)：這類方法直接學習策略，不依賴價值函數。你可以放上 Policy Gradient PPO 和 TRPO。
Value-Based (基於價值函數的方法)：這類方法透過學習值函數來指導策略。你可以在這裡添加 Q-learning 和 Sarsa，DQN。
Actor-Critic：混合策略和價值的學習方法 (A2C, A3C)

Policy-Based 和 Value-Based

根據強化學習是以策略為中心還是以值函數為中心分為兩大類Policy-Based和Value-Based如圖：

Policy-Based的方法直接輸出下一步動作的概率，根據概率來選取動作。但不一定概率最高就會選擇該動作，還是會從整體進行考慮。適用於非連續和連續的動作。常見的方法有policy gradients。 Value-Based的方法輸出的是動作的價值，選擇價值最高的動作。適用於非連續的動作。常見的方法有Q-learning和Sarsa。更為厲害的方法是二者的結合：Actor-Critic，Actor根據概率做出動作，Critic根據動作給出價值，從而加速學習過程。