AI 训练所:蒙特卡洛强化学习

EPISODIC LEARNING & BLACK HOLE CRASH SENSING

事后诸葛亮的智慧:倒推才是学习的本质

蒙特卡洛(MC)算法在探索阶段只记录轨迹。只有当回合彻底终结(通关或坠毁),系统才会从终点倒推回起点,用结局带来的“震撼”更新每一处的经验记忆。

Q(S, A)
Q(S, A)
+
α
× [
G
-
Q(S, A)
]

👆 鼠标悬停在变量上查看解析。

单线推演:经验回溯流程

STARTR: -1
S₁R: -1
GOAL+10