AI 训练所：蒙特卡洛强化学习

EPISODIC LEARNING & BLACK HOLE CRASH SENSING

事后诸葛亮的智慧：倒推才是学习的本质

蒙特卡洛（MC）算法在探索阶段只记录轨迹。只有当回合彻底终结（通关或坠毁），系统才会从终点倒推回起点，用结局带来的“震撼”更新每一处的经验记忆。

Q(S, A)

←

Q(S, A)

+

α

× [

G

-

Q(S, A)

]

👆 鼠标悬停在变量上查看解析。

单线推演：经验回溯流程

STARTR: -1

▶

S₁R: -1

▶

GOAL+10