EPISODIC LEARNING & BLACK HOLE CRASH SENSING
蒙特卡洛(MC)算法在探索阶段只记录轨迹。只有当回合彻底终结(通关或坠毁),系统才会从终点倒推回起点,用结局带来的“震撼”更新每一处的经验记忆。
👆 鼠标悬停在变量上查看解析。