【有啥问啥】多臂老虎机(Multi-Armed Bandit,MAB)算法详解
多臂老虎机(Multi-Armed Bandit,MAB)算法详解
1. 引言多臂老虎机(Multi-Armed Bandit,MAB)问题源自概率论和决策论,是一个经典的决策优化问题。最早提出的形式是赌场中的老虎机问题:一个玩家面对多台老虎机(即“多臂老虎机”ÿ