Bandits Roaming Hilbert Space - Multi-Armed Quantum Bandit Problem

Explore the multi-armed bandit problem in quantum mechanics through this 34-minute quantum lunch seminar that bridges reinforcement learning and quantum information theory. Learn about the fundamental trade-off between exploration and exploitation in decision-making, then delve into the multi-armed quantum bandit problem where sequential oracle access to unknown quantum states guides optimal observable selection. Discover strategies based on Optimism in the Face of Uncertainty (OFU) and adaptive confidence regions for navigating uncertainty in quantum systems. Examine practical applications including quantum battery optimization, where measurement strategies must balance energy extraction with state knowledge acquisition to improve charging efficiency across multiple rounds with finite copies of unknown pure qubit states.