policies – whatsnewinpreprint.com

Optimal Sample Complexity for Average Reward MDPs: How Span-Based?

In ML By Bot On November 25, 2023December 10, 2023

Original title: Span-Based Optimal Sample Complexity for Average Reward MDPs Authors: Matthew Zurek, Yudong Chen The article delves into learning optimal policies in average-reward Markov decision processes (MDPs) and their sample complexity under a generative…

Read more of Optimal Sample Complexity for Average Reward MDPs: How Span-Based?