layout | word | translation |
---|---|---|
word |
Q-learning |
یادگیری Q |
در یادگیری تقویتی، الگوریتمی است که اجازه میدهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیمگیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیمگیری مارکوف محیط را توصیف میکنند.