Matches in SemOpenAlex for { <https://semopenalex.org/work/W4382192794> ?p ?o ?g. }
Showing items 1 to 71 of
71
with 100 items per page.
- W4382192794 endingPage "353" @default.
- W4382192794 startingPage "329" @default.
- W4382192794 abstract "В данной статье проведен обзор как исторических достижений, так и современных результатов в области марковских процессов принятия решений (Markov Decision Process, MDP) и выпуклой оптимизации. Данный обзор является первой попыткой освещения на русском языке области обучения с подкреплением в контексте выпуклой оптимизации. Рассматриваются фундаментальное уравнение Беллмана и построенные на его основе критерии оптимальности политики — стратегии, принимающие решение по известному состоянию среды на данный момент. Также рассмотрены основные итеративные алгоритмы оптимизации политики, построенные на решении уравнений Беллмана. Важным разделом данной статьи стало рассмотрение альтернативы к подходу $Q$-обучения — метода прямой максимизации средней награды агента для избранной стратегии от взаимодействия со средой. Таким образом, решение данной задачи выпуклой оптимизации представимо в виде задачи линейного программирования. В работе демонстрируется, как аппарат выпуклой оптимизации применяется для решения задачи обучения с подкреплением (Reinforcement Learning, RL). В частности, показано, как понятие сильной двойственности позволяет естественно модифицировать постановку задачи RL, показывая эквивалентность между максимизацией награды агента и поиском его оптимальной стратегии. В работе также рассматривается вопрос сложности оптимизации MDP относительно количества троек «состояние–действие–награда», получаемых в результате взаимодействия со средой. Представлены оптимальные границы сложности решения MDP в случае эргодического процесса с бесконечным горизонтом, а также в случае нестационарного процесса с конечным горизонтом, который можно перезапускать несколько раз подряд или сразу запускать параллельно в нескольких потоках. Также в обзоре рассмотрены последние результаты по уменьшению зазора нижней и верхней оценки сложности оптимизации MDP с усредненным вознаграждением (Averaged MDP, AMDP). В заключение рассматриваются вещественнозначная параметризация политики агента и класс градиентных методов оптимизации через максимизацию $Q$-функции ценности. В частности, представлен специальный класс MDP с ограничениями на ценность политики (Constrained Markov Decision Process, CMDP), для которых предложен общий прямодвойственный подход к оптимизации, обладающий сильной двойственностью." @default.
- W4382192794 created "2023-06-28" @default.
- W4382192794 creator A5050234205 @default.
- W4382192794 creator A5078897029 @default.
- W4382192794 creator A5087339111 @default.
- W4382192794 date "2023-04-01" @default.
- W4382192794 modified "2023-09-26" @default.
- W4382192794 title "Survey of convex optimization of Markov decision processes" @default.
- W4382192794 doi "https://doi.org/10.20537/2076-7633-2023-15-2-329-353" @default.
- W4382192794 hasPublicationYear "2023" @default.
- W4382192794 type Work @default.
- W4382192794 citedByCount "0" @default.
- W4382192794 crossrefType "journal-article" @default.
- W4382192794 hasAuthorship W4382192794A5050234205 @default.
- W4382192794 hasAuthorship W4382192794A5078897029 @default.
- W4382192794 hasAuthorship W4382192794A5087339111 @default.
- W4382192794 hasBestOaLocation W43821927941 @default.
- W4382192794 hasConcept C105795698 @default.
- W4382192794 hasConcept C106189395 @default.
- W4382192794 hasConcept C112680207 @default.
- W4382192794 hasConcept C119857082 @default.
- W4382192794 hasConcept C126255220 @default.
- W4382192794 hasConcept C127413603 @default.
- W4382192794 hasConcept C154945302 @default.
- W4382192794 hasConcept C159886148 @default.
- W4382192794 hasConcept C17098449 @default.
- W4382192794 hasConcept C188116033 @default.
- W4382192794 hasConcept C2524010 @default.
- W4382192794 hasConcept C2984634286 @default.
- W4382192794 hasConcept C33923547 @default.
- W4382192794 hasConcept C41008148 @default.
- W4382192794 hasConcept C539667460 @default.
- W4382192794 hasConcept C97541855 @default.
- W4382192794 hasConcept C98763669 @default.
- W4382192794 hasConceptScore W4382192794C105795698 @default.
- W4382192794 hasConceptScore W4382192794C106189395 @default.
- W4382192794 hasConceptScore W4382192794C112680207 @default.
- W4382192794 hasConceptScore W4382192794C119857082 @default.
- W4382192794 hasConceptScore W4382192794C126255220 @default.
- W4382192794 hasConceptScore W4382192794C127413603 @default.
- W4382192794 hasConceptScore W4382192794C154945302 @default.
- W4382192794 hasConceptScore W4382192794C159886148 @default.
- W4382192794 hasConceptScore W4382192794C17098449 @default.
- W4382192794 hasConceptScore W4382192794C188116033 @default.
- W4382192794 hasConceptScore W4382192794C2524010 @default.
- W4382192794 hasConceptScore W4382192794C2984634286 @default.
- W4382192794 hasConceptScore W4382192794C33923547 @default.
- W4382192794 hasConceptScore W4382192794C41008148 @default.
- W4382192794 hasConceptScore W4382192794C539667460 @default.
- W4382192794 hasConceptScore W4382192794C97541855 @default.
- W4382192794 hasConceptScore W4382192794C98763669 @default.
- W4382192794 hasIssue "2" @default.
- W4382192794 hasLocation W43821927941 @default.
- W4382192794 hasOpenAccess W4382192794 @default.
- W4382192794 hasPrimaryLocation W43821927941 @default.
- W4382192794 hasRelatedWork W1515117609 @default.
- W4382192794 hasRelatedWork W1536296381 @default.
- W4382192794 hasRelatedWork W1574991376 @default.
- W4382192794 hasRelatedWork W1663497315 @default.
- W4382192794 hasRelatedWork W2146763310 @default.
- W4382192794 hasRelatedWork W2156371714 @default.
- W4382192794 hasRelatedWork W2163284801 @default.
- W4382192794 hasRelatedWork W2347690758 @default.
- W4382192794 hasRelatedWork W3096874164 @default.
- W4382192794 hasRelatedWork W3167472281 @default.
- W4382192794 hasVolume "15" @default.
- W4382192794 isParatext "false" @default.
- W4382192794 isRetracted "false" @default.
- W4382192794 workType "article" @default.