فێربوونی بەھێزکردنەوە

بوارێک لە فێربوونی مەکینە

فێربوونی بەهێزکردنەوە (بە ئینگلیزی: Reinforcement learning RL) بوارێکە لە فێربوونی ئامێر کە پەیوەستە بە چۆنیەتی کارمەندانی زیرەک کە دەبێت لە ژینگەیەکدا کردار بکەن بۆ ئەوەی چەمکی کۆی پاداشتێک زیاد بکەن. فێربوونی بەهێزکردن یەکێکە لە سێ شێوازی فێربوونی بنەڕەتیی ئامێر، لەگەڵ فێربوونی چاودێریکراو و فێربوونی چاودێرینەکراو.

فێربوونی بەھێزکردنەوە
لقیفێربوونی مەکینە
بەشێکە لەفێربوونی مەکینە
کۆد (٢٠١٢)10010261
تاگی "ستەک ئێکسچەینج"https://stackoverflow.com/tags/reinforcement-learning، https://ai.stackexchange.com/tags/reinforcement-learning
بەرامبەرinverse reinforcement learning

فێربوونی بەهێزکردنەوە جیاوازە لە فێربوونی چاودێریکراو لە نەبوونی پێویستی بە جووتەکانی تێخراو/دەرهاویشتە کە پێشکەشکراون، و نەبوونی پێویستی بۆ کرداری نزم بۆ ڕاستکردنەوەی ئاشکرا (واتە وردکردنەوەی ئەوەی کە چی پێویستە ڕاست بکرێتەوە لە کاتی هەڵەکردندا). لەجیاتی ئەوە جەخت لەسەر دۆزینەوەی هاوسەنگی دەکات لەنێوان گەڕان (ناوچە نەناسراوەکان) و ئیستیغلالکردن (ی زانینی ئێستا).[١]

ژینگە بە شێوەیەکی نموونەیی لە شێوەی پرۆسەی بڕیاردانی مارکۆڤ (MDP) دا دەنووسرێت، چونکە زۆرێک لە ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە بۆ ئەم چوارچێوەیە تەکنیکی پرۆگرامکردنی داینامیکی بەکاردەهێنن.[٢] جیاوازی سەرەکی لەنێوان شێوازەکانی پرۆگرامکردنی داینامیکی کلاسیکی و ئەلگۆریتمەکانی فێربوونی بەهێزکردنەوە ئەوەیە کە ئەم دواینانە زانیاری لەسەر مۆدێلی بیرکاریی ورد لە MDP هەڵناگرن و ئامانجیان MDP گەورەیە کە تێیدا بەکارهێنانی شێوازە کتومتەکان ئەستەمە.

پێناسە

دەستکاری
 
چوارچێوەی نموونەیی سیناریۆی فێربوونی بەهێزکردنەوە (RL): بریکارێک کردارێک لە ژینگەیەکدا ئەنجام دەدات، کە لێکدەدرێتەوە بۆ پاداشت و نوێنەرایەتی دۆخ، کە دەگەڕێندرێتەوە بۆ بریکارەکە.

بەھۆی گشتی بوونیەوە، فێربوونی بەهێزکردنەوە لە زۆر بواری زانستی لێکۆڵینەوەی لەسەر دەکرێت، وەک تیۆری یاری، تیۆری کۆنترۆڵ، توێژینەوەی ئۆپەراسیۆنەکان، تیۆری زانیاری، گەشەپێدانی بنچینەی لاساییکردنەوە، سیستەمی فرە بریکار، زیرەکیی سوارم، و هەروەها ئامار. لە توێژینەوە و نووسراوەکانی کۆنترۆڵکردنی ئۆپەراسیۆنەکاندا، فێربوونی بەهێزکردن پێی دەوترێت بەرنامەدانانی داینامیکی نزیکەیی، یان بەرنامەدانانەکانی دەماری. کێشەکانی بەرژەوەندی لە فێربوونی بەهێزکردن هەروەها لە تیۆری کۆنترۆڵکردنی 'گونجاو' لێکۆڵینەوەی لەسەر کراوە، کە بەزۆری پەیوەستە بە بوون و دیاریکردنی چارەسەرە گونجاوەکان، و ئەلگۆریتمەکان بۆ کۆمپیوتەراندنی وردیان، و کەمتر لەگەڵ فێربوون یان نزیکبوونەوە، بەتایبەتی لە نەبوونی مۆدێلێکیی بیرکاریی ژینگەکەدا. لە ئابووری و تیۆری یاری، فێربوونی بەهێزکردنەوە دەتوانرێت بەکاربهێنرێت بۆ ڕوونکردنەوەی ئەوەی چۆن هاوسەنگی لەوانەیە لەژێر 'ڕەفتاری چوارچێوەدار'دا سەرهەڵبدات.

فێربوونی بەهێزکردنی بنەڕەتی وەک پرۆسەی بڕیاردانی مارکۆڤ (MDP) مۆدێل دەکرێت:

  • کۆمەڵێک دۆخی ژینگە و بریکار، S؛
  • کۆمەڵێک کردار، A، لەلایەن بریکار؛
  • ئەگەری گواستنەوە (لە کاتی  ) لە دۆخێکەوە بۆ دۆخێکی تر لەژێر کرداردا.     
  •   دەکاتە خەڵاتێکی ڕاستەوخۆی دوای گواستنەوە لە  ەوە بۆ   بە کرداری  .

سەرچاوەکان

دەستکاری
  1. ^ Kaelbling، Leslie P. (1996). «Reinforcement Learning: A Survey». Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. لە ڕەسەنەکە لە ٢٠ی تشرینی دووەمی ٢٠٠١ ئەرشیڤ کراوە. لە ١٣ی کانوونی یەکەمی ٢٠٢٢ ھێنراوە. {{cite journal}}: زیاتر لە یەک دانە لە |ناونیشانی ئەرشیڤ= و |archive-url= دیاری کراوە (یارمەتی)
  2. ^ van Otterlo, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6. {{cite book}}: |work= چاوپۆشیی لێ کرا (یارمەتی)