به کلمه دیگر، ما پارامترهای سرگرم در فلشهای آبی را اهمیت backprop به طور معمول تدریس میدهیم، اما پارامترهای درگیر با مکان نما قرمز حال کلیدی استعمال از گرادیانهای خطمشی مستقل از گذر به عقب بهروزرسانی می شوند و نمونههایی را تشویق مینمایند که سبب ساز به تلفات ناچیز میشوند. به طور کلی می توان از همین الگوریتم به جهت تدریس عامل ها به جهت بازی های دلخواه و امیدواریم روزی در مورد اکثری از مسائل کنترلی با ارزش در دنیای واقعی استفاده کرد. در بعضی مورد ها ممکن می باشد اشخاص مسیرهای متخصص کمتری داشته باشند (مثلاً از خط مش بدور ربات) و ترفند هایی برای استعمال از همین داده ها در پایین چتر یادگیری کارآموزی وجود دارد. برای نمونه AlphaGo در آغاز از یادگیری ارزیابی شده به جهت پیشبینی حرکات انسان از بازیهای متخصص Go به کارگیری می کند و سیاست تقلید انسانی حاصل بعداً دارای شیبهای خطمشی برای هدف “واقعی” پیروز شدن بازی تهیه میشود. یک عدد از کارهای مرتبط که برای کاهش همین خلل در حیث گرفته شده است، گرادیان های خط مشی قطعی هست – به جای نیاز به مثال هایی از یک خط مشی تصادفی و تشویق نمونه هایی که امتیازات بالاتری به دست آوردن می کنند، همین رویه از یک خط مشی قطعی به کار گیری می کند و داده ها گرادیان را مستقیماً از کانال دوم اخذ می نماید (به اسم منتقد) که تابع امتیاز را مدل می کند. اساسی این حال، همانطور که در RL-NTM انجام می شود، می توانیم از گرادیان های خط مشی برای بدور زدن این ایراد (در تئوری) استعمال کنیم. میتوانید اهمیت استعمال از کد کوپن VogaCloset و کد تبلیغاتی VogaCloset، محصولات مد و مد روز VogaCloset را خریداری کنید. کد تبلیغاتی klook مالزی 2022 را تعیین کنید و میزان متعددی پول پس انداز کنید. هنگامی که کوپنی را در حین پرداخت یا در سبد خرید کردن اعمال می کنید، پیشنهاد دارای ربط حیاتی کوپن در خرید کردن اعمال می شود و در هزینه برای عضو صرفه جویی می شود. با همین حال، در صورت استعمال از کد تخفیف جنرال شلوار از وب وبسایت ما، می توانید بخش اعظم صرفه ادامه مطلب جویی کنید. ما دیدیم که Policy Gradient ها یک الگوریتم کار کشته و کلی میباشند و به عنوان مثال یک ادله ATARI Pong را از پیکسل های خام، از ابتدا، در 130 خط پایتون تدریس دادیم. اگر شما این نوشته آموزنده را دوست داشتید و می خواهید اطلاعات بیشتری در آیتم کلیک لطفا از تارنما ما دیدن کنید.