یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

یادگیری ماشین
یادگیری تقویتی
الگوریتم های یادگیری
مسائل یادگیری تقویتی
دانلود پروژه مطالعاتی درس یادگیری ماشین
یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل
اجزا یک سیستم یادگیری تقویتی

رفتن به سایت اصلی

دانلود پروژه مطالعاتی درس یادگیری ماشین

یادگیری تقویتی و اجزای آن و اجرایی کردن یک مثال عامل

 

چکیده :

حیوانات ، انسان ها ، اتومات ها و .. از خود رفتار های مختلفی در محیطی که آن ها را احاطه کرده ، در شرایط مختلف  ، از خود نشان می دهند.آن ها کارهای مختلفی را به عنوان باز خورد در جواب ورودی هایی که از محیط می گیرند انجام می دهند. بعضی از این عامل ها رفتار های خود را در طول زمان عوض می کنند.آن ها ممکن است با دادن ورودی های یکسان ، عمل های متفاوتی نسبت به حرکت های قبلی خود انجام دهند. چنین عاملی یاد می گیرد. شاخه یادگیری ماشین به مطالعه الگوریتم های یادگیری که مشخص می کند تغییر در ورودی ها چگونه در رفتار عامل تغییر ایجاد می کند می پردازد.

 

الگوریتم های یادگیری به 3 دسته تقسیم می شوند :

• با ناظر

• بی ناظر

• تقویتی

 

در یادگیری با ناظر ، عامل با یک سری ورودی و خروجی مشخص آموزش داده می شود.در یادگیری بی ناظر ، عامل از محیط ، هیچ باز خوردی دریافت نمی کند. در مقابل عامل سعی می کند تا وردی ها را به صورت خوشه ها ، طبقه بندی ها یا … بازسازی کند.و اعمال خود را بر طبق این طبقه بندی ها و نتیجه گیری ها انجام دهد.

 

 

 

کلمات کلیدی:

یادگیری ماشین

یادگیری تقویتی

الگوریتم های یادگیری

مسائل یادگیری تقویتی

 

 

 

مقدمه:

در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را بری رسیدن به هدف انتخاب نمید

 

یادگیری تقویتی از ینرو مورد توجه است که راهی بری آموزش عاملها بری انجام یک عمل  از طریق دادن پاداش و تنبیه است

 بدون ینکه لازم باشد نحوه انجام عمل را بری عامل مشخص نمائیم. 

دو استراتژی اصلی بری ینکار وجود دارد: 

• 1.یکی استفاده از الگوریتم هی ژنتیکی 

• 2.و دیگری استفاده از روشهی آماری و dynamic programming 

 محیط مجموعه ی از S حالت ممکن است.

 در هر لحظه t  عامل میتواند یکی از A  عمل ممکن را انجام دهد. 

 عامل  ممکن است در مقابل عمل و یا مجموعه ی از اعمالی که انجام میدهد  پاداش   r را دریافت کند. ین پاداش ممکن است مثبت  و یا منفی )تنبیه(باشد 

 

 عامل در محیط حرکت کرده و حالتها و پاداشهی مربوطه را به خاطر می سپارد. 

 عامل سعی میکند طوری رفتار کند که تابع پاداش را ماکزیمم نمید. 

 

 پاداش Rt مجموع پاداشی است که  عامل با گذشت زمانt جمع کرده است. 

 

 

 

 

 

 

فهرست مطالب

• معرفی یادگیری تقویتی 

• برنامه نویسی پویا 

• اجزا یک سیستم یادگیری تقویتی 

o محیط 

o تابع پاداش 

o تابع مقدار 

• Q-Learning 

o معرفی 

o الگوریتم یادگیری 

o مثالی از یک عامل 

o اثبات همگرایی 

o یادگیری Q برای MDP غیرقطعی 

• روش های مونت کارلو در یادگیری تقویتی 

o ویژگیها 

o سیاست first visit MC 

o کنترل مونت کارلو 

o همگرایی مونت کارلو 

o on line policy و off line policy 

• منابع 

 

 

 

  • بررسی شیوه اداره بیمارستانهای منتخب نیروهای مسلح و ارتباط آن با شاخص های عملکرد بیمارستانی

    بررسی شیوه اداره بیمارستانهای منتخب نیروهای مسلح و ارتباط آن با شاخص های عملکرد بیمارستانی سبک رهبری شاخصهای عملکردی شاخص های عملکرد بیمارستانی شیوه اداره بیمارستانها رابطه سبک رهبری مدیران با شاخص های عملکردی دانلود پایان نامه کارشناسی ارشد رشته…

  • مبانی نظری بررسی اثربخشی تنوع کاربرد کارتهای عابربانک در بانکداری الکترونیک بر بهبود عملکرد شعب بانک ها

    مبانی نظری بررسی اثربخشی تنوع کاربرد کارتهای عابربانک در بانکداری الکترونیک بر بهبود عملکرد شعب بانک ها ارزیابی عملکرد در بانک شاخص های ارزیابی عملکرد بانکها شاخص های ارزیابی عملکرد شعب بانک تاثیر بانکداری الکترونیک بر رضایت مشتری تاثیر تنوع…

  • مقایسه های بین المللی تكنولوژی و پیشرفتهای كیفی در شركتهای مكزیك

    مقایسه های بین المللی تكنولوژی و پیشرفتهای كیفی در شركتهای مكزیك مكزیك تكنولوژی كیفیت ساخت مجدد روند تجاری دانلود مقاله رشته مدیریت تكنولوژی و پیشرفتهای كیفی در شركتهای مكزیك دانلود مقاله مدیریت سیستم همکاری در فروش فایل انجام مقاله مدیریت…

  • پاورپوینت مفاهيم پايه فناوری اطلاعات

    پاورپوینت مفاهيم پايه فناوری اطلاعات دانلود رایگان پاورپوینت مفاهيم پايه فناوری اطلاعات پاورپوینت مفاهيم پايه فناوری اطلاعات مفاهيم پايه فناوری اطلاعات زمينه هاي مرتبط با فناوري اطلاعات مؤلفه هاي فناوري اطلاعات تعريف فنّاوري تعريف اطلاعات مفهوم فناوري اطلاعات تعريف جامع…

  • پایان نامه کارشناسی ارشد رشته علوم تربیتی با عنوان شناخت عوامل مؤثربر آگاهی ورفتار دانش آموزان دختر نسبت به حجاب

    پایان نامه کارشناسی ارشد رشته علوم تربیتی با عنوان شناخت عوامل مؤثربر آگاهی ورفتار دانش آموزان دختر نسبت به حجاب حجاب بد حجابی قرآن و حجاب نقش حجاب در ازدواج دانلود پایان نامه کارشناسی ارشد رشته علوم تربیتی با عنوان…

  • بررسی جهات مخففه مجازات در خصوص کودکان بزهکار و آثار آن مطابق با قانون مجازات اسلامی مصوب 1392 و سایر قوانین

    بررسی جهات مخففه مجازات در خصوص کودکان بزهکار و آثار آن مطابق با قانون مجازات اسلامی مصوب 1392 و سایر قوانین تعریف کیفیات مخففه کیفیات مخففه در قانون جدید کیفیات مخففه در قانون مجازات اسلامی تخفیف مجازات اطفال در نظام…

  • پاورپوینت بتن، آلایندگی محیط زیست و توسعه پایدار

    پاورپوینت بتن، آلایندگی محیط زیست و توسعه پایدار پاورپوینت بتن،آلایندگی محیط زیست و توسعه پایدار تعریفی از بتن وتوسعه پایدار بتن وآلایندگی محیط زیست مزایای استفاده از بتن منافع زیست محیطی بتن بازیافت بتن بازیافت بتن با رعدو برق بازیافت…

  • بررسی عملی کردن حکم جزای نقدی و عوامل تاثیرگذار در آن

    بررسی عملی کردن حکم جزای نقدی و عوامل تاثیرگذار در آن مجازاتهای تعزیری اجرای حکم جزای نقدی عوامل تاثیرگذار در اجرای جزای نقدی بررسی عملی کردن حکم جزای نقدی و عوامل تاثیرگذار در آن اجرای جزای نقدی و عوامل موثر…

  • شرایط اعتبار داوری در معاملات دولتی و ضمانت اجرای آن

    شرایط اعتبار داوری در معاملات دولتی و ضمانت اجرای آن ضمانت اجرای داوری در معاملات دولتی اعتبار داوری در معاملات دولتی داوری پذیری دعاوی در حقوق ایران نحوه داوری قراردادهای دولتی شرایط اعتبار داوری در معاملات دولتی مراجعه به داوری…

  • پروپوزال مدل بومی برای شکل گیری سیاست های زیست محیطی ایران

    پروپوزال مدل بومی برای شکل گیری سیاست های زیست محیطی ایران توسعه پايدار ابعاد توسعه پايدار خط مشی گذاری زیست محیطی نگرش بومی خط مشی گذاری زیست محیطی شکل گیری سیاست های زیست محیطی ایران الگو سیاست های زیست محیطی…