سال انتشار: ۱۳۸۹

محل انتشار: اولین کنفرانس ملی محاسبات نرم و فن آوری اطلاعات

تعداد صفحات: ۸

نویسنده(ها):

مهدی صادق زاده – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد ماهشهر
محمد گلشاهی – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد دزفولی
حسین فرضعلی وند – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد ایذه

چکیده:

در سال های اخیر , یادگیری تقویتی برای محققان مبتنی بر عامل , مورد توجه قرار گرفته است , زیرا این موضوع با این مطلب در ارتباط است که چگونه یک عامل خود مختار می تواند برای انتخاب عملیات درست جهت بدست آوردن اهدافش از طریق اثر بر روی محیطش یاد بگیرد .اگر چه مثالهایی وجود دارد که سودمندی یادگیری تقویتی را توضیح می دهندع امام کاربردش در سیستمهای تولیدی هنوز کاملاً کشف نشده است.در این مقاله ما بیشتر بر روی طرز کار الگوریتم های یادگیری تقویتی متمرکز شده ایم و دو نوع ار الگوریتم یادگیری تقویتی را در این مقاله به کاربرده ایم. در این مقاله , Q-Learning و SARSA دو الگوریتم معروف یادگیری تقویتی هستند که در یک ماشین منفرد انتخاب قانون اعزام مسئله بکار رفته اند تا توانایی های این دو الگوریتم را در مسائل برنامه ریزی تولید میتنی بر عامل مورد بررسی قرار دهیم و نشان دهیم که کدامیک با اموزش سریع اما راه حل نامطمئن و کدامیک با آموزش دراز مدت اما راه حل مطمئن جواب مسئله را کشف می کنند. این مقاله ، نتایج خوبی را فراهم می کند که نشان دهنده قدرت الگوریتم های یادگیری تقویتی برای حل مسائل مختلف است.