سال انتشار: ۱۳۸۹

محل انتشار: دهمین کنفرانس سیستم های فازی ایران

تعداد صفحات: ۷

نویسنده(ها):

زهرا معینی –
وحید صیدی قمشه –
محمد تشنه لب –

چکیده:

در نمونه هایی از مسائل یادگیری تقویتی که فضای حالت ب هصورت پیوسته می باشد، استفاده از جدول مرجع برای نگهداری مقدارهای ارزش _ عمل به نظر غیر ممکن می رسد. در این گونه مسائل نیازمند راهکاری جهت تقریب ارزش به ازایهر زوج حالت -عمل می باشیم. ورودی این سیستم تقریب (ویژگی هایی از) متغیرهای حالتی است که وضعیت عامل در محیط را مشخص می کند. این سیستم می تواند خطی باشد یا غیر خطی. به ازای هر عضو از مجموعه عمل های عامل یکسیستم تقریب داریم که ارزش حالت به ازای عمل را مشخص می کند. از طرف دیگر در بسیاری از مسائل دنیای واقعی علاوه بر فضای حالات، فضای عمل های عامل نیز پیوسته م یباشد. در چنینمواردی استفاده از سیستم های فازی جهت استنتاج در فضای اعمال و انتخاب یک عمل نهایی می تواند سودمند باشد. در این قسمت سعی داریم با ترکیب الگوریتم یادگیری تقویتی و ترکیب دو ایده فازی کردن فضای اعمال و حالات و تقریب ارزش بایک سیستم خطی، سیستم هوشمندی جهت پارک کامیون ۱ که هم فضای حالت و هم فضای عمل پیوسته دارد، معرفی نماییم. در نهایت نیز موفقیت الگوریتم پیشنهادی را با شبیه سازی های صورت گرفته بر روی مساله پارک کامیون نشان خواهیم داد.