سال انتشار: ۱۳۸۱

محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۶

نویسنده(ها):

اعظم جلالی – قطب علمی کنترل و پردازش هوشمند – ازمایش
مجید نیلی احمدآبادی – قطب علمی کنترل و پردازش هوشمند – ازمایش
احد هراتی – قطب علمی کنترل و پردازش هوشمند – ازمایش

چکیده:

برای یادگیری در سیستم های چند عامله، عموما از یادگیری تقویتی استفاده می شود. در بسیاری از موارد عامل ها بهطور مستقل یاد می گیرندو تنها یک سیگنالتقویت برای کل تیم در دسترس است. در واقع درچنین شرایطی محیط هوشمندی لازم برای تعیین تاثیر عملکرد هرعامل در نتیجه تیمی را ندارد. لذا این سیگنال تقویتی باید به نحوی مناسب بین عامل ها تقسیم شود.
در این پژوهش،برای حل این مساله در شرایطی که نقش هر عامل در نتیجه گروهی کسب شدهنامشخص است، یک عامل به نام عامل نقاد به تیم اضافه شده است.عامل نقاد باید نقش هر عامل را در کیفیت عملکرد تیم تخمین زده و متناسب با آن بازخورد مناسب برای هرعامل راتعیین کند. دراین بررسیایدهاستفاده از سوابق یادگیری عامل ها برای تعیین نقش هر یک در نتیجه تیمی مطرح می شود. دراین رابطه چهار معیار اطمینان، خبرگی نسبی، جمع پاداش هاو جمع پاداش و تنبیه ها بررسی شده اند. کیفیت تقسیم امتیاز بین عامل ها در دومحیط قطعی و احتمالی برای انجام وظیفهفصلی مورد بررسی و مقایسه قرار گرفته است . عامل ها با روش Q-learning به یادگیری وظیفه تک مرحله ای خود می پردازند. نتایج شبیه سازی ها تاثیر معیارهای ذکر شده را نشان میدهد.