سال انتشار: ۱۳۸۱

محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

سحر مسطورعشق – قطب علمی کنترل و پردازش هوشمند و آزمایش
بابک نجاراعرابی – قطب علمی کنترل و پردازش هوشمند و آزمایش
مجید نیلی احمدآبادی – قطب علمی کنترل و پردازش هوشمند و آزمایش

چکیده:

استفاده از دانش و تجربه ی دیگران باعث می شود که یک عامل سریع تر یاد بگیرد، اشتباهات کمتری کند و برای موقعیت هایی که تا کنون آنها را ندیده قاعده ای استخراج نماید . این فواید موقعی به دست می آیند که عامل ها از زمینه های دانش یکدیگر و میزان آن آگاهی داشته باشند . در این مق اله عامل ها با مهارت ها و خبرگی های متفاوت در یادگیری با یکدیگر همکاری می کنند . معیارهای مختلفی برای ارزش دهی به جداول Q آنها بکار برده شده است . اندازه گیری این معیارها در سه حالت : بر روی کل جدول Q ، ناحیه هایی از جدولQکه نشان دهنده ی خبرگی عامل ها بوده، و ه مچنین در سطح هر حالت ازجدول Q انجام شده است . برای ترکیب جداول Q از روش های " به اشتراک گذاشتن استراتژی " و " اشتراک وزن دار استراتژی " استفاده شده است . همچنین یک روش همکاری در یادگیری مبتنی بر گذار حالات پیشنهاد شده است . زمینه ی دانش عامل ها توسط حالت هایی مشخ ص می شود که منجر به رسیدن به هدف شود . بعد از فاز یادگیری شخصی، الگوریتم همکاری به شکل سه مرحله ای انجام می شود : ۱ ) استخراج گذار حالات برای هر عامل ۲ ) ترکیب بهینه ی ناحیه های خبرگی با یکدیگر ۳ ) ترکیب جداول Q عامل ها بر اساس الگوی به دست آمده از بخش قبلی . همچنین نتایج به دست آمده در شبیه سازی برای مقایسه ی روش های مختلف با یکدیگر ارائه شده است