سال انتشار: ۱۳۹۱

محل انتشار: چهارمین کنفرانس مهندسی برق و الکترونیک ایران

تعداد صفحات: ۷

نویسنده(ها):

محسن طاهری نیا – دانشجوی کارشناسی ارشد دانشکده برق و کامپیوتر، دانشگاه صنعتی اصفهان

چکیده:

امروزه با توجه به حجم و رشد روز افزون متون فارسی، دسته بندی اتوماتیک اسناد و متون از ارزش بزرگ عملی برخوردار و به طور فزاینده، زمینه ی مهمی برای تحقیق است. در این نوشتار به بررسی یکی از روش های یادگیری هوشمند به نام یادگیری نیمه نظارت شده در دسته بندی متون فارسی خواهیم پرداخت. بسیاری از روش های یادگیری هوشمندانه مانند یادگیری نظارت شده، فقط بر روی داده های آموزشی برچسب دار تکیه می کنند، در شرایط یکه بدست آوردن این داده های آموزشی دارای برچسب بسیار پرهزینه است. حال آنکه حجم زیادی از داده های بدون برچسب به سرعت زیاد و با هزینه ی کم در دسترس هستند. در مقابل روش هایی مانند روش یادگیری بدون نظارت فقط بر روی داده های بدون برچسب تکیه می کنند. در ادامه به بررسی روش یادگیری نیمه نظارت شده که ما بین روش های یادگیری نظارت شده و یادگیری بدون نظارت قرار دارد و از ترکیبی از مثال های آموزشی برچسب دار و بدون برچسب برای یادگیری استفاده می کند پرداخته و از این تکنیک برای دسته بندی متون فارسی استفاده می کنیم.