سال انتشار: ۱۳۸۱

محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

سعید جلیلی – دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، گروه کامپیوتر
مهدی بیطرفان – دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، گروه کامپیوتر

چکیده:

در دستهبندی متون، بطور معمول از کلمات متن بعنوان خصیصههای آن متن استفاده میشود . در نتیجه روشهای دستهبندی متون با تعداد زیادی خصیصه مواجه می باشند . به منظورکاهش تعداد خصیصهها و انتخاب خصیصههای مرتبط، از روشهای متعددی استفاده شده است . این مقاله روشی جهت بهبود انتخاب خصیصهها در دستهبندی متون پیشنهاد می کند و نیزبه ارزیابی مقایسهای روش پیشنهادی با روشهای موجود انتخاب خصیصه می پردازد . تمرکز این مقاله روی حذف حریصانه خصیصههاست و سعی دارد با حفظ دقت دستهبند، تا حد ممکن خصیصهها را کاهش دهد . به طور کلی روشهای انتخاب خصیصه با توجه به وابستگی و یا عدم وابستگیشان به دستهبندها به دو گروه مختلف روشهای فیلتری و روشهای روکشی تقسیم می شوند . در این مقاله، ترکیبی از یک روش فیلتری و یک روش روکشی پیشنهاد شده که ابتدا با استفاده از روش فیلتری Relief-F تعدادی از خصیصهها با هزینه محاسباتی کمی انتخاب میشوند و سپس از خصیصههای انتخاب شده با استفاده از روش روکشی SFS یا SBS به صورت دقیقتری با کمک دستهبند متون، خصیصههای نامرتبط حذف می شوند . روش انتخاب خصیصه پیشنهادی با روشهای انتخاب خصیصه موجود، روی مجموعه دادههای مختلف آزمون و با یکدیگرمقایسه شدهاند . روش پیشنهادی با داشتن هزینه محاسباتی بیشتری نسبت به روشهای فیلتری، کارائی بهتری نسبت به این روشها از خود نشان میدهد . علاوه بر آن، با استفاده از این روش به همراه دستهبند SVM Light روی مجموعه دادههای رویتر، %٩۴ خصیصهها ضمن بهبود دقت دسته بندی، از فضای خصیصههای اولیه حذف شدهاند . ضم ن – اً روش Relief-F بعنوان یک روش حذف خصیصه فیلتری در ناحیه غیر متون، نتایج بسیار خوبی در حذف
خصیصههای متنی از خود نشان می دهد