سال انتشار: ۱۳۹۱

محل انتشار: دومین کنفرانس ملی مهندسی نرم افزار

تعداد صفحات: ۸

نویسنده(ها):

فاطمه شیخی – گروه مهندسی نرم افزار ، دانشگاه آزاد اسلامی واحد شبستر، ایران
حسن نادری – استادیار دانشگاه علم و صنعت، تهران، ایران

چکیده:

در دههی گذشته پیشرفتهای زیادی در زمینهی دستهبندی اسناد متنی انجام گرفته و الگوریتمهای زیادی در این زمینه پیشنهاد شده است. در این مقاله به دستهبندی اسناد متنی حجیم پرداخته شده است. روش پیشنهادی به کار بردن درهمساز کمینه ۱ به همراه دستهبندk نزدیکترین همسایه ۲ میباشد. تابع درهمساز کمینه معمولا برای سرعت بخشیدن در جستجوی جداول، فشردهسازی دادهها و تشخیص رکوردهای تکراری در حجم زیاد داده استفاده میشود [ ۳]، اما در این مقاله برای خلاصه کردن اسناد متنی به کار گرفته شده است. استفاده از درهمساز کمینه به همراه یک دستهبند به صورت طبیعی با افت دقت همراهاست، اما در عین حال باعث بالا رفتن سرعت عملیات دستهبندی میشود. در این مقاله برای حل مشکل افت دقت حاصل از درهمساز کمینه، یک دستهبندk نزدیکترین همسایه پیشنهاد شده، که در آن به جای در نظر گرفتن شباهت کسینوسی بین اسناد از شباهت جاکارد استفاده شده است. این دستهبند بر روی ۵۰۰ سند انتخابی از بین ۲۰۰۰ سند موجود در مجموعه داده انتقادات راجع بهفیلم ۳، پیادهسازی شده که ۴۰۰ سند برای آموزش و ۱۰۰ سند برای آزمایش در نظر گرفته شده است