سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۹

نویسنده(ها):

ایوب باقری –
حامد فرزانه فر –
محمدحسین سرایی –
محمدرضا احمدزاده –

چکیده:

امروزه یکی از بزرگترین چالشهای سایتهای خبری دستهبندی خودکار متون خبری است. در این مقاله روشی بر مبنای Naïve Bayes برای دسته بندی متون خبری فارسی ارایه شده است روش Naïve Bayes یکی از معمولترین روشها برای مسائل دستهبندی است. از مهمترین ویژگیهای این روش سادگی آن و مقاوم بودن در برابر خصیصههای نامرتبط است. در روش پیشنهادی دستهبندی متون خبری، برای کاهش فضای خصیصه ازTFV(Term Frequency Variance) استفاده شده است. پس از بررسی نتایج مشاهده گردید که روش پیشنهادی در برابر روشهای دیگر دارای سرعتی بالا و دقتی قابل مقایسه است.