سال انتشار: ۱۳۹۰

محل انتشار: اولین کنفرانس ملی دانش پژوهان کامپیوتر و فناوری اطلاعات

تعداد صفحات: ۸

نویسنده(ها):

محمد زنجانی – دانشگاه شیخ بهایی-دانشکده فنی و مهندسی-گروه کامپیوتر
احمد براآنی دستجردی – دانشگاه اصفهان-دانشکده فنی و مهندسی-گروه کامپیوتر

چکیده:

خوشه بندی یا دسته بندی بدون نظارت با انجام سازماندهی بر روی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از اسناد به خصوص در موتور های جستجو دارد. معمولا استفاده از روش های متعارف افزاری و سلسله مراتبی منجر به خوشه بندی با کیفیت پایین می شود.علت این موضوع آن است که مقایسه اسناد تنها به لحاظ شباهت ظاهری کلمات داخل انها صورت می پذیرد، به طوری که به روابط کلمات توجهی نشده و تلاشیبرای رفع ابهام از معانی کلمه صورت نمی گیرد.در این مقاله، زبان فارسی با توجه به رشد روز افزون مستندات الکترونیکیبه این زبان، مورد توجه قرارگرفته است. ایده اصلی یافتن توضیحات مناسب برای دانش پس زمینه و غنی سازی متن فارسی با استفاده از آن است. برای نیل به این مقصود از منبع دانش خارجی به نام واژ-هستان شناسی فارس نت استفاده شده است. همچنین برای خوشه بندی بر رهیافت فاکتورگیری نا منفی ماتریس (NMF) تاکید شده است. نتایج ارزیابی ها بر روی پیکره ی متنی همشهری، نشان از بهبود کیفیت خوشه بندی متن فارسی غنی شده (به خصوص با رابطه شمول) در مقایسه با خوشه بنی خام دارد. همچنین تاثیر این روابط در کیفیت خوشه بندی بر پایه NMF بیشتر از خوشه بندی متعارف Bisecting Kmeans بوده است.