سال انتشار: ۱۳۸۳

محل انتشار: دهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

مهرنوش شمس فرد – دانشکده مهندسی برق و کامپیوتر دانشگاه شهید بهشتی تهران
مریم خرداد –
فاطمه کاظمینی –

چکیده:

دراینمقاله پس از بررسی اجمالی روشهای موجود برای طبقه بندی مستندات متنی روشی ترکیبی برای تعیین طبقه صفحات HTML معرفی می شود این روش با تلفیق خصوصیات آماری مفهومی و نگارشی صفحات HTML آنها را از نظر موضوعی طبقه بندی می کند الگوریتم اصلی طبقه ندی دراین روش برمبنای الگوریتم آماری Rocchio طراحی شده است و برای افزایش کارایی ویژگیهایی مانند مفهوم کلمات، محل وقوع آنها درسندو شیوه نگارش کلمات مورد توجه قرارگرفته اند. درا ین روش عمل طبقه بندی به دو صورت با نظارت و بی نظارت قابل انجام است و هستان شناسی طبقات موضوعی می تواند در طول حیات سیستم به صورت پویا بهنگام شود.