سال انتشار: ۱۳۸۹

محل انتشار: اولین کنفرانس ملی محاسبات نرم و فن آوری اطلاعات

تعداد صفحات: ۶

نویسنده(ها):

محمد حسین بیات – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد تفرش
سید محمد حسینی خوزانی – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد تفرش
محبوبه گاپله – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد تفرش

چکیده:

گسترش اینترنت باعث افزایش نمایی حجم اسناد الکترونیکی نه تنها به زبان انگیلسی بلکه به زبان سایر کشورها شده است.دسته بندی متون بر اساس روش های مختلفی مانند مدل فضای برداری (VSM) , شبکه عصبی مصنوعی (ANN) , kهمسایه نزدیک (KNN) در میان محققین بازیابی اطلاعات و متون عمومیت یافته سات.در این مقاله کاربرد دو روش مدل فضای برداری و شبکه عصبی مصنوعی برای سدته بندی متون فارسی با استفاده از اسناد پیکره همشهری بررسی شده است.در روش های ارائه شده , با استفاده از تخصیص وزن , اهمیت کلمات در اسناد مشخص می شود. روش مدل فضا برداری نیازمند فضای برداری با ابعاد زیاد است در حالی که روش ارائه شده نیازمند تعداد ویژگی های کمتری است. نتایج آزمایشات نشان می دهد که استفاده از شبکه های عصبی برای دسته بندی اسناد فارسی در مقایسه با مدل فضا برداری از کارایی مناسب نری برخوردار است.