سال انتشار: ۱۳۸۴

محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۵

نویسنده(ها):

لقمان براری – دانشگاه علم و صنعت ایران
مرتضی آنالویی – دانشگاه علم و صنعت ایران
مهران گرمه – دانشگاه صنعتی شریف

چکیده:

امروزه با گسترش روزافزون متون و نوشتار الکتریکی برای زبان فارسی وجود ابزارهای دسته بندی اتوماتیک متون اجتناب ناپذیر کرده است دراینجا با بررسی الگوریتمهای مختلف موجود برای زبانهای دیگر و در نظر گرفتن ویژگیهای ساختاری و نوشتاری زبان فارسی تهیه یک مجموعه داده مناسب استاندارد و همچنین دقت این الگوریتم ها برای زبان فارسی بحث میشود از سوی دیگر با توجه به نامشخص بودن مرز دقیق کلمات در رسم الخط فارسی موجود بدلیل ابهام، جدایی ذاتی و وندهای آزاد با پیشنهاد استفاده از توالی کلمات بجای خود کلمات در تئوری بیز دقت دسته بندی را افزایش داده است.