سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۱

نویسنده(ها):

محمدصادق رسولی –
بهروز مینایی بیدگلی –

چکیده:

در این مقاله با بررسی روش های مختلف خطایابی واژگانی در زبان فارسی، به روشی برای یافتن خطاهای املایی واژگان پرداخته شده است. با اشاره به رو شهای مختلف برای خطایابی واژگانی، چالش ها و مشکلات پیش روی این رو شها نیز یادآوری شده اند. در این روش علاوه بر داشتن ویژگ یهای خاص، مشکلات موجود در رس مالخط رایانه ای زبان فارسیدر مورد حروفی که در رسم الخط رایانه ای دارای چند نوع حرف هستندحل شده است. بدین ترتیب مشکلات رس مالخط فارسی حاصل از انتقال برنامه به رایانه های
مختلف به طور کامل رفع شده است. خطایا ب پس از خطایابی واژگان، پیشنهادهای صحیح را به کاربران ارائه م یدهد. رهیافت های مختلف برای پیشنهاددهی به کاربران مورد بررسی و پیاده سازی قرار گرفته اند. برنامه برای پیدا کردن پیشنهادهای درست برای واژگان نادرست، از واژگان قبلی و بعدی واژه مورد نظر استفاده می کند و خود واژه نادرست را نیز مورد تجزیه قرار م یدهد تا بتواند ترکیبی از دو واژه درست را از واژه نادرست مورد نظر استخراج کند. ریشه یابی اسم ها، صفت ها، قیود و فعل های زبان فارسی در
خطایاب املایی مورد بررسی و پیاد هسازی قرار گرفته است. مصادر افعال در زبان فارسی بر اساس زمان، جداسازی شده و ریشه یابی را با توجه به زمان آن ها بررسی کرده و وضعیت ضمایر متصل نیز در آن حل شده است. به همین دلیل، دو روش مجزا برای بازیابی افعال زبان فارسی استفاده شده است. همین طور در مورد اسم ها، مفرد یا جمع بودن، نکره یا معرفه بودن و داشتن وند، بررسی شده است . در ضمن این برنامه قابلیت پیاده سازی بر روی نرم افزار مایکروسافت آفیس را داراست