سال انتشار: ۱۳۹۱

محل انتشار: همایش منطقه ای علوم کامپیوتر، مهندسی کامپیورتر و فناوری اطلاعات

تعداد صفحات: ۱۲

نویسنده(ها):

محسن زند – عضو هیئت علمی گروه کامپیوتر دانشگاه آزاد اسلامی واحد دورود

چکیده:

در تشخیص حروف بتن مبتنی بر الفبای عربی به دلیل متصل بودن حروف، مشکلات عمده‌ای در مراحل جداسازی و تشخیص وجود دارد. زیرا به علت اتصال حروف فارسی به یکدیگر، امکان تنظیم دقیق نقاط جداسازی حروف وجود ندارد. برای غلبه بر این مشکلات در این مقاله، روشی ترکیبی برای تشخیص حروف فارسی ارائه شده است که در آن جداسازی حروف (که منبع اصلی خطا در سیستم‌های تشخیص حروف فارسی کنونی است) به صورت کامل انجام نشده و فقط حرف اول هر زیر کلمه جدا شده و تشخیص داده می‌شود . سپس این حرف اول، معیاری برای دسته بندی زیر کلمات قرار می‌گیرد و هر زیر کلمه فقط در دست مربوط تشخیص داده نمی‌شود . این روش روشی انعطاف‌پذیر و قدرتمند است که می‌تواند به‌آسانی توسعه داده شود و برای فونت های ختلف به کار برده شود. همچنین با استفاده از روش‌های پیش پردازش و پس پردازش مناسب، چارچوب ساده و صمیمی کامل پیشنهاد می‌دهد . نتایج آزمایش روی متون مختلف، دقت بالای این روش را نشان می‌دهد که OCR برای توسعه سیستم برای استفاده صفات تجاری مناسب می‌باشد .