سال انتشار: ۱۳۸۹

محل انتشار: اولین کنفرانس ملی محاسبات نرم و فن آوری اطلاعات

تعداد صفحات: ۵

نویسنده(ها):

عبدالنبی انصاری اصل – گروه کامپیوتر – دانشگاه آزاد اسلامی واحد دزفول
کریم انصاری اصلی – گروه برق – دانشگاه شهید چمران اهواز

چکیده:

استخراج خودکار اطلاعات موجود در اسناد یکی از ضروریات سیست مهای اطلاعاتی محسوب مى شود، که این امر با پرداختن به پردازش اسناد (Document Processing) حاصل می گردد. پرداز ش تصاویر اسناد به دو بخش آنالیز هندسی سند (بررسی چیدمان بلوکهاى سند)وآنالیز منطقی سند(ترتیب خواندن بلوکهاى سند) تقسیم می شود. از آنجائیکه م یتوان ساختار هندسی و منطقی اسناد را به صورت درخت نمایش داد، برای بدست آوردن درخت منطقی سند، کافی است توسط یک سری قوانین درخت ساختار هندسی را به درخت ساختار منطقی تبدیل کرد.در این مقاله تحلیل منطقی برای اسناد فارسی چند ستونی که مبتنی بر روش تبدیل درخت م یباشد، معرفی می گردد. این روش توسط نرم افزار MALAB پیاده سازی گردید و روی ۴۰ سند فارسی از نوع مجله، روزنامه، کتاب، نامه، و مقالات علمی آزمایشهایی انجام گرفت و تنها در ۲ مورد خطا مشاهده شد.