سال انتشار: ۱۳۸۴

محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

محمد اکبری – دانشگاه صنعتی امیرکبیر
رضا عزمی – دانشگاه الزهرا

چکیده:

جستجو یک سند خاص در یک پایگاه داده بزرگ از تصاویراسناد اغلب نتایج نامطلوب زیادی تولید میکند. یکی از راههای افزایش کارآیی سیستمهای بازیابی سند, جستجوی اسناد بر مبنای نوع آنها میباشد. طرحبندی ١ ظاهری صفحات عمومًا اطلاعات زیادی را در بر دارد. که میتوان از آنها برای دستهبندی اسناد بر اساس نوع بهره برد. در این مقاله یک روش دستهبندی و بازیابی صفحات اسناد بر مبنای شباهت ظاهری ساختار طرحبندی آنها ارائه کردهایم. ما از ویژگیهایی مانند ساختار ستونی, اندازه فونت, چگالی متن نواحی و ویژگیهای آماری اجزاء پیوسته نواحی استفاده کردهایم, این ویژگیها نیاز به دانش پیشینی در مورد اسناد ندارند. سپس به کمک طبقهبندی کننده درخت تصمیم روش پیشنهادی خود را ارزیابی کردهایم. در ادامه به کمک ساختار خودسازمانده ٢ درختی صفحات را بر مبنای ساختار ظاهری آنها نمایهگذاری ٣ کرده و کارایی این سیستم را ارزیابی کردهایم.