سال انتشار: ۱۳۸۹

محل انتشار: شانزدهمین کنفرانس بین المللی سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۷

نویسنده(ها):

محدثه دانش – دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران،تهران،ایران
امید کاشفی – دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران،تهران،ایران
بهروز مینایی – دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران،تهران،ایران

چکیده:

با توجه به حجم وسیع اطلاعات و نرخ بالای پرس و جو و جریان داده کها مروزه با آن مواجه هستیم نمایه گذاری به عنوان راه حلی برای مبارزه با پیچیدگی ذاتی بازیابی متن و تسریع امر بازیابی اطلاعات درمیان شمار زیادی از زبانهای مختلف مورد توجه قرار گرفته است نمایه گذاری وب فرایند فیلتر اطلاعات دنیای وب است و نمایه گذار پالاینده اطلاعات آن . زبان فارسی یکی از پرکاربردترین زبانهای خاورمیانه است که درکشورهایی نظیر ایران افغانستان و تاجیکستان صحبت می شود بنابراین میزان زیادی از اسناد موجود در وب به زبان فارسی هستند اما متاسفانه تلاش های محدودی درزمینه بازیابی این اسناد صورت گرفته است در این مقاله راهکاری مناسب جهت بازیابی اسناد فارسی با استفاده از نمایه گذاری چند وزنی و با تکنیک توزیع شدگی ارایه شده است نمایه گذاری چند وزنی به عنوان روشی باری پاسخ گویی کاراتر به پرس وجوها مورد توجه قرار گرفته و کیفیت بازیابی اطلاعات را بطور چشمگیری افزایش میدهد.