سال انتشار: ۱۳۸۶

محل انتشار: دهمین کنفرانس دانشجویی مهندسی برق ایران

تعداد صفحات: ۷

نویسنده(ها):

زهرا شعاعی شیره جینی – تهران آزاد دانشگاه صنعتی شریف
پروین عابدی – دانشگاه آزاد اسلامی واحد شوشتر
نغمه حیدری – دانشگاه جندی شاپوراهواز

چکیده:

با افزایش و رشد وب، داده های موجود در آن به سرعت در حال افزایشند در طی ده سال اخیر حجم عظیمی از داده ها ی مورد نیاز انسان در وب ذخیره شده است. علی رغم حجم عظیم داده های در دسترس در وب، طبق آمارهای اعلام شده تقریبا ٩٩ % داده های موجود برای ، ٩٩ % کاربران بدون استفاده می باشد. به طور کلی استخراج اطلاعات از وب نیازمند استفاده از تکنیک هایی مثل پردازش زبان طبیعی ١ بازیابی اطلاعات ٢، پایگاه داده ها ٣، یادگیری ماشین ۴، حفاری داده ۵و…است در این مقاله در ابتدا به مبحث حفاری وب ۶خواهیم پرداخت و شاخه های مختلف آن را مطرح کرده و در انتها الگوریتمی مطرح خواهیم کرد که بر اسا س ساختار فراپیوندی میان صفحات شبیهترین صفحه به صفحه مد نظر را می یابد. جهت ارزیابی الگوریتم مطرح شده از دادگانی که از سایتPersian blog جمع آوری شده استفاده نمودیم. مقایسه نتایج حاصل از روش پیشنهادی با نتایج حاصل از google نشان دهنده حدود ٨٠ % همپوشانی با نتایج موتور جستجوگرgoogle است.