سال انتشار: ۱۳۹۰

محل انتشار: سومین کنفرانس مهندسی برق و الکترونیک ایران

تعداد صفحات: ۷

نویسنده(ها):

سامان باشباغی – آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان
عبدالحمید پیله ور –

چکیده:

با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص ۱۰ زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود ۹۵% رسیده ایم.