سال انتشار: ۱۳۸۷

محل انتشار: دومین کنفرانس داده کاوی ایران

تعداد صفحات: ۱۵

نویسنده(ها):

مجتبی شکری –
احمد عبداله زاده –

چکیده:

با رشد سریع حجم متون قابل دسترسی به خصوص در شبکه های جهانی اینترنت، کار استخراج اطلاعات از متن اهمیت روز افزون یافته است. سیستم جدید استخراج اطلاعات AUT-IES که در آزمایشگاه سیستمهای هوشمند دانشگاه صنعتی امیرکبیر طراحی و پیاده سازی شده است. می تواند در هر سه محدوده متون ساختارمند، نیمه ساختارمند و بدون ساختار مورد استفاده قرار گیرد و بدون استفاده از پردازشات زبان طبیعی، عمل استخراج اطلاعات را انجام دهد. عملیات اصلی سیستم از دو مرحله ساخت پایگاه دانش مورد نیاز برای استخراج اطلاعات و استفاده از پایگاه دانش برای استخراج اطلاعات از متون ورودی تشکیل شده است. معماری سیستم براساس پایگاه دانشی طراحی شده است که از دو مجموعه قواعد استخراج اطلاعات و قواعد پیشگو تشکیل شده است و هر دو مجموعه با استفاده از روشهای یادگیری تولید می شوند. مثالهای آموزشی و ازمایشی سیستم به صورت متن صفحات وب هستند که در دامنه ای خاص از موتورهای جستجو به دست آمده اند. برای تولید قواعد استخراج اطلاعات، الگوریتمی جدید برای یادگیری قواعد براساس استقرای قاعده طراحی شده است که یک الگوریتم یادگیری با نظارت است. در این الگوریتم از یک قاعده عمومی می شود و براساس ورودی و خروجی هایی که در مثالهای آموزشی وجود دارد و نیز معیارهای ارزیابی قواعد، آن قاعده اختصاصی تر و دقیق تر می شود. برای مقایسه قواعد، دو معیار ارزیابی جدید ATP,AATP تعریف شده اند. هر قاعده استخراج اطلاعات به صورت الگویی است که باید در متن جستجو شود و در صورت تطبیق با قسمتی از متن، اطلاعات مورد نیاز براساس پارامترهای تعریف شده در الگو استخراج یابد. برای تولید قواعد پیشگو ازتکنیک قواعد تداعی گر در داده کاوی و الگوریتم استاندارد C4.5 استفاده شده است. از قواعد پیشگو جهت بالاتر بردن احتمال درستی اطلاعات استخراج شده ، پیشگویی اطلاعات استخراج نشده و مقایسه بین قواعد استخراج اطلاعات استفاده شده است. برای ارزیابی سیستم، نتایج به دست آمده بر روی مثالهای آزمایشی با نتایج سیستم WHISK ( یکی از سیستم های موفق در استخراج اطلاعات) مقایسه شده است که بهبود قابل توجهی را در هر دو معیار Recall,Precision نشان می دهد.