سال انتشار: ۱۳۹۴

محل انتشار: اولین کنفرانس بین المللی وب پژوهی

تعداد صفحات: ۴

نویسنده(ها):

مسعود قیومی – دانشگاه آزاد برلین، برلین، آلمان
ساغر شریفی – دانشکده زبان های خارجی، دانشگاه آزاد اسلامی واحد کرج، البرز، ایران
مرضیه سناعتی – پژوهشکده زبان شناسی، سازمان میراث فرهنگی، صنایع دستی و گردشگری، تهران، ایران

چکیده:

در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا کرده است، چرا که با کاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یک منبع اطلاعاتی غنی زبانی استفاده کرد. تهیه پیکره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا که کاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیکره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یک الگوریتم تلاش می کنیم تنوع نگارشی واژه ها را به طور خودکار استخراج کرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه کنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیکره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.