سال انتشار: ۱۳۸۵

محل انتشار: دوازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

تعداد صفحات: ۸

نویسنده(ها):

رضا شالباف – کارشناسی ارشد مهندسی پزشکی دانشگاه صنعتی امیرکبیر
منصور وفادوست – استادیار دانشکده مهندسی پزشکی دانشگاه صنعتی امیرکبیر
احمد شالباف –

چکیده:

دقت و اطمینان سیستمهای تشخیص اتوماتیک گفتار صوتی با استفاده از اطلاعات تصویری از حرکات لب گویندگان بهبود می یابد. در این مقاله، یک رویکرد جدید برای تشخیص دیداری گفتار ارائه شده است که شامل دومرحله استخراج ویژگیاز دنباله تصاویر لب و تصاویر لب و طبقه بندیویژگی های بدست آمده میباشد. برای استخراج ویژگی از دنباله تصاویر لب، یک الگوریتم استخراج کانتور لب مبتنی بر ناحیه بر اساس مدلهای انعطاف پذیر پیشنهادشده است. الگوریتم از یک تابع هزینه آماری برای قسمت بندیتصاویر لب داده شده به ناحیه لب و غیر لب استفاده می کند. ابتدا نگاشت احتمال گسسته با استفاده از روشهای خوشه بندی فازی ایجاد شده است و با داشتن این نگاشت، طریقه بهینه سازی تابع هزینه در حوزه پیوسته نشان داده شده است. با تابع هزینه مبتنی بر ناحیه، الگوریتم برای تصاویر لب با کنتراست رنگی کم و دارای نویز و آرتیفکت مطمئنتر می باشد. پارامترهای استخراج شده با استفاده ازتوزیع احتمال پیوسته مدل شده است ووابستگی انها بوسیله مدلهای مخفی مارکوف مدل شده است. ارزیابی بر روی مجموعه دادگان جمع آوری شده از تصاویر لب ۲۰ گوینده مختلف صورت گرفته و بر روی ۶ واژه گفتاری با ۹۲% موفقیت، بازشناسی گفتار انجام شده است.