سال انتشار: ۱۳۹۰

محل انتشار: چهارمین کنفرانس مهندسی رسانه

تعداد صفحات: ۶

نویسنده(ها):

سعید مرادی – عضو هیات علمی گروه کامپیوتر دانشگاه آزاد اسلامی واحد ماکو
امیر امیدی – عضو هیات علمی گروه کامپیوتر دانشگاه آزاد اسلامی واحد
علی محمودی – عضو هیات علمی گروه ریاضی دانشگاه آزاد اسلامی واحد ماکو

چکیده:

سیستم پردازش خودکار صوت از زیرسیستمهای مختلفی تشکیل شده که یکی از آنها سیستم بازشناسی خودکار گفتار می – باشد. مشکل این سیستمها با تاثیر عوامل مخرب و نویزهای گوناگون در کاهش نرخ بازشناسی آشکار میشود. در این مقاله، یک پایگاه داده گفتار با دادگان فارسی ۰ تا ۹ با گویندههای مختلف موبایل پیاده سازی شده است. سپس جهت بهبود سیگنال گفتار، از الگوریتمهای مختلف حذف نویز تبدیل ویولت بصورت پیش پردازش در بازشناسی استفاده شد ه است . آزمایشها با چند تابع و با پارامترهای مختلف انجام و نتایج بهینه گزارش شده است. الگوریتم rigrsure با نرخ ۹۱ % در بازشناسی برای گویندههای آموزش، با دادههای پایگاه، نسبت به ۳ الگوریتم دیگر بهتر عمل میکند. لازم به ذکر است که در تبدیل ویولت معمولی بار محاسباتی بالاست. لذا جهت کاهش بار محاسباتی از فیلتر موسوم به WOLA استفاده شد . از طرفی در روش آستانه گذاری این تبدیل ، حد آستانهی محاسبه شده بزرگ می باشد. یعنی الگوریتم های این تبدیل با حذف جزییات سیگنال ب ا آستانه گذاری ، ویژگیهای سیگنال اصلی را نیز تخریب میکنند. جهت جبران این کاستی از باقی گذاشتن قسمتی از نویز در سیگنال اصلی البته با مطلوب سازی نویز با تبدیل ویولت استفاده شد. کارایی تبدیل برپایهی روش اخیر در حدود ۴% افزایش نشان میدهد.