سال انتشار: ۱۳۸۲

محل انتشار: یازدهمین کنفرانس مهندسی برق

تعداد صفحات: ۸

نویسنده(ها):

محمدمهدی همایون پور – آزمایشگاه سیستم های هوشمند صوتی و گفتاری دانشکده مهندسی کامپیوتر دا
نرگس احمیدی –
بهاره مبارک آبادی –

چکیده:

با توجه به گسترش استفاده از تلفن و اینترنت برای دسترسی به اطلاعات و خدمات از راه دور، نیاز به تعیین مرد یا زن بودن کاربران برای اِعمال محدودیتهایی در دسترسی به نوع اطلاعات و خدمات احساس می شود . در این مقاله، تعیین مرد یا زن بودن و محدوده سنی گوینده با استفاده از ویژگی های مرتبط با مجرای گفتار و توسط مدل مخلوط گوسی ۱ و توسط شبکه عصبی چند لایه پرسپترون ۲ صورت گرفته است . در هر دو روش ساختارهای مختلفی در نظر گرفته شدهو کارایی آنها با هم مقایسه گردیده است . از ضرائب کپسترال مبتنی بر آنالیز پیشگوئی خطی و نیز از ضرایب کپسترالمبتنی ب ر معیار مِل و مشتق اول آنها بعنوان روشها یی برای بازنما یی گفتار استفاده شده است . در روش مخلوط گوسی بهترین راندمان برای تشخ یص زن یا مرد بودن گوینده با استفاده از داده های آزمایشی ۹۸/۹۱% برای تشخیص زن و۹۸/۴۱% برای تشخیص مرد بدست آمد . برای تشخیص محدوده سنی نیز راندمان ۹۶/۴۱% بدست آمد . استفاده از مشتق اول بردار های ویژگی در صورت کافی بودن تعداد مخلوط های گوسی منجر به بهتر شدن نتایج میگردد . شبکه عصبی انتخاب شده، شبکه چند لایه پرسپترونی می باشد که در مقایسه ساختارهای مختلف آن، بهترین نتیجه برای شناسایی مرد یا زن بودن با شبکه ای متشکل از یک نورون در لایه خروجی، ۲۴ نورون در لایه ورودی، ۲۴ و ۴۸ نورون در لایه های مخفی بدست آمد . آموزش این شبکه توسط ضرائب MFCC به همراه مشتق اول آن با استفاده از ۶ دق یقه داده آموزشی و ۶ ثانیه داده آزمایشی منجر به دستیابی به دقت ۱۰۰ % گردید. نتایج آزمایشات گویای کارائی بهتر ضرائب کپسترال مبتنی بر معیار مل و نیز کارآمدی هر دو روش مخلوط گوسی و شبکه عصبی در مدل کردن جنسیت و محدوده سنی گوینده ها می باشد.