مهندسی برق

پایان نامه: تشخیص حروف صدا دار از روی تصاویر لب

دانشکده تحصیلات تکمیلی
“M.Sc” پایان نامه برای دریافت درجه کارشناسی ارشد

مهندسی برق- الکترونیک
عنوان :
تشخیص حروف صدا دار از روی تصاویر لب

متن پایان نامه :

 
چکیده
از دیرباز تشخیص و بازشناسی صحبت به عنوان اولین وسیله ارتباطی بین انسان ها از اهمیت بسیاری
برخوردار بوده است. تاکنون تکنیکهای بازشناسی صحبت با بهره گرفتن از پردازش صوت با تنوع بسیار و با موفقیت
نسبی بکار گرفته شدهاند. اما وجود نویز در برخی شرایط، عامل اصلی بروز اشتباهات اساسی در تشخیص بوده
است که در این گونه موارد استفاده از پردازش تصویر و به ویژه بررسی شکل لبها و حرکت آنها میتواند ب رای
ارتقاء نتایج مورد استفاده قرار گیرد. فرآیند لبخوانی و به عبارت دیگر تشخیص دیداری گفتار دو مرحله اصلی
قابل بررسی دارد. مرحله اول جداسازی ناحیه دهان و بطور کلی استخراج مشخصه های دیداری و مرحله دوم
دستهبندی و تشخیص کلمات میباشد. در این پروژه برای استخراج مشخصه های دیداری دو روش استفاده
و در روش دوم از روش مبتنی بر تبدیل موجک بهره جسته ایم . در SFCM نمودهایم. در روش اول از الگوریتم
مرحله بعد توسط پارامترهای تعریف شده، یکسری ویژگی مربوط به تصاویر لب را استخراج می نماییم . در آخر
توسط شبکه عصبی به دستهبندی ویژگیها و تشخیص واکهها میپردازیم.
مقدمه
کارایی ضعیف سیستم های تشخیص صوت و سیستم های تصدیق گوینده در محیطهای نویزی سبب شد تا
محققان به فکر استفاده از اطلاعات دیداری در این سیستم ها باشند به همین دلیل آنالیز تصاویر لب، توجه
زیادی را به خود جلب نمود. اولین گام در آنالیز تصاویر لب، استخراج ۱ ناحیه مربوط به لب در تصاویر می باشد .
افزایش علاقه در استخراج این اطلاعات توسط بخشبندی تصاویر لب سبب بوجود آمدن روش های گوناگون و
بهبود عملکرد سیستم های صوتی – تصویری در تشخیص صوت گردید . بزرگترین مشکل در سیستم ه ای
لبخوانی ۲ توصیف کمی لب میباشد. معمولاً روش های توصیف لب را به دو دسته، یکی روش های سطح پایین
(روش های مبتنی بر تصویر) و دیگری روش های سطح بالا (روش های مبتنی بر مدل) تقسیم مینمایند . دقت و
مقاوم بودن در این فرآیند، مهمترین کلید برای پردازشهای مراحل بعدی میباشد زیرا هر چه این مرحله با
دقت بیشتری انجام شود و بخشبندی ناحیه لب در تصاویر بهتر صورت گیرد مدل نمودن لب راحت تر خواهد
بود و با سهولت بیشتری میتوان ویژگیهای لب را استخراج نمود. گام بعدی بعد از استخراج ویژگی های لب،
دسته بندی و تشخیص ویژگی ها میباشد. در پروژه جاری ما نیز به بررسی تک تک این مراحل و ارائه راهکار

پایان نامه ها

برای بهبود این مراحل میپردازیم.
فصل اول
ی بر روش ها
 مقدمه
از دیرباز تشخیص و بازشناسی صحبت به عنوان اولین وسیله ارتباطی بین انسان ها از اهمیت بسیاری
برخوردار بوده است. تاکنون تکنیکهای بازشناسی صحبت با بهره گرفتن از پردازش صوت با تنوع بسیار و با موفقیت
نسبی بکار گرفته شدهاند. اما وجود نویز در برخی شرایط عامل اصلی بروز اشتباهات اساسی در تشخیص
بوده است که در این گونه موارد استفاده از پردازش تصویر و به ویژه بررسی شکل لبها و حرکت آنها می تواند
برای ارتقاء نتایج مورد استفاده قرار گیرد. استخراج اطلاعات دیداری از تصاویر لب کمک شایانی به تشخیص
صوت و تصدیق گوینده بویژه در محیطهای نویزی را فراهم آورده است به همین دلیل توجه زیادی را به خود
جلب نموده است در این فصل یک کلی بر روی روش های انجام شده تا به حال صورت خواهیم داد و در
مورد دستهبندیهای موجود برای روشها صحبت خواهیم کرد.
۱- ی بر تحقیقات انجام شده

99