مقدمه
گفتار طبیعیترین و سادهترین روش ارتباطی محسوب میشود که قادر به انتقال اطلاعات، احساسات و هدف گوینده است. در سالهاي اخیر و با پیشرفت تکنولوژي، رایانه و گوشی موبایل به عنوان ابزارهای ارتباطی معمول مورد توجه قرار گرفته و در همین راستا طراحی واسطی براي تسهیل ارتباط بین انسان و ماشین که از گفتار به عنوان کانال ارتباطی استفاده میکند، علاقه زیادي را به سوي خود جلب نمود. دو تکنولوژي اصلی مورد نیاز در این راستا، بازشناسی گفتار و سنتز گفتار میباشند. بازشناسی گفتار براي ورود اطلاعات به کامپیوتر نیاز بوده و طی آن اطلاعات مفید از گفتار ورودي استخراج میشود. در مقابل، هدف از سنتز گفتار انتقال اطلاعات به خروجی است. تبدیل متن به گفتار شاخهاي است که به این مسیر ارتباطی میپردازد و میتوان آن را به عنوان تکنولوژی تبدیل قالب نوشتاری به سیگنال گفتار تعریف نمود که علاوه بر پردازش سیگنال به پردازش زبان طبیعی هم نیازمند است.
در حال حاضر روشهای هوش مصنوعی روزآمد موفق شدهاند بهبود قابل توجهی در روشهای کلاسیک بازشناسی گفتار، سنتز گفتار و پردازش طبیعی ایجاد کنند. در این دوره میخواهیم بعد از آشنایی با اساس این شاخهها، با نحوه به کارگیری روشهای جدید هوش مصنوعی در سامانههای مرتبط با بازشناسی گفتار و تبدیل متن به گفتار بپردازیم.
فرآیند برگزاری دوره
برگزاری این دوره آموزشی شامل گذراندن آزمون ورودی، مشاهده ویدیوهای تئوری و کدنویسی عملی، انجام کوییزها و تمرینات، جلسات پرسش و پاسخ و حل تمرین زنده همه به صورت هفتگی و نهایتا انجام پروژه عملی است.
1️⃣ آزمون ورودی آزمون ورودی از ساعت ۲۴ روز ۳۱ خرداد ماه ۱۴۰۱ لغایت ساعت ۲۴ روز ۶ تیرماه ۱۴۰۱ در زمینه پیش نیازهای ذکر شده دوره برگزار خواهد شد.
2️⃣ آموزش فرآیند آموزش به صورت دسترسی به ویدئوهای آموزش تئوری دوره ارائه شده توسط اساتید آن و ویدیوهای کدنویسی مبتنی بر آن آموزش های تئوری توسط منتورها، با قابلیت دسترسی همیشگی برای کاربران در سایت آکادمی همراه، در کنار جلسات پرسش و پاسخ و حل تمرین زنده با حضور منتورهای دوره انجام می گیرد. محتوای دوره در طی ۱۲ هفته و روزهای چهارشنبه ساعت ۱۲ ظهر در اختیار شرکتکنندگان قرار خواهد گرفت.
3️⃣ تمرین ها و کوییزهای هفتگی در هر هفته یک کوییز شامل چند سوال تستی و نیز یک تمرین حل در خانه از محتوای آموزشی آن هفته به دانشجویان داده و در زمان های مشخصی در هفته بعد تحویل گرفته خواهد شد.
4️⃣ پرسش و پاسخ و حل تمرین زنده جلسات پرسش و پاسخ درباره محتوای آموزشی آن هفته و حل تمرین های هفته قبل به صورت هفتگی دو روز در هفته و هر کدام به مدت ۲ ساعت برگزار خواهد شد.
5️⃣ پروژه عملی با استفاده از داده های صوتی واقعی و بر پایه آموزشی که در طول دوره به دانشجویان داده می شود یک چت بات صوتی مینیمال پیاده سازی خواهد شد. نمره پروژه بیشترین وزن را در ارزیابی نهایی خواهد داشت.
6️⃣ ارزیابی و پشتیبانی فرآیند ارزیابی و اعطای گواهی در این دوره از طریق نمره پروژه عملی، نمرات تمرینات هفتگی، نمرات کوییزهای هفتگی و مشاهده کامل ویدئوها و پاسخ به سوالات حین ویدئو انجام میگیرد. به منظور شبکهسازی و رفع اشکالات و سوالات شرکتکنندگان عزیز نیز گروه واتسآپی با حضور منتور/استاد دوره تشکیل خواهد شد. علاوه بر این، تیم پشتیبانی آکادمی همراه در طول دوره در کنار شرکتکنندگان و پاسخگوی آنها خواهد بود.
7️⃣ گواهی دوره گواهی موفقیت در دوره در چهار سطح صادر خواهد شد: سطح طلایی: برای دانشجویانی که نمره نهایی شان بین ۹۰ تا ۱۰۰ شده باشد. سطح نقره ای: برای دانشجویانی که نمره نهایی شان بین ۸۰ تا ۹۰ شده باشد. سطح برنزی: برای دانشجویانی که نمره نهایی شان بین ۶۰ تا ۸۰ شده باشد. گواهی حضور: برای دانشجویانی که حداقل ۷۰ درصد ویدیوهای دوره را مشاهده و به سوالات کاشته شده در ویدیوها پاسخ داده باشند.
8️⃣ امکان استخدام و حضور در دورههای کارآموزی همراه اول
• دانشجویان دارای گواهی موفقیت با سطح طلایی برای استخدام مستقیم به بخشهای مرتبط با حوزه دوره در همراه اول معرفی می شوند.
• همچنین دانشجویان دارای گواهی موفقیت با سطوح طلایی و نقرهای و برنزی، به طور مستقیم و بدون گذراندن آزمون کارآموزی برای دورههای کارآموزی به بخشهای مرتبط در همراه اول معرفی می شوند.
اطلاعات دوره
📆 بازه زمانی برگزاری دوره:
۱۲ هفته از تاریخ ۸ تیر ماه ۱۴۰۱ لغایت ۸ مهرماه ماه ۱۴۰۱
⏱️ مدت دوره:
۳۶ ساعت محتوای آموزشی به همراه ۲ جلسه لایو رفع اشکال و حل تمرین هفتگی
⌛ آخرین مهلت ثبتنام:
ساعت ۲۳ روز ۶ تیرماه ۱۴۰۱
💵 هزینه دوره:
• ثبت نام نقدی ۳ میلیون تومان
مزایای شرکت در دوره
شرکتکنندگان دوره "بازشناسی و سنتز گفتار با تمرکز بر توسعه چت بات صوتی" از این مزایا برخوردار خواهند بود:
🔸 استخدام یک نفر از دانشجویان برتر دوره در شرکت عصر گویش پرداز
🔸 معرفی نفرات برتر دوره به کارآموزی همراه اول
🔸 پروژه محور: توسعه یک چت بات صوتی با داده های واقعی مرکز تماس مشتریان همراه اول
🔸 بازگشت ۵۰٪ از هزینه به ۳ نفر اول برای ثبت نام در دیگر دوره های آکادمی همراه
🔸 منتورینگ و رفع اشکال روزانه و هفتگی
🔸 امکان پرداخت هزینه دوره به صورت اقساطی
پیشنیازها
🔹 برنامه نویسی پایتون
🔹 آمار و احتمال و مدلهای احتمالی
🔹 پردازش سیگنال
🔹 شبکه های عمیق
🔹 یادگیری ماشین
آنچه که در این دوره خواهید آموخت
ابزارهای مورد استفاده به صورت کلاسیک و نیز ابزارهای جدید در این زمینهها معرفی میشوند. در راستای این اهداف، مباحث زیر پوشش داده خواهند شد:
🔸 مقدماتی در مورد تولید و درک گفتار و نیز واجشناسی تکلمی و صوتی
🔸 روشهای پیشپردازش سیگنال گفتاری به منظور بازشناسی گفتار اعم از فیلتر بانکهای مختلف و روشهای مرسوم دیگر
🔸 معیارهای مختلف مقایسه الگو، روش پیچش زمانی پویا، مدل پنهان مارکوف و روشهای آموزش و بازشناسی با آن
🔸 وظایف سامانههای بازشناسی در دو بخش بازشناسی کلمات گسسته و گفتار پیوسته مورد بحث
🔸 ساختار شبکههای عصبی ژرف و نحوه کاربرد و نتایج حاصل از آنها در بازشناسی گفتار پیوسته در بخش دوم دوره در ابتدا موضوع ارزیابی کیفیت گفتار شرح داده شده و سپس، به سامانههای متن به گفتار پرداخته میشود. این مبحث در زیربخشهای زیر ارائه میشود:
🔸 مقدمات و تعاریف سامانههای متن به گفتار
🔸 آشنایی با دو بخش اصلی این سامانهها یعنی تبدیل متن به دنباله واحدهای آوایی و نیز تولید گفتار
🔸 روشهای سنتز و نیز روشهای جدید تبدیل متن به گفتار
🔸 سامانههای روزآمد و مطرح برای تبدیل متن به گفتار
مخاطبین دوره:
🔹 هدف اصلی این دوره آشنایی دانشجویان کارشناسی، کارشناسی ارشد و دکتری با مفاهیم و نیز سامانههای مطرح در بازشناسی گفتار و سنتز گفتار است.
مدرس دوره

دکتر حسین صامتی
دانشیار گروه هوش مصنوعی دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریفمدرس و دستیاران دوره
دکتر حسین صامتی
• دانشیار گروه هوش مصنوعی دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف
• مدیر هسته پژوهشی پردازش گفتار دانشکده مهندسی کامپیوتر دانشگاه صنعتی شریف
• مدیرعامل شرکت دانش بنیان عصر گویش پرداز
دستیاران استاد:
• دکتر نوشین مقصودی، دکتری هوش مصنوعی دانشگاه صنعتی شریف
• سروش گوران، دکتری هوش مصنوعی دانشگاه صنعتی شریف
منتورها:
• علی راسخ: دکتری – هوش مصنوعی – دانشگاه صنعتی شریف
• سیده فاطمه ابراهیمی: کارشناسی ارشد – زبان¬شناسی رایانشی – دانشگاه صنعتی شریف
• صدرا صبوری: کارشناسی – مهندسی برق – دانشگاه صنعتی شریف
• پریسا محمدیان: کارشناسی ارشد – زبان¬شناسی رایانشی – دانشگاه صنعتی شریف
• ژاله¬رخ بهاری: کارشناسی ارشد – زبان¬شناسی رایانشی – دانشگاه صنعتی شریف
• زینب تقوی: کارشناسی ارشد – هوش مصنوعی– دانشگاه صنعتی شریف
سرفصلهای دوره
سرفصل های گفتار
1️⃣ مقدمات بازشناسی گفتار
• مقدمه اي بر بازشناسي گفتار
• توليد گفتار، اكوستيك-فونتيك، مدل گويايي
• درك گفتار، مدلهای گوش، مدلهاي شنيداري
• آشنایی با طيفنگار (spectrogram)
2️⃣ پيشپردازش گفتار
• بانک فيلترها
• چندي سازي برداري
• ضرايب پيشگويي خطي
• ضرايب مل كپسترال
3️⃣ مقايسه الگو
• انواع معيارهاي فاصله
• فواصل کپسترال
• فواصل درستنمايي
• فواصل باند بحراني
• ويژگيهاي پويا در معيارهاي فاصله
4️⃣ پيچش زماني پويا
• ترازبندي و هنجارسازي زماني
• ملاحظات برنامهريزي پويا
• محدوديتهاي هنجارسازي زماني
5️⃣ مدل پنهان ماركوف
• زنجيره مارکوف گسسته
• مدل پنهان مارکوف
• الگوريتم ويتربي
• حل سه مسئله اساسي HMM
• انواع HMM
• بازشناسي کلمات گسسته با HMM
6️⃣ بازشناسي پيوسته با واژگان بزرگ
• - واحدهاي گفتاري زيرواژه
• - مدلهاي زباني براي LVCSR
• - سرگشتگي
• - گرامر زوج کلمه
• - گرهزدن حالات و درخت تصميمگيري
7️⃣ راهبردهاي جستجو در بازشناسي گفتار
• جستجوي شعاعي
• جستجوي A*
• جستجوي گرامري
• جستجوي درختي
• جستجوي برخط
• ايجاد تعادل بين خطاهاي درج و حذف
• تشخيص کلمات خارج از واژگان
8️⃣ شبکههاي ژرف در بازشناسي گفتار
• سامانههاي بازشناسي مرسوم: HMM/DNN
• جايگزيني GMMها با ANN
• شبکه¬هاي باور ژرف، شبکه¬هاي عصبي ژرف، ماشين محدود بولتزمان
• جايگزيني HMMها با ANN
• سامانه¬هاي بازشناسي گفتار انتها به انتها
9️⃣ ارزیابی کیفیت گفتار
• روش¬های ذهنی و عینی، کیفیت و قابلیت فهم گفتار،
• DRT، MRT، MOS، DAM، AI، SNR، Itakura، PESQ
1️⃣0️⃣ مقدمات تبدیل متن به گفتار
• مفاهیم اولیه سنتز گفتار
• انواع سنتز گفتار، انتخاب واحدهای آوایی
• تبدیل متن به دنباله واحد آوایی
1️⃣1️⃣ روش¬های مرسوم سنتز گفتار
• روش¬های الحاقی، روش انتخاب واحد
• مدل Klatt
• سنتز مبتنی بر مدل پنهان مارکوف
• سنتز مبتنی بر شبکه¬های ژرف
• مدل Tacotron
منابع دوره:
• Fundamentals of Speech Recognition, Rabiner and Juang, Prentice Hall, 1993
• Automatic Speech Recognition, A Deep Learning Approach, Dong Yu, Li Deng, Springer-Verlag, 2015
• Spoken language processing, Huang, Acero, Hon, Prentice Hall, 2001
• Discrete-time processing of speech signals, Deller, Proakis & Hansen, Prentice-Hall, 1999.
• Speech and Language Processing, Jurafsky, Martin, 2019

دنبال کننده
کل رویدادها
تربیت، توسعه و توانمندسازی نیروی انسانی اکوسیستم دیجیتال...