هوش مصنوعی جدید گوگل می‌تواند تقریبا به طور کامل گفتار انسانی را تقلید کند!!

هوش مصنوعی جدید گوگل می‌تواند تقریبا به طور کامل گفتار انسانی را تقلید کند!!

کد خبر:۶۰۷۱۷۲

تاریخ انتشار: ۵ اکتبر ۲۰۱۷

هوش مصنوعی جدید گوگل می‌تواند تقریبا به طور کامل گفتار انسانی را تقلید کند!!

سال گذشته، شرکت DeepMind جزئیاتی درباره WaveNet، یک شبکه عصبی عمیق که قادر به تولید سخنرانی مصنوعی واقع‌گرایانه بود را به اشتراک گذاشت. در حال حاضر، سیستم به اندازه کافی اصلاح شده تا امکان اجرای کامل برای Google Assistant را در تمامی سیستم عامل‌ها تایید کند. اگر مجموعه داده‌های مختلف به این سیستم تغذیه شود، می‌تواند برای ایجاد هر تعداد صدای متمایز از آن استفاده کرد.
سال گذشته، شرکت DeepMind جزئیاتی درباره WaveNet، یک شبکه عصبی عمیق که قادر به تولید سخنرانی مصنوعی واقع‌گرایانه بود را به اشتراک گذاشت. در حال حاضر، سیستم به اندازه کافی اصلاح شده تا امکان اجرای کامل برای Google Assistantرا در تمامی سیستم عامل‌ها تایید کند.
یک سیستم برای ساخت و ترکیب گفتار-به عبارت دیگر به عنوان متن به گفتار (TTS) شناخته می‌شود-معمولا از یکی از دو تکنیک استفاده می‌کند.
به هم پیوستگی TTS شامل ترکیب قطعات ضبط شده از یک گوینده است. اشکال این روش این است که هر زمان که ارتقا یا تغییراتی ایجاد شود، باید کتابخانه‌های صوتی جایگزین شوند. تکنیک دیگر، TTS پارامتری، از مجموعه‌ای از پارامترها برای تولید گفتار کامپیوتری استفاده می‌کند، اما این سخنرانی گاهی اوقات می‌تواند غیرطبیعی و روباتیک باشد.
از سوی دیگر، WaveNet، از طریق سیستمی توسعه یافته با استفاده از یک شبکه عصبی پیچیده موج‌هایی را ابتدا ایجاد می‌کند. برای شروع، تعداد زیادی از نمونه‌های گفتاری برای آموزش پلتفرم برای تولید صداها مورد استفاده قرار گرفت، با توجه به این ‌که کدام شکل موج واقعی به نظر می‌رسد و کدام یک اینگونه نیست. این به ترکیب‌کننده سخنرانی توانایی تولید یک تلفظ طبیعی حتی جزئیاتی مانند لب زدن را می‌دهد. بسته به نمونه‌هایی که به سیستم وارد می‌شوند، می‌تواند یک لهجه منحصربفرد را توسعه دهد، این بدان معنی است که اگر مجموعه داده‌های مختلف به سیستم تغذیه شود، می‌تواند برای ایجاد هر تعداد صدای متمایز از آن استفاده کرد.
زبان سریع و هوشیار
بزرگ‌ترین محدودیت WaveNet این بود که در ابتدا به مقدار قابل توجهی از قدرت محاسباتی نیاز داشت ، خیلی سریع نبود و در زمان ۱ ثانیه تنها ۰۲/۰ ثانیه از صدا را تولید می‌کرد. پس از بهبود سیستم در یک سال گذشته مهندسان DeepMind، WaveNet را بهبود بخشیدند تا آنجا که اکنون این سیستم می‌تواند یک موج خام را به جای یک ثانیه در ۵۰ میلی‌ثانیه ،یعنی هزار برابر سریع‌تر از قبل، تولید کند. علاوه بر این، رزولوشن هر نمونه از ۸ بیت به ۱۶ بیت افزایش یافته است که امتیازش را در آزمایش با شنوندگان انسانی بالا می‌برد. این پیشرفت‌ها بدان معنی است که سیستم اکنون می‌تواند با محصولات مصرفی شبیه Google Assistant یکپارچه شود.
WaveNet در حال حاضر برای تولید صداهای انگلیسی و ژاپنی برای Google Assistant در همه سیستم عامل‌ها مورد استفاده قرار می‌گیرد. از آن‌جا که این سیستم می‌تواند صداهای تخصصی را بر اساس نمونه‌هایی که به آن تغذیه می‌شوند ایجاد کند، گوگل باید بتواند ازبا استفاده از  WaveNet سخنرانی واقع‌گرایانه انسان را برای زبان‌ها و گویش‌های دیگر نیز مهیا کند.
رابط‌های صوتی خیلی بیشتر در همه انواع رایانه‌ها متداول هستند اما به دلیل ماهیت سرگردان برخی از سخنرانی‌های مصنوعی بسیاری از کاربران آن را کنار گذاشته‌اند.  تلاش‌های DeepMind برای بهبود این فناوری توانسته است توجه گسترده‌ای را به خود جلب کند و مطمئناً به بهبود تجربه موجود کمک خواهد کرد.

منبع:

https://futurism.com/googles-new-ai-can-mimic-human-speech-almost-perfectly/

More from فاطمه رهنما

دستاورد جدید این امکان را به ماشین‌ها می‌دهد تا رفتار مولکول‌ها را پیش‌بینی کنند

    کد خبر:۶۰۷۲۸۴ تاریخ انتشار: ۱۷ اکتبر ۲۰۱۷ دستاورد جدید این...
مشاهده مطلب

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *