۱۹ اردیبهشت ۱۳۹۸ ۱۸:۳۰

شبیه سازی صدا توسط هوش مصنوعی در کمترین زمان ممکن!

رسانه کلیک - جدیدترین دستاورد کمپانی بایدو در زمینه شبیه سازی صدا توسط هوش مصنوعی، تنها 3.7 ثانیه زمان نیاز دارد تا صدای شما را شبیه سازی کند.

درست یکسال پیش، ابزار شبیه سازی صدای همین کمپانی به نام Deep Voice برای شبیه سازی صدا و انجام همین کار، به 30 دقیقه زمان نیاز داشت. این مورد مثال خوبی از سرعت بالای تکنولوژی برای تولید صداهای مصنوعی است. در مدت زمانی کوتاه، قابلیت های تولید و شبیه سازی صدا هوش مصنوعی به شدت گسترش یافته و واقعی تر شده است که البته می تواند منجر به سوءاستفاده از تکنولوژی نیز شود.

قابلیت های تولید و شبیه سازی صدا توسط هوش مصنوعی

همانند دیگر الگوریتم های هوش مصنوعی، ابزارهای شبیه سازی همچون Deep Voice، داده های بیشتری برای پردازش بهتر و تولید نتایج واقعی تر دریافت می کنند. گوش دادن به نمونه های مختلف شبیه سازی صدا می تواند به شما در درک بهتر تفاوت و تاثیر تکنولوژی در تشخیص لهجه، جنس صدا و سبک های گفتاری کمک کند.

گوگل نیز از سیستم متن به گفتار خود با نام Tacotron 2 رونمایی کرد؛ سیستمی که از متد WaveNet کمپانی استفاده می کند. WaveNet برای تولید صدا، یک نمایش بصری از صدا که اسپکتروگرام (پردازش گفتار) نام دارد را تحلیل می کند. از این قابلیت برای تولید صدا در دستیار گوگل استفاده می شود.

شبیه سازی صدا

این پیشرفت در تکنولوژی تولید صدای گوگل، شگفتی های زیادی به همراه دارد. به عنوان مثال، تمامی دستگاه های کمپانی گوگل همچون Google Home، Google Assistant، Google Home Hub و گوشی های هوشمند در سراسر ایالات متحده آمریکا می توانند صدای جان راجر استیفنز، خواننده مشهور آمریکایی را تولید کنند. البته صدای خوانندگان تنها به سوالات قطعی همچون وضعیت آب و هوا و همچنین خواندن آهنگ "تولدت مبارک!" پاسخ می دهند.

در یکی دیگر از موارد پیشرفت این تکنولوژی، یک مدل از صدای تولید شده جردن پیترسون (نویسنده کتاب 12 قانون برای زندگی) توسط هوش مصنوعی، آهنگ Lose Yourself امینم را می خواند. سازنده الگوریتم هوش مصنوعی آن، با استفاده از مصاحبه 6 ساعته پیترسون و یادگیری ماشینی توانست صدا را تولید کند.

این پیشرفت در تکنولوژی دریچه های جدیدی برای کمپانی هایی همچون Lyrebird که در زمینه استفاده از هوش مصنوعی در تولید صدا برای کتاب های صوتی، چت صوتی، بازی ها و... فعالیت دارند، باز می کند.

اما همچون دیگر تکنولوژی ها، صدای شبیه سازی شده و مصنوعی نیز معایب خود را دارد. هرچه الگوریتم های هوش مصنوعی در این زمینه بهتر شوند، تشخیص واقعی و غیر واقعی بودن نیز سخت تر می شود. بر اساس تحقیق های انجام شده، مغز انسان توانایی درک تفاوت صداهای واقعی و غیر واقعی را ندارد. حال با این اوصاف، افراد سودجو می توانند با استفاده از این تکنولوژی، مصاحبه، کنفرانس خبری و سخنرانی های جعلی ساخته و منتشر کنند.

ارسال به دیگران

۱۹ اردیبهشت ۱۳۹۸ ۱۸:۳۰