تماشا کنید: دقت فوق العاده هوش مصنوعی گوگل در تشخیص و جداسازی صداهای مختلف!

رسانه کلیک - محققان گوگل در حال کار روی یک تکنولوژی منحصر به فرد برای جدا کردن صدا در فایل های ویدئویی و محیط های شلوغ هستند. هوش مصنوعی شرکت گوگل قرار است هر نوع صدایی را در فضاهای پرازدحام تشخیص دهد!

تماشا کنید: دقت فوق العاده هوش مصنوعی گوگل در تشخیص و جداسازی صداهای مختلف!

مهندسان و محققان گوگل در حال توسعه تکنولوژی جدیدی هستند که از قابلیت جدا کردن صدا برخوردار است. هوش مصنوعی شرکت گوگل از توانایی انسان در تشخیص صدای افراد در همهمه و محیط های شلوغ کمک گرفته شده است. آنها به این موضوع اشاره کرده اند که این تکنولوژی در مواردی مانند کمک به افراد کم شنوا یا تولید خودکار فایل های زیرنویس کاربرد بسیاری خواهد داشت.

محققان به تازگی به کمک هوش مصنوعی شرکت گوگل به فناوری جدا کردن صدا در محیط های شلوغ و متمایز کردن آن از صدای پس زمینه دست پیدا کرده اند. در این روش از یک مدل آموزشی منحصر به فرد استفاده شده تا صداهای خاص در فایل های ویدئویی به راحتی قابل تشخیص باشد.

هوش مصنوعی شرکت گوگل

این تکنولوژی از ترکیب تصویر و صدا برای تشخیص فرد سخنران استفاده می کند تا مانند توانایی خاص انسان ها، بتواند روی صدای پخش شده توسط وی تمرکز داشته باشد. این پدیده برخی مواقع با نام Cocktail Party Effect شناخته می شود.

ساز و کار این روش در یک پست وبلاگ گوگل اینگونه توضیح داده شده که محققان این شرکت، حدود 100 هزار ویدئوی با کیفیت را از یوتیوب استخراج کرده و به این ترتیب، حدود دو هزار دقیقه ویدئو تولید کرده اند که در آنها، شخصی در حال صحبت رو به سمت دوربین است و تنها صدای وی پخش می شود و در پس زمینه، هیچ نوای دیگری شنیده نمی شود. بعد از این مرحله، سراغ جدا کردن صدا از فایل های ویدئویی به صورت جداگانه رفتند.

در این پست آمده است که کاربران می توانند صورت شخصی که مایل به شنیدن سخنان وی هستند را انتخاب کرده و باقی موارد را به هوش مصنوعی شرکت گوگل بسپارند. نمونه ای از آزمایش این تکنولوژی را در فایل ویدئویی زیر مشاهده کنید:

در این ویدئو شاهد مناظره تصویری دو فرد در مورد ورزش هستیم که میان حرف یکدیگر آمده و قصد دارند تا صحبت های خود را پیش ببرند. اما با استفاده از این تکنولوژی می توانید به صورت جداگانه، صدای هر یک از افراد یاد شده را گوش دهید.

در ویدئوی زیر شاهد مکالمه تصویری فردی هستیم که در محیطی شلوغ انجام شده و به وسیله تکنولوژی یاد شده امکان جداسازی صدای فرد سخنران یا صدای پس زمینه میسر شده است:

به عنوان یکی از موارد کاربردی این فناوری، گوگل تمرکز ویژه ای روی تولید خودکار فایل زیرنویس برای ویدئوها و فیلم ها به عمل آورده است. در فایلی که روی وبلاگ گوگل به نمایش گذاشته شده و ضمن استفاده از این فناوری، زیرنویس فایل ها با بهبود چشمگیری روبرو شده اند.

استفاده از این تکنولوژی در اسپیکرهای هوشمند باعث می شود تا درک آنها از فرامین صوتی افزایش پیدا کند یا اضافه شدن این قابلیت به دوربین گوشی های هوشمند باعث می شود تا کیفیت صدای ضبط شده به مراتب بالاتر رود. گوگل همچنین به این موضوع اشاره کرده است که یکی از اهداف توسعه تکنولوژی جدا کردن صدا در محیط های شلوغ، کمک به افراد کم شنواست.

همچنین با استفاده از این قابلیت، امکان سوء استفاده و انجام عملیات تجسس در محیط های شلوغ مطمئنا افزایش پیدا می کند. البته بهتر است که افکار خود را سمت چنین مواردی نبریم!

ارسال نظر