کامپیوتر یک قدم دیگر به شبیه سازی دید انسان نزدیک شد

|
۰ دیدگاه
فناوری شناخت ویدئو توسط کامپیوتر مبتنی بر درک عمیق

علم کامپیوتر،رباتیک و هوش مصنوعی آینده و چشم انداز بزرگ ترین تحولات آینده بشر را رقم خواهند زد،در آخرین پزوهش محققین حوزه هوش مصنوعی نقاط امیدی برای ارتقا هوش ربات ها دیده می شود،با کلیک همراه باشید.به گزارش کلیک،شاید در برخی از فیلم های به اصطلاح علمی-تخیلی ربات هایی را دیده باشید که شکل و شمایل انسانی دارند،مثل ما راه می روند مثل ما محیط اطراف را می بینند و جزییات آن را آنالیز می کنند و اطلاعات دریافتی را برای عملکرد بهتر خود به کار می گیرند،شاید در برهه فعلی این فیلم ها تخیلی نامیده شوند،اما مطمئنا در آینده شاهد به واقعیت پیوستن آنها خواهیم بود.

در مقطع زمانی فعلی کامپیوتر ها به لطف پیشرفت روزانه خود قادرند تا عکس ها را آنالیز کرده و اطلاعاتی را از آنان استخراج کنند،اما شناخت تصاویر توسط آنان به عکس محدود می شود و به همین خاطر محققان و دانشمندان در تلاش اند تا به کامپیوتر ها دید انسانی را اضافه کنند،یعنی کامپیوتر بتواند با استفاده از دوربین محیط اطراف خود را ببیند و جزییات آن را بررسی کرده و از آن نتیجه گیری کند.

دانشمندان برای اضافه کردن این قدرت یادگیری پیشرفته به کامپیوتر از متدی استفاده می کنند که قسمتی از آن از نحوه آنالیز عکس توسط یک کامپیوتر استنباط شده است،به زبانی ساده تر ماشین ابتدا ویدئوی مربوط را به صورت یک مجموعه سری وار از عکس های پشت سر هم تبدیل کرده و سپس هر عکس را آنالیز کرده و در نهایت می تواند یک ویدئو را آنالیز و بررسی کرده و آیتم های درون آن را شناسایی کند.

رجت منگا،مدیر بخش مهندسی و الگو های شناختی نرم افزاری گوگل طی جلسه پرسش و پاسخ در این باره می گوید:محققان چه در شرکت گوگل و چه بیرون از این شرکت در حال پیشرفت و توسعه شناخت ویدئو توسط کامپیوتر ها هستند،اما در مسیر این هدف هنوز با چالش هایی جدی رو به رو هستیم.

مزایای شناخت ویدئویی کامپیوتر ها بی تعداد است و اگر به این مهم دست یابیم موج بعدی ای از تکامل ماشین ها به راه خواهد افتاد،در صورت به نتیجه رسیدن پژوهش ها و آزمایشات دانشمندان،کامپیوتر ها خواهند توانست تا رفتار افراد را زیر نظر داشته باشند،برای مثال می توانند درک کنند که فرد در یک جلسه کاری چقدر به بحث اهمیت می دهد و یا با دسترسی به ویدئو های دوربین های نظارت ترافیکی الگو های رفتاری راننده را در ترافیک سنگین را تحت نظر می گیرد و البته یکی از مهم ترین کاربرد های این فناوری می تواند کمک به حیات خودرو های خودران باشد.

ربات ها با به کار گیری این فناوری می توانند یک قدم دیگر به ساختار بدنی انسان نزدیک شوند و بیشتر و مفید تر از قبل به بشر خدمت کنند و ….

همانطور که گفتیم در حال حاضر کامپیوتر ها قادرند تا عکس ها و جزییات درون آنها را آنالیز کرده و اطلاعاتی را از روی آن استنتاج کنند،اما حتی اگر ویدئو ها را برای آنالیز راحت تر ماشین به صورت صفی طولانی از عکس های پشت سر هم در بیاوریم باز هم نتیجه گیری از آنها نیازمند انجام پردازش های سنگین می باشد،شناخت از روی دید یکی از قدرت های ما انسان هاست که ربات ها سالهاست در حصرت آنند،ما از کودکی می توانیم به اطراف نگاه کنیم،جزییات محیط را بررسی کرده و شناختی از فضای پیرامونمان به دست آوریم.

مهم ترین عاملی که در پیشرفت شناخت تصاویر زنده توسط ماشین موثر است به کار گیری فناوری شناخت عمیق و مدل سازی ماشینی است،آقای منگا که یکی از افراد کلیدی در پروژه TensorFlow شرکت گوگل(نرم افزاری Open Source به منظور یادگیری کامپیوتر ها)است در این باره می گوید:با جدا کردن فریم ها از ویدئو می توانیم ویدئوی مذکور زا به صورت عکس های مجزا و البته مرتبط و پشت سر هم به ماشین بدهیم،این عملکرد علاوه بر ساده سازی ساز و کار شناخت ویدئو توسط کامپیوتر باعث می گردد که ماشین بتواند بدون در اختیار داشتن دو دوربین(همانند دو چشم انسان)و تنها با استفاده از یک دوربین محیط پیزامونش را به صورت سه بعدی مدل سازی کند.

هنوز چالش هایی در حوزه درک عمیق کامپیوتر ها وجود دارد،برای مثال در مورد شناخت و آنالیز عکس ها توسط ماشین هنوز کاستی هایی وجود دارد،کامپیوتر ها می توانند با بررسی و آنالیز عکس برخی از جزییات آن را درک کنند ولی هنوز جزییات زیادی از عکس می ماند که کامپیوتر قادر به شناخت آنها نیست و این دقت کم،مانعی بزرگ برای شبیه سازی دید انسان برای استفاده در ربات ها می باشد و همانطور که آقای منگا می گوید،هنوز تا ساخت ربات هایی مجهز به دید انسانی فاصله زیادی داریم.

وی در ادامه توضیحات خود می گوید:برای شناخت تصاویر توسط کامپیوتر نیاز به استفاده از مدل سازی مبنی بر درک عمیق داریم،علاوه بر این نیاز است تا منابع عظیمی از تصاویر شناخته شده در اختیار کامپیوتر قرار بگیرد تا کامپیوتر از آنها به عنوان شاخص های تصویری استفاده کند،هم اکنون بدین منظور از بانک اطلاعاتی ImageNet استفاده می شود که ۱۴ میلیون عکس را در خود جای داده است و توانسته تا نقش سازنده و مهمی را در پیشرفت این فناوری بازی کند،اما برای شناخت و درک ویدئو کامپیوتر نیاز به بانک اطلاعاتی بزرگ تری دارد.

گوگل در حال حاضر در پردازش های ابری خود به طور وسیعی از هوش مصنوعی استفاده می کند،فناوری شناخت ماشینی نیز نقش کلیدی در سرویس هایی چون Google Now دارد و در بیرون از این شرکت نیز شاهد استفاده گسترده فناوری درک عمیق در نحوه عملکرد خودرو های خودران هستیم،برخی شرکت ها نیز برای اصلاح برنامه نویسی امنیتی و اصلاح پنجره های قابل نفوذ هکر ها هوش مصنوعی را به کار گرفته اند،فناری درک عمیق با سریع تر شدن روز به روز پردازنده ها،جامع تر شدن لحظه به لحظه بانک های اطلاعاتی و ارائه مداوم الگوریتم های شناختی پیشرفت کرده است اما آقای منگا معتقد است که هنوز تا رسیدن به نقطه مطلوب مسیر طولانی ای را در پیش داریم.

طبیعتا پیشرفت و توسعه پردازشگر هایی سریع تر و قوی تر در ارتقا سطح فناوری شناخت ماشینی مهم ترین نقش را بازی کرده است اما سخت افزار سریعتر می تواند سرعت آنالیز داده ها در شناخت ویدئویی را بالا تر ببرد.

پردازنده ای چون machine-learning Tensor Processing Unit یکی از کشنده های فناوری درک عمیق بوده و مدل سازی درک عمیق نیز با استفاده از پردازنده ها گرافیکی ابر کامپیوتر ها قابل اجراست اما به گفته آقای منگا نیاز این حوزه به پردازنده های سریع تر هیچگاه متوقف نخواهد شد.

علاوه بر این پیشرفت فناوری درک عمیق نیاز به دسترسی کامپیوتر به بانک های اطلاعاتی ای جامع تر از بانک های اطلاعاتی امروز و الگوریتم هایی پیچیده تر از الگوریتم های امروزی دارد و گویا نیاز همیشگی به پیشرفت در این حوزه ها نیز از دیگر چالش های پیش روی پیشرفت فناوری درک عمیق می باشد و به گفته آقای منگا:شبیه سازی سیستم عصبی انسان که خود نیازمند فناوری درک عمیق می باشد و بدون در دسترس داشتن داده های اطلاعاتی عظیم ممکن نیست.

با رشد سریع فناوری یادگیری ماشین ها،شرکت های بیشتری برای تامین سخت افزار لازم به کمک گوگل می آیند،تا به امروز سخت افزار های لازم برای پیاده سازی نرم افزار Open Source و اطلاعاتی TensorFlow توسط شرکت هایی چون Nvidia و نیز Movidius تامین می گردد که این سخت افزار ها  بازه های وسیعی از پردازنده تا تجهیزات سرور را شامل می گردد.

شرکت های گوگل،آمازون،فیسبوک و مایکروسافت و آی بی ام این هفته پروژه ای مشترک را شروع کردند که به کاربرد سازی و پیاده کردن فناوری هوش مصنوعی کمک خواهد نمود.الون ماسک،پیتر تیل،سم آلتمن و جسیکا لیوینگستون که در راس قدرت این شرکت ها قرار دارند بودجه ای ۱ میلیارد دلاری را برای انجام این پروژه مرتبط با هوش مصنوعی در نظر گرفته اند.

 

1 پسندیده شده
سینا اشتری
از این نویسنده

بدون دیدگاه

جهت ارسال پیام و دیدگاه خود از طریق فرم زیر اقدام و موارد زیر را رعایت نمایید:
  • پر کردن موارد الزامی که با ستاره قرمز مشخص شده است اجباری است.
  • در صورتی که سوالی را در بخش دیدگاه مطرح کرده باشید در اولین فرصت به آن پاسخ داده خواهد شد.