۰۱ آبان ۱۳۹۵ ۰۴:۱۱

حل مسئله ای که یک ماه طول می کشید در یک روز ممکن شد

با استفاده از الگوریتم های جدید، دانشمندان می توانند داده هایی که در یک ماه آنالیز می شد را در یک روز مورد تجزیه و تحلیل قرار دهند.

به گزارش کلیک، سال گذشته، دانشمندان دانشگاه MIT سیستمی ارائه کردند که گام بزرگی در تجزیه و تحلیل خودکار داده های بزرگ (Big data) بود. این سیستم، مجموعه ای از ویژگی ها که برای پیش بینی مهم هستند را انتخاب می کرد. در یک مسابقه علمی این سیستم توانست از بسیاری از رقبای انسان عملکرد بهتری داشته باشد و تجزیه و تحلیل هایی که یک ماه طول می کشید را تنها در چند ساعت انجام دهد.

این هفته، در چند مقاله در کنفرانس بین المللی IEEE در علم داده و تجزیه و تحلیل های پیشرفته، تیم پژوهشی توضیح داد که چگونه رویکرد خودکاری برای بسیاری از روندهای تجزیه و تحلیل های داده های بزرگ را در پیش گرفته است. این خودکار سازی از آماده سازی داده ها برای تجزیه و تحلیل گرفته، تا توصیف مسایلی است که ممکن است تجزیه و تحلیل قادر به حل آن ها باشد را شامل می شود. این تیم معتقد است که سیستم آن ها می تواند مسایلی که حل آن ها ماه ها به طول می انجامد را در چند روز مورد تجزیه و تحلیل قرار دهد.

هدف این پروژه به حداقل رساندن زمان لازم برای تجزیه و تحلیل مسایل دنیای واقعی است و تیم سعی دارد که تجزیه و تحلیل ها با سرعت بیشتری انجام شود.

در مقالاتی که پژوهشگران نوشته اند، تجزیه و تحلیل های خود را بر روی داده های متغیر با زمان انجام داده اند. در واقع در این نوع داده ها، مشاهدات در طول زمان رخ می دهد و هدف از تجزیه و تحلیل تولید مدل مبتنی بر احتمالات است که رویدادهای آینده را براساس مشاهدات کنونی پیش بینی کند.

مسائل دنیای واقعی

اولین مقاله یک چارچوب کلی برای تجزیه و تحلیل داده های متغیر با زمان را توصیف می کند. این چارچوب، فرایند تجزیه و تحلیل را به سه مرحله تقسیم کردند:

برچسب گذاری داده ها، یا طبقه بندی داده هایی که رویداد برای آن ها رخ داده است و یا رخ نداده است.
بخش بندی داده ها، یا تعیین زمان توالی که داده ها به یکدیگر مرتبط می شوند.
انتخاب ویژگی، که همان مرحله ای است که پژوهشگران در سال گذشته به آن پرداخته بودند.

مقاله دوم که به ارایه یک مجموعه از الگوریتم ها برای تجزیه و تحلیل داده های مسایل واقعی پرداخته است و این الگوریتم ها داده ها را به صورت خودکار با روش های مختلفی ترکیب می کنند.

به صورت تجربی، زمانی که مجموعه ای از داده ها را داشته باشیم، تیمی از متخصصان حوزه مورد پژوهش و دانشمندان علوم داده گرد هم آمده و در جلساتی که چند ماه نیز به طول می انجامد، مسایل پیش بینی را تعیین می کنند. آن ها مراحل سه گانه برچسب گذاری، بخش بندی و انتخاب ویژگی را می دانند و انجام این مراحل شش تا هشت ماه به طول می انجامد. بهتر است روش هایی مورد استفاده قرار گیرند که این فرایند سریع تر انجام گیرد. بنابراین، هدف تیم پژوهشی انجام سریع تر فرایند حل مسایل پیش بینی دنیای واقعی است.

dec14_15_159737162

آماده سازی داده ها

پژوهشگران زبان برنامه نویسی جدیدی به نام Trane برای حل مسایل پیش بینی ارایه داده اند که با هدف کاهش زمان انجام توصیف مسایل پیش بینی از چند ماه به چند روز ایجاد شده است.

برای درک بهتر از مراحل برچسب گذاری و بخش بندی به مثال زیر توجه کنید. فرض کنید که یک دانشمند علوم داده، داده های مربوط به الکتروانسفالوگرام یا EEG چند بیمار مبتلا به صرع را داشته باشد و قصد دارد که الگوهای موجود در داده ها را که می توانند زمان شروع تشنج را تشخیص دهند را کشف کند.

اولین مرحله این است که داده هایی از EEG که تشنج را نشان می دهد را تعیین کند. مرحله بعد این است که به استخراج یک بخش از سیگنال های EEG بپردازد که از تشنج ها مقدم تر هستند.

برای مقایسه، بخش های نرمال سیگنال، بخش هایی که طول یکسان دارند ولی منجر به تشنج نمی شوند، نیز باید استخراج شود. بعد، بخش ها طبق اینکه به تشنج منجر می شوند یا نه، برچسب می گیرند و الگویتم های یادگیری ماشین می توانند الگوهایی که به شروع تشنج می انجامند را شناسایی کنند. پژهشگران، در مقاله خود یک چارچوب کلی ریاضی برای توصیف برچسب زدن و بخش بندی ارایه دادند.

یافتن مسایل

با استفاده از Trane، داده های سری زمانی در جدولی قرار می گیرند که در آن ستون ها حاوی اندازه گیری ها و زمان هایی است که آن اندازه گیری ها بدست آمده اند. پژوهشگران یک مجموعه کوچک از عملیات که در ستون یا سطر می توانند اجرا شوند را ساخته اند. یک عملیات سطری، چیزی شبیه به تعیین این است که یک اندازه گیری در یک سطر آیا از حد آستانه آن بزرگتر است یا نه. یک عملیات ستونی نیز چیزی شبیه به این است که تفاوت اندازه گیری های پی درپی در یک ستون یا جمع همه اندازه گیری ها و یا مثلا گرفتن اولین یا آخرین اندازه گیری در ستون بدست آید.

برای آزمایش کاربرد Trane، پژوهشگران مجموعه ای از سوالات که دانشمندان علوم داده تقریبا ۶۰ مجموعه داده واقعی برای آن مطرح می کنند را در نظر گرفتند. پژوهشگران تعداد عملیات محدودی که Trane می تواند بر روی داده ها انجام دهد، شش عملیات در سطر و یازده عملیات ستونی را انتخاب کردند. شایان ذکر است که این مجموعه محدود از عملیات، به نظر می رسد که مجموعه نسبتا محدودی است، اما به اندازه کافی برای حل سوالات محققان کافی است.

ارسال به دیگران

۰۱ آبان ۱۳۹۵ ۰۴:۱۱