تاثیر مهم کلمات در توصیف دقیق یک عکس

نوشتن توضیحات مناسب برای یک عکس می‌تواند تاثیر‌گذاری به‌سزایی در انتقال مفهوم عکس مورد نظر به مخاطب داشته باشد.

تاثیر مهم کلمات در توصیف دقیق یک عکس

به گزارش کلیک، یک تیم از محققان دانشگاهی و شرکت ادوبی (Adobe) عملکرد بهتری از خود درباره نوشتن توضیحات مربوط به یک عکس، نسبت به روش‌های دیگر، ارائه کردند. راز موفقیت آن‌ها، فکر کردن درباره کلمات و این‌که آن‌ها چه معنایی دارند و چطور آن‌ها را در ساختار یک جمله و در جای مناسب قرار دهند، است. در واقع آن‌ها به همان اندازه که به عکس دقت می‌کنند به جملاتی که می‌توانند بیان‌کننده مفهوم آن عکس باشد نیز توجه دارند.

مدل Rochester/Adobe دو روشی هستند که عموما به منظور نوشتن توضیحات یک عکس مورد استفاده قرار می‌گیرند. اولین شیوه، روش بالا به پایین (top-down) است که در آن ابتدا مهم‌ترین قسمت تصویر (یا به عبارتی جان کلام تصویر) را می‌یابند و سپس آن را به کلمات تبدیل می‌کنند.شیوه دوم، روش پایین به بالا (bottom-up) است که ابتدا کلمات را به بخش‌های مختلف عکس تخصیص می‌دهند و سپس آن‌ها را با یکدیگر ترکیب کرده و یک جمله می‌سازند.

مدل Rochester/Adobe هم‌اکنون در حال رقابت با گوگل، مایکروسافت، Baidu/UCLA، دانشگاه اسنفورد، دانشگاه برکلی کالیفرنیا، و دانشگاه تورنتو/مونترال و سایر رقبای قدر در زمینه مسابقات توصیف یک عکس می‌باشد که توسط مایکروسافت برگزار می‌شود و چالش Microsoft COCO Image Captioning نامیده می‌شود.

در حالی که هنوز زمانی زیادی باقی است تا برنده این رقابت مشخص شود اما سیستم مورد توجه Rochester از ماه نوامبر سال گذشته هم‌چنان پیشتاز است و در صدر جدول این رقابت‌ها قرار دارد.

از آن‌جایی که بازخورد خوبی از ترکیب این دو روش با یک‌دیگر برای همه آشکار شد، گروه‌های دیگر نیز تلاش کردند تا این دو روش را یا یکدیگر ترکیب کنند. آن‌ها سعی دارند مکانیزمی طراحی کنند که سیستم آن‌ها تشخیص دهد که کدام یک از روش‌ها قادر به پیاده‌سازی بر روی عکس مورد نظر است. اما چندین گروه مختلف که سعی کردند تا این دو روش را با هم ترکیب کنند، بر روی جلب توجه بصری بیننده تمرکز کردند. در‌ حقیقت آن‌ها تلاش کردند تا دریابند کدام‌یک از بخش‌های یک عکس از لحاظ بصری ارزش بالاتری دارد و در واقع بهتر می‌تواند عکس را توصیف کند تا در نهایت توصیف خود از عکس را بر اساس آن بخش‌ها بنویسند.

سیستم Rochester/Adobe بر روی مسئله‌ای تمرکز می‌کنند که محققان آن‌ را جلب توجه معنایی می‌نامند. مقاله‌ای تحت عنوان "شرح تصاویر بوسیله جلب توجه معنایی" منتشر شده است که این مقاله توسط پروفسور Jiebo Luo و چند تن از همکارانش گردآوری شد بود که در نهایت توسط IEEE در سال ۲۰۱۶ در کنفرانس شناخت الگوها و دید کامپیوتری (CVPR) مورد تایید قرار گرفت. این پژوهش جلب توجه معنایی را به عنوان توانایی فراهم کردن یک توصیف دقیق از موضوع مهم می داند تا این توصیف‌ها از تصاویر دقیقا در زمانی که به آن‌ها احتیاج داریم، به‌ کار بیایند.

پرفسور Luo هم‌چنین می‌گوید: در توصیف کردن یک تصویر صرفا نباید به چیزی که در مرکز عکس وجود دارد توجه کرد یا اینکه تنها به مواردی اهمیت دهیم که در عکس بزرگ‌تر از بقیه چیزها به نظر می‌رسند. بلکه باید با روشی آشنا شویم تا بتوانیم به وسیله آن درباره اهمیت یک کلمه بخصوص که مرتبط با آن عکس است، تصمیم بگیریم.

برای مثال، عکسی بگیرید که یک میز و افراد نشسته دور آن را نشان می‌دهد. در این عکس ممکن است میز در وسط تصویر باشد اما در توصیف چنین عکسی به جای اینکه بگوییم: یک میز با افرادی که دور آن نشسته‌اند، بهتر است بگوییم: گروهی از افراد که دور یک میز نشسته‌اند. اگر چه هر دو جمله صحیح است اما جمله دوم سعی دارد نشان دهد که چه چیزی می‌تواند برای خوانندگان و بینندگان جالب به نظر برسد.

توصیف تصاویر یک عکس در کامپیوتر به دو نکته کلیدی در بحث هوش مصنوعی اشاره دارد: دید کامپیوتری و پردازش زبان مادری. در بخش دید کامپیوتری، محققان توسط یک بانک اطلاعاتی عظیمی از تصاویر، سیستم‌های خود را آموزش می‌دهند در نتیجه این سیستم‌ها یاد می‌گیرند که چطور موضوع را در یک عکس شناسایی کنند. پس از آن نوبت به مدل‌های زبان می‌رسد تا کلمات مناسب با آن موضوع را انتخاب کنند و در کنار یکدیگر قرار دهند. علاوه بر الگوریتمی که پرفسور Luo و تیمش در سیستم خود مورد استفاده قرار می‌دهند آنها به سیستم خود دایره لغات فراوانی را آموزش دادند. هدف در این کار نه تنها درک ساختار یک جمله است بلکه درک مفهوم تک تک کلمات است. اینکه چه کلماتی معمولا بیشتر با یکدیگر استفاده می‌شوند و یا این‌که چه کلماتی از لحاظ معنایی، در رساندن مفهوم عکس به مخاطب ارزش بالاتری دارند.

منبع: phys

ارسال نظر