تاثیر مهم کلمات در توصیف دقیق یک عکس
نوشتن توضیحات مناسب برای یک عکس میتواند تاثیرگذاری بهسزایی در انتقال مفهوم عکس مورد نظر به مخاطب داشته باشد.

به گزارش کلیک، یک تیم از محققان دانشگاهی و شرکت ادوبی (Adobe) عملکرد بهتری از خود درباره نوشتن توضیحات مربوط به یک عکس، نسبت به روشهای دیگر، ارائه کردند. راز موفقیت آنها، فکر کردن درباره کلمات و اینکه آنها چه معنایی دارند و چطور آنها را در ساختار یک جمله و در جای مناسب قرار دهند، است. در واقع آنها به همان اندازه که به عکس دقت میکنند به جملاتی که میتوانند بیانکننده مفهوم آن عکس باشد نیز توجه دارند.
مدل Rochester/Adobe دو روشی هستند که عموما به منظور نوشتن توضیحات یک عکس مورد استفاده قرار میگیرند. اولین شیوه، روش بالا به پایین (top-down) است که در آن ابتدا مهمترین قسمت تصویر (یا به عبارتی جان کلام تصویر) را مییابند و سپس آن را به کلمات تبدیل میکنند.شیوه دوم، روش پایین به بالا (bottom-up) است که ابتدا کلمات را به بخشهای مختلف عکس تخصیص میدهند و سپس آنها را با یکدیگر ترکیب کرده و یک جمله میسازند.
مدل Rochester/Adobe هماکنون در حال رقابت با گوگل، مایکروسافت، Baidu/UCLA، دانشگاه اسنفورد، دانشگاه برکلی کالیفرنیا، و دانشگاه تورنتو/مونترال و سایر رقبای قدر در زمینه مسابقات توصیف یک عکس میباشد که توسط مایکروسافت برگزار میشود و چالش Microsoft COCO Image Captioning نامیده میشود.
در حالی که هنوز زمانی زیادی باقی است تا برنده این رقابت مشخص شود اما سیستم مورد توجه Rochester از ماه نوامبر سال گذشته همچنان پیشتاز است و در صدر جدول این رقابتها قرار دارد.
از آنجایی که بازخورد خوبی از ترکیب این دو روش با یکدیگر برای همه آشکار شد، گروههای دیگر نیز تلاش کردند تا این دو روش را یا یکدیگر ترکیب کنند. آنها سعی دارند مکانیزمی طراحی کنند که سیستم آنها تشخیص دهد که کدام یک از روشها قادر به پیادهسازی بر روی عکس مورد نظر است. اما چندین گروه مختلف که سعی کردند تا این دو روش را با هم ترکیب کنند، بر روی جلب توجه بصری بیننده تمرکز کردند. در حقیقت آنها تلاش کردند تا دریابند کدامیک از بخشهای یک عکس از لحاظ بصری ارزش بالاتری دارد و در واقع بهتر میتواند عکس را توصیف کند تا در نهایت توصیف خود از عکس را بر اساس آن بخشها بنویسند.
سیستم Rochester/Adobe بر روی مسئلهای تمرکز میکنند که محققان آن را جلب توجه معنایی مینامند. مقالهای تحت عنوان "شرح تصاویر بوسیله جلب توجه معنایی" منتشر شده است که این مقاله توسط پروفسور Jiebo Luo و چند تن از همکارانش گردآوری شد بود که در نهایت توسط IEEE در سال ۲۰۱۶ در کنفرانس شناخت الگوها و دید کامپیوتری (CVPR) مورد تایید قرار گرفت. این پژوهش جلب توجه معنایی را به عنوان توانایی فراهم کردن یک توصیف دقیق از موضوع مهم می داند تا این توصیفها از تصاویر دقیقا در زمانی که به آنها احتیاج داریم، به کار بیایند.
پرفسور Luo همچنین میگوید: در توصیف کردن یک تصویر صرفا نباید به چیزی که در مرکز عکس وجود دارد توجه کرد یا اینکه تنها به مواردی اهمیت دهیم که در عکس بزرگتر از بقیه چیزها به نظر میرسند. بلکه باید با روشی آشنا شویم تا بتوانیم به وسیله آن درباره اهمیت یک کلمه بخصوص که مرتبط با آن عکس است، تصمیم بگیریم.
برای مثال، عکسی بگیرید که یک میز و افراد نشسته دور آن را نشان میدهد. در این عکس ممکن است میز در وسط تصویر باشد اما در توصیف چنین عکسی به جای اینکه بگوییم: یک میز با افرادی که دور آن نشستهاند، بهتر است بگوییم: گروهی از افراد که دور یک میز نشستهاند. اگر چه هر دو جمله صحیح است اما جمله دوم سعی دارد نشان دهد که چه چیزی میتواند برای خوانندگان و بینندگان جالب به نظر برسد.
توصیف تصاویر یک عکس در کامپیوتر به دو نکته کلیدی در بحث هوش مصنوعی اشاره دارد: دید کامپیوتری و پردازش زبان مادری. در بخش دید کامپیوتری، محققان توسط یک بانک اطلاعاتی عظیمی از تصاویر، سیستمهای خود را آموزش میدهند در نتیجه این سیستمها یاد میگیرند که چطور موضوع را در یک عکس شناسایی کنند. پس از آن نوبت به مدلهای زبان میرسد تا کلمات مناسب با آن موضوع را انتخاب کنند و در کنار یکدیگر قرار دهند. علاوه بر الگوریتمی که پرفسور Luo و تیمش در سیستم خود مورد استفاده قرار میدهند آنها به سیستم خود دایره لغات فراوانی را آموزش دادند. هدف در این کار نه تنها درک ساختار یک جمله است بلکه درک مفهوم تک تک کلمات است. اینکه چه کلماتی معمولا بیشتر با یکدیگر استفاده میشوند و یا اینکه چه کلماتی از لحاظ معنایی، در رساندن مفهوم عکس به مخاطب ارزش بالاتری دارند.
منبع: phys